导航:首页 > 网站优化 > seorobotstxt

seorobotstxt

发布时间:2020-09-22 22:22:27

1、求SEO高手指点robots文件的相关语法!

robots基本概念

Robots.txt文件是网站的一个文件,它是给搜索引擎蜘蛛看的。搜索引擎蜘蛛爬行道我们的网站首先就是抓取这个文件,根据里面的内容来决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制蜘蛛的爬取路径,为我们站长做好seo创造必要的条件。尤其是我们的网站刚刚创建,有些内容还不完善,暂时还不想被搜索引擎收录时。

robots.txt也可用在某一目录中。对这一目录下的文件进行搜索范围设定。

几点注意:

网站必须要有一个robot.txt文件。

文件名是小写字母。

当需要完全屏蔽文件时,需要配合meta的robots属性。

robots.txt的基本语法

内容项的基本格式:键: 值对。

1) User-Agent键

后面的内容对应的是各个具体的搜索引擎爬行器的名称。如百度是Baispider,谷歌是Googlebot。

一般我们这样写:

User-Agent: *

表示允许所有搜索引擎蜘蛛来爬行抓取。如果只想让某一个搜索引擎蜘蛛来爬行,在后面列出名字即可。如果是多个,则重复写。

注意:User-Agent:后面要有一个空格。

在robots.txt中,键后面加:号,后面必有一个空格,和值相区分开。

2)Disallow键

该键用来说明不允许搜索引擎蜘蛛抓取的URL路径。

例如:Disallow: /index.php 禁止网站index.php文件

Allow键

该键说明允许搜索引擎蜘蛛爬行的URL路径

例如:Allow: /index.php 允许网站的index.php

通配符*

代表任意多个字符

例如:Disallow: /*.jpg 网站所有的jpg文件被禁止了。

结束符$

表示以前面字符结束的url。

例如:Disallow: /?$ 网站所有以?结尾的文件被禁止。

四、robots.txt实例分析

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

例2. 允许所有的搜索引擎访问网站的任何部分

User-agent: *

Disallow:

例3. 仅禁止Baispider访问您的网站

User-agent: Baispider

Disallow: /

例4. 仅允许Baispider访问您的网站

User-agent: Baispider

Disallow:

例5. 禁止spider访问特定目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /data/

注意事项:1)三个目录要分别写。2)请注意最后要带斜杠。3)带斜杠与不带斜杠的区别。

例6. 允许访问特定目录中的部分url

我希望a目录下只有b.htm允许访问,怎么写?

User-agent: *

Allow: /a/b.htm

Disallow: /a/

注:允许收录优先级要高于禁止收录。

从例7开始说明通配符的使用。通配符包括("$" 结束符;

"*"任意符)

例7. 禁止访问网站中所有的动态页面

User-agent: *

Disallow: /*?*

例8. 禁止搜索引擎抓取网站上所有图片

User-agent: *

Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.gif$

Disallow: /*.png$

Disallow: /*.bmp$

其他很多情况呢,需要具体情况具体分析。只要你了解了这些语法规则以及通配符的使用,相信很多情况是可以解决的。

meta robots标签

meta是网页html文件的head标签里面的标签内容。它规定了此html文件对与搜索引擎的抓取规则。与robot.txt 不同,它只针对写在此html的文件。

写法:

<meta name="robots" content="…" />。

…里面的内容列出如下

noindex - 阻止页面被列入索引。

nofollow - 阻止对于页面中任何超级链接进行索引。

noarchive - 不保存该页面的网页快照。

nosnippet - 不在搜索结果中显示该页面的摘要信息,同时不保存该页面的网页快照。

noodp - 在搜索结果中不使用Open Directory Project中的描述信息作为其摘要信息。

2、如何为wordpress创建有利于seo的robots.txt文件

如果您不想让 Google 或其他搜索引擎访问您网站中的某些内容,请用 robots.txt 文件指定搜索引擎抓取您的网站内容的方式。这是google管理员工具对robots.txt功能的一个描述。robots.txt文件说白了就是告诉爬虫哪些网址是可以被收录那些是禁止收录的。对于大多数wordpress博主来说很少注意robots.txt,认为他无关紧要,其实不然,robots.txt在wordpress优化,网站seo方面有着很重要的作用。robots.txt不光可以保护网站隐私链接不被搜索到,而且可以控制网站内容的重复和抓取错误。下面我就写几种wordpress常用的robots.txt规则。

最简单的robots.txt规则:

User-agent: *Disallow:

这是开放式的写法,Disallow:留空,是让搜索引擎收录所有链接。

安全性的robots.txt书写规则:

User-agent: *Disallow: /cgi-bin/Disallow: /wp-Allow: /wp-content/uploads/Disallow: /*.php$Disallow: /*.inc$Disallow: /*.js$Disallow: /*.css$Disallow: /*.cgi$Disallow: /?s=

有利于seo的robots.txt书写规则:(以本站为例)

User-agent: *Disallow: /cgi-bin/Disallow: /wp-Disallow: */rss.xmlDisallow: /author/Disallow: /page/Disallow: /tag/Disallow: */trackback/Disallow: */feed/Disallow: /*.php$Disallow: /*.inc$Disallow: /*.js$Disallow: /*.css$Disallow: /*.cgi$Disallow: /*?*Disallow: /?s=Sitemap: http://www.pakelab.com/sitemap.xml

先说所我为什么这么设置。google管理员工具在分析我网站抓取错误信息的时候,发现大量链接是http://www.pakelab.com/xxxx/rss.xml的形式,为了减少抓取错误,我就让搜索不爬这些链接,Disallow: */rss.xml ,如果你没遇到和我一样的问题这一条你可以不用加。同样,如果你的网站有大量抓取错误的无效链接,你可以在这里指定不抓取。

再有就是网站元重复太严重(标题重复,描述重复,关键词重复),这严重影响搜索引擎排名,我看中的是文章页排名,所以像标签页,作者文章归档,月份存档页,分页这些我选择Disallow。因为我的文章页面在google中的权重很高,流量几乎都是文章页面的,所以才这么设置。这个根据自己网站实际情况选择性的设置。

feed和trackback的条款是一定要的,可以说wordpress 80%以上的补充材料都是和它们有关。

wordpress官方robots.txt书写规则(国外)

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /author/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

# digg mirror
User-agent: ggmirror
Disallow: /

3、关于SEO的robots.txt,众所周知robots可以禁止或允许百度蜘蛛访问网站哪些文件夹;

蜘蛛在访问网站时,最先访问的是该网站robots.txt文件
如果网站有robots.txt文件并且里面有禁止蜘蛛访问的代码的话蜘蛛就不会访问了
例如:robots.txt文件中的代码为:
User-agent:*
Disallow:/
上面这个robot.txt文件禁止所有搜索引擎爬取任何内容

4、seo中robots.txt是什么意思?

它是一种存放于网站根目录下的文本文件,通常告诉搜索引擎蜘蛛 网站中哪些内容是不能被搜索引擎蜘蛛获取的 哪些是可以获取的

5、新手SEO具体操作必须怎么写robots文件。

在大家平时site:网站的时候或者刚改版完网站的时候是不是经常遇到一些页面和死链接是你不想让搜索引擎收录的,但是却被收录了,而且数量还很多的情况,作为一个SEO在优化过程中会遇到很多这样的问题,怎么做才可以减免甚至是避免这种情况发生呢?
学会写robots.txt文件就可以避免这种情况的发生,它是一个存放在网站根目录下的文件,是一个协议
,当搜索引擎蜘蛛访问你的网站的时候就会先寻找网站根目录下是否有这个文件,这个文件的作用是告诉搜索引擎蜘蛛网站中什么可以被查看的,什么是不能抓取,这种就给了蜘蛛很好的引导,也免去了我们的后顾之忧。

6、SEO 的 robot.txt 文件是怎么写的,怎样屏蔽一些他们已经收录了的网页。 求指点,不说明白是不给分的。

如果是谷歌的话,反应很快的;如果是百度,就算你加上也有可能收录,而且去掉速度也很慢,我的情侣seo博客就是很好的例子。
•要拦截整个网站,请使用正斜线。
Disallow: /•要拦截某一目录以及其中的所有内容,请在目录名后添加正斜线。
Disallow: /无用目录/ •要拦截某个网页,请列出该网页。
Disallow: /私人文件.html•要从 Google 图片中删除特定图片,请添加以下内容:
User-agent: Googlebot-Image
Disallow: /images/狗.jpg •要从 Goo le 图片中 除您网站上的所有图片,请执行以下指令:
User-agent: Googlebot-Image
Disallow: / •要拦截某一特定文件类型的文件(例如 .gif),请使用以下内容:
User-agent: Googlebot
Disallow: /*.gif$•要阻止抓取您网站上的网页,而同时又能在这些网页上显示 Adsense 广告,请禁止除 Mediapartners-Google 以外的所有漫游器。这样可使网页不出现在搜索结果中,同时又能让 Mediapartners-Google 漫游器分析网页,从而确定要展示的广告。Mediapartners-Google 漫游器不与其他 Google User-agent 共享网页。例如:
User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Googlebot(但并非所有搜索引擎)遵循某些模式匹配原则。

•要匹配连续字符,请使用星号 (*)。例如,要拦截对所有以 private 开头的子目录的访问,请使用以下内容:
User-agent: Googlebot
Disallow: /private*/•要拦截对所有包含问号 (?) 的网址的访问(具体地说,这种网址以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串),请使用以下内容:
User-agent: Googlebot
Disallow: /*?•要指定与某个网址的结尾字符相匹配,请使用 $。例如,要拦截以 .xls 结尾的所有网址,请使用以下内容:
User-agent: Googlebot
Disallow: /*.xls$您可将此模式匹配与 Allow 指令配合使用。例如,如果 ? 代表一个会话 ID,那么您可能希望排除包含 ? 的所有网址,以确保 Googlebot 不会抓取重复网页。但是以 ? 结尾的网址可能是您希望包含在内的网页的版本。在此情况下,您可以对您的 robots.txt 文件进行如下设置:

User-agent: *
Allow: /*?$
Disallow: /*?Disallow: /*? 指令会阻止包含 ? 的所有网址(具体地说,它将拦截所有以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串的网址)。

Allow: /*?$ 指令将允许以 ? 结尾的任何网址(具体地说,它将允许所有以您的域名开头、后接任意字符串,然后接 ?,? 之后不接任何字符的网址)。

7、我对seo就是菜鸟。。我把robots.txt文件里的代码都复制出来了。希望高手帮我看看。。

1、这段代码是禁止搜索引擎抓取你的论坛中所有的数据和页面;这样操作不利用你的网站优化和排名;

2、如果你的论坛是老站,你不希望蜘蛛抓取你的网站某些内容,你是可以禁止抓取;但如果是新站,同时希望通过搜索引擎推广网站,建议你把robot.txt直接删除;

8、有关seo中的robots文件的写法,谁可以帮我详细解答下呢

做SEO时,最好是把Robots.txt文件写好,下面说下写法:
搜索引擎Robots协议:是放置在网站根目录下robots.txt文本文件,在文件中可以设定搜索引擎蜘蛛爬行规则。设置搜索引擎蜘蛛Spider抓取内容规则。
下面是robots的写法规则与含义:
首先要创建一个robots.txt文本文件,放置到网站的根目录下,下面开始编辑设置Robots协议文件:

一、允许所有搜索引擎蜘蛛抓取所以目录文件,如果文件无内容,也表示允许所有的蜘蛛访问,设置代码如下:

User-agent: *
Disallow:

或者

User-agent: *
Allow: /

二、禁止某个搜索引擎蜘蛛抓取目录文件,设置代码如下:

User-agent: Msnbot
Disallow: /

例如想禁止MSN的蜘蛛抓取就设为,Msnbot代表MSN的蜘蛛,如果想禁止其他搜索引擎就更换蜘蛛名字即可,其他蜘蛛名字如下:
百度的蜘蛛:baiduspider
Google的蜘蛛: Googlebot
腾讯Soso:Sosospider
Yahoo的蜘蛛:Yahoo Slurp
Msn的蜘蛛:Msnbot
Altavista的蜘蛛:Scooter
Lycos的蜘蛛: Lycos_Spider_(T-Rex)

三、禁止某个目录被搜索引擎蜘蛛抓取,设置代码如下:
User-agent: *
Disallow: /目录名字1/
Disallow: /目录名字2/
Disallow: /目录名字3/

把目录名字改为你想要禁止的目录即可禁止搜索引擎蜘蛛抓取,目录名字未写表示可以被搜索引擎抓取。

四、禁止某个目录被某个搜索引擎蜘蛛抓取,设置代码如下:

User-agent: 搜索引擎蜘蛛名字 说明(上面有说明蜘蛛的名字)
Disallow: /目录名字/ 说明(这里设定禁止蜘蛛抓取的目录名称)

例如,想禁目Msn蜘蛛抓取admin文件夹,可以设代码如下:
User-agent: Msnbot
Disallow: /admin/

五、设定某种类型文件禁止被某个搜索引擎蜘蛛抓取,设置代码如下:

User-agent: *
Disallow: /*.htm 说明(其中“.htm”,表示禁止搜索引擎蜘蛛抓取所有“htm”为后缀的文件)

六、充许所有搜索引擎蜘蛛访问以某个扩展名为后缀的网页地址被抓取,设置代码如下:

User-agent: *
Allow: .htm$ 说明(其中“.htm”,表示充许搜索引擎蜘蛛抓取所有“htm”为后缀的文件)

七、只充许某个搜索引擎蜘蛛抓取目录文件,设置代码如下:

User-agent: 搜索引擎蜘蛛名字 说明(上面有说明蜘蛛的名字)
Disallow:

9、【SEO咨询】Robots.txt文件和Sitemap到底有没有必要?

当然有必要做啦,蜘蛛来到网站第一个找的就是robots.txt文件,没有的话,就相当于一个404错误,sitemap也是有必要做的,可以让蜘蛛很简单的工作,这样蜘蛛对网站也相对会有好点。

10、做seo的博客需要robots.txt文件吗,如果没有会是怎么样呀

如果有这个文件搜索引擎会优先读取他,因为只有我们的网站有部分内容不希望搜索引擎收录的时候才用得到这个文件。如果没有这个文件,搜索引擎就会根据链接来爬行你的整个网站,包括后台目录文件。

与seorobotstxt相关的知识