1、求SEO高手指點robots文件的相關語法!
robots基本概念
Robots.txt文件是網站的一個文件,它是給搜索引擎蜘蛛看的。搜索引擎蜘蛛爬行道我們的網站首先就是抓取這個文件,根據裡面的內容來決定對網站文件訪問的范圍。它能夠保護我們的一些文件不暴露在搜索引擎之下,從而有效的控制蜘蛛的爬取路徑,為我們站長做好seo創造必要的條件。尤其是我們的網站剛剛創建,有些內容還不完善,暫時還不想被搜索引擎收錄時。
robots.txt也可用在某一目錄中。對這一目錄下的文件進行搜索范圍設定。
幾點注意:
網站必須要有一個robot.txt文件。
文件名是小寫字母。
當需要完全屏蔽文件時,需要配合meta的robots屬性。
robots.txt的基本語法
內容項的基本格式:鍵: 值對。
1) User-Agent鍵
後面的內容對應的是各個具體的搜索引擎爬行器的名稱。如百度是Baispider,谷歌是Googlebot。
一般我們這樣寫:
User-Agent: *
表示允許所有搜索引擎蜘蛛來爬行抓取。如果只想讓某一個搜索引擎蜘蛛來爬行,在後面列出名字即可。如果是多個,則重復寫。
注意:User-Agent:後面要有一個空格。
在robots.txt中,鍵後面加:號,後面必有一個空格,和值相區分開。
2)Disallow鍵
該鍵用來說明不允許搜索引擎蜘蛛抓取的URL路徑。
例如:Disallow: /index.php 禁止網站index.php文件
Allow鍵
該鍵說明允許搜索引擎蜘蛛爬行的URL路徑
例如:Allow: /index.php 允許網站的index.php
通配符*
代表任意多個字元
例如:Disallow: /*.jpg 網站所有的jpg文件被禁止了。
結束符$
表示以前面字元結束的url。
例如:Disallow: /?$ 網站所有以?結尾的文件被禁止。
四、robots.txt實例分析
例1. 禁止所有搜索引擎訪問網站的任何部分
User-agent: *
Disallow: /
例2. 允許所有的搜索引擎訪問網站的任何部分
User-agent: *
Disallow:
例3. 僅禁止Baispider訪問您的網站
User-agent: Baispider
Disallow: /
例4. 僅允許Baispider訪問您的網站
User-agent: Baispider
Disallow:
例5. 禁止spider訪問特定目錄
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
注意事項:1)三個目錄要分別寫。2)請注意最後要帶斜杠。3)帶斜杠與不帶斜杠的區別。
例6. 允許訪問特定目錄中的部分url
我希望a目錄下只有b.htm允許訪問,怎麼寫?
User-agent: *
Allow: /a/b.htm
Disallow: /a/
註:允許收錄優先順序要高於禁止收錄。
從例7開始說明通配符的使用。通配符包括("$" 結束符;
"*"任意符)
例7. 禁止訪問網站中所有的動態頁面
User-agent: *
Disallow: /*?*
例8. 禁止搜索引擎抓取網站上所有圖片
User-agent: *
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
其他很多情況呢,需要具體情況具體分析。只要你了解了這些語法規則以及通配符的使用,相信很多情況是可以解決的。
meta robots標簽
meta是網頁html文件的head標簽裡面的標簽內容。它規定了此html文件對與搜索引擎的抓取規則。與robot.txt 不同,它只針對寫在此html的文件。
寫法:
<meta name="robots" content="…" />。
…裡面的內容列出如下
noindex - 阻止頁面被列入索引。
nofollow - 阻止對於頁面中任何超級鏈接進行索引。
noarchive - 不保存該頁面的網頁快照。
nosnippet - 不在搜索結果中顯示該頁面的摘要信息,同時不保存該頁面的網頁快照。
noodp - 在搜索結果中不使用Open Directory Project中的描述信息作為其摘要信息。
2、如何為wordpress創建有利於seo的robots.txt文件
如果您不想讓 Google 或其他搜索引擎訪問您網站中的某些內容,請用 robots.txt 文件指定搜索引擎抓取您的網站內容的方式。這是google管理員工具對robots.txt功能的一個描述。robots.txt文件說白了就是告訴爬蟲哪些網址是可以被收錄那些是禁止收錄的。對於大多數wordpress博主來說很少注意robots.txt,認為他無關緊要,其實不然,robots.txt在wordpress優化,網站seo方面有著很重要的作用。robots.txt不光可以保護網站隱私鏈接不被搜索到,而且可以控制網站內容的重復和抓取錯誤。下面我就寫幾種wordpress常用的robots.txt規則。
最簡單的robots.txt規則:
User-agent: *Disallow:
這是開放式的寫法,Disallow:留空,是讓搜索引擎收錄所有鏈接。
安全性的robots.txt書寫規則:
User-agent: *Disallow: /cgi-bin/Disallow: /wp-Allow: /wp-content/uploads/Disallow: /*.php$Disallow: /*.inc$Disallow: /*.js$Disallow: /*.css$Disallow: /*.cgi$Disallow: /?s=
有利於seo的robots.txt書寫規則:(以本站為例)
User-agent: *Disallow: /cgi-bin/Disallow: /wp-Disallow: */rss.xmlDisallow: /author/Disallow: /page/Disallow: /tag/Disallow: */trackback/Disallow: */feed/Disallow: /*.php$Disallow: /*.inc$Disallow: /*.js$Disallow: /*.css$Disallow: /*.cgi$Disallow: /*?*Disallow: /?s=Sitemap: http://www.pakelab.com/sitemap.xml
先說所我為什麼這么設置。google管理員工具在分析我網站抓取錯誤信息的時候,發現大量鏈接是http://www.pakelab.com/xxxx/rss.xml的形式,為了減少抓取錯誤,我就讓搜索不爬這些鏈接,Disallow: */rss.xml ,如果你沒遇到和我一樣的問題這一條你可以不用加。同樣,如果你的網站有大量抓取錯誤的無效鏈接,你可以在這里指定不抓取。
再有就是網站元重復太嚴重(標題重復,描述重復,關鍵詞重復),這嚴重影響搜索引擎排名,我看中的是文章頁排名,所以像標簽頁,作者文章歸檔,月份存檔頁,分頁這些我選擇Disallow。因為我的文章頁面在google中的權重很高,流量幾乎都是文章頁面的,所以才這么設置。這個根據自己網站實際情況選擇性的設置。
feed和trackback的條款是一定要的,可以說wordpress 80%以上的補充材料都是和它們有關。
wordpress官方robots.txt書寫規則(國外)
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /author/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads
# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# digg mirror
User-agent: ggmirror
Disallow: /
3、關於SEO的robots.txt,眾所周知robots可以禁止或允許百度蜘蛛訪問網站哪些文件夾;
蜘蛛在訪問網站時,最先訪問的是該網站robots.txt文件
如果網站有robots.txt文件並且裡面有禁止蜘蛛訪問的代碼的話蜘蛛就不會訪問了
例如:robots.txt文件中的代碼為:
User-agent:*
Disallow:/
上面這個robot.txt文件禁止所有搜索引擎爬取任何內容
4、seo中robots.txt是什麼意思?
它是一種存放於網站根目錄下的文本文件,通常告訴搜索引擎蜘蛛 網站中哪些內容是不能被搜索引擎蜘蛛獲取的 哪些是可以獲取的
5、新手SEO具體操作必須怎麼寫robots文件。
在大家平時site:網站的時候或者剛改版完網站的時候是不是經常遇到一些頁面和死鏈接是你不想讓搜索引擎收錄的,但是卻被收錄了,而且數量還很多的情況,作為一個SEO在優化過程中會遇到很多這樣的問題,怎麼做才可以減免甚至是避免這種情況發生呢?
學會寫robots.txt文件就可以避免這種情況的發生,它是一個存放在網站根目錄下的文件,是一個協議
,當搜索引擎蜘蛛訪問你的網站的時候就會先尋找網站根目錄下是否有這個文件,這個文件的作用是告訴搜索引擎蜘蛛網站中什麼可以被查看的,什麼是不能抓取,這種就給了蜘蛛很好的引導,也免去了我們的後顧之憂。
6、SEO 的 robot.txt 文件是怎麼寫的,怎樣屏蔽一些他們已經收錄了的網頁。 求指點,不說明白是不給分的。
如果是谷歌的話,反應很快的;如果是百度,就算你加上也有可能收錄,而且去掉速度也很慢,我的情侶seo博客就是很好的例子。
•要攔截整個網站,請使用正斜線。
Disallow: /•要攔截某一目錄以及其中的所有內容,請在目錄名後添加正斜線。
Disallow: /無用目錄/ •要攔截某個網頁,請列出該網頁。
Disallow: /私人文件.html•要從 Google 圖片中刪除特定圖片,請添加以下內容:
User-agent: Googlebot-Image
Disallow: /images/狗.jpg •要從 Goo le 圖片中 除您網站上的所有圖片,請執行以下指令:
User-agent: Googlebot-Image
Disallow: / •要攔截某一特定文件類型的文件(例如 .gif),請使用以下內容:
User-agent: Googlebot
Disallow: /*.gif$•要阻止抓取您網站上的網頁,而同時又能在這些網頁上顯示 Adsense 廣告,請禁止除 Mediapartners-Google 以外的所有漫遊器。這樣可使網頁不出現在搜索結果中,同時又能讓 Mediapartners-Google 漫遊器分析網頁,從而確定要展示的廣告。Mediapartners-Google 漫遊器不與其他 Google User-agent 共享網頁。例如:
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /
Googlebot(但並非所有搜索引擎)遵循某些模式匹配原則。
•要匹配連續字元,請使用星號 (*)。例如,要攔截對所有以 private 開頭的子目錄的訪問,請使用以下內容:
User-agent: Googlebot
Disallow: /private*/•要攔截對所有包含問號 (?) 的網址的訪問(具體地說,這種網址以您的域名開頭、後接任意字元串,然後接問號,而後又接任意字元串),請使用以下內容:
User-agent: Googlebot
Disallow: /*?•要指定與某個網址的結尾字元相匹配,請使用 $。例如,要攔截以 .xls 結尾的所有網址,請使用以下內容:
User-agent: Googlebot
Disallow: /*.xls$您可將此模式匹配與 Allow 指令配合使用。例如,如果 ? 代表一個會話 ID,那麼您可能希望排除包含 ? 的所有網址,以確保 Googlebot 不會抓取重復網頁。但是以 ? 結尾的網址可能是您希望包含在內的網頁的版本。在此情況下,您可以對您的 robots.txt 文件進行如下設置:
User-agent: *
Allow: /*?$
Disallow: /*?Disallow: /*? 指令會阻止包含 ? 的所有網址(具體地說,它將攔截所有以您的域名開頭、後接任意字元串,然後接問號,而後又接任意字元串的網址)。
Allow: /*?$ 指令將允許以 ? 結尾的任何網址(具體地說,它將允許所有以您的域名開頭、後接任意字元串,然後接 ?,? 之後不接任何字元的網址)。
7、我對seo就是菜鳥。。我把robots.txt文件里的代碼都復制出來了。希望高手幫我看看。。
1、這段代碼是禁止搜索引擎抓取你的論壇中所有的數據和頁面;這樣操作不利用你的網站優化和排名;
2、如果你的論壇是老站,你不希望蜘蛛抓取你的網站某些內容,你是可以禁止抓取;但如果是新站,同時希望通過搜索引擎推廣網站,建議你把robot.txt直接刪除;
8、有關seo中的robots文件的寫法,誰可以幫我詳細解答下呢
做SEO時,最好是把Robots.txt文件寫好,下面說下寫法:
搜索引擎Robots協議:是放置在網站根目錄下robots.txt文本文件,在文件中可以設定搜索引擎蜘蛛爬行規則。設置搜索引擎蜘蛛Spider抓取內容規則。
下面是robots的寫法規則與含義:
首先要創建一個robots.txt文本文件,放置到網站的根目錄下,下面開始編輯設置Robots協議文件:
一、允許所有搜索引擎蜘蛛抓取所以目錄文件,如果文件無內容,也表示允許所有的蜘蛛訪問,設置代碼如下:
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
二、禁止某個搜索引擎蜘蛛抓取目錄文件,設置代碼如下:
User-agent: Msnbot
Disallow: /
例如想禁止MSN的蜘蛛抓取就設為,Msnbot代表MSN的蜘蛛,如果想禁止其他搜索引擎就更換蜘蛛名字即可,其他蜘蛛名字如下:
百度的蜘蛛:baiduspider
Google的蜘蛛: Googlebot
騰訊Soso:Sosospider
Yahoo的蜘蛛:Yahoo Slurp
Msn的蜘蛛:Msnbot
Altavista的蜘蛛:Scooter
Lycos的蜘蛛: Lycos_Spider_(T-Rex)
三、禁止某個目錄被搜索引擎蜘蛛抓取,設置代碼如下:
User-agent: *
Disallow: /目錄名字1/
Disallow: /目錄名字2/
Disallow: /目錄名字3/
把目錄名字改為你想要禁止的目錄即可禁止搜索引擎蜘蛛抓取,目錄名字未寫表示可以被搜索引擎抓取。
四、禁止某個目錄被某個搜索引擎蜘蛛抓取,設置代碼如下:
User-agent: 搜索引擎蜘蛛名字 說明(上面有說明蜘蛛的名字)
Disallow: /目錄名字/ 說明(這里設定禁止蜘蛛抓取的目錄名稱)
例如,想禁目Msn蜘蛛抓取admin文件夾,可以設代碼如下:
User-agent: Msnbot
Disallow: /admin/
五、設定某種類型文件禁止被某個搜索引擎蜘蛛抓取,設置代碼如下:
User-agent: *
Disallow: /*.htm 說明(其中「.htm」,表示禁止搜索引擎蜘蛛抓取所有「htm」為後綴的文件)
六、充許所有搜索引擎蜘蛛訪問以某個擴展名為後綴的網頁地址被抓取,設置代碼如下:
User-agent: *
Allow: .htm$ 說明(其中「.htm」,表示充許搜索引擎蜘蛛抓取所有「htm」為後綴的文件)
七、只充許某個搜索引擎蜘蛛抓取目錄文件,設置代碼如下:
User-agent: 搜索引擎蜘蛛名字 說明(上面有說明蜘蛛的名字)
Disallow:
9、【SEO咨詢】Robots.txt文件和Sitemap到底有沒有必要?
當然有必要做啦,蜘蛛來到網站第一個找的就是robots.txt文件,沒有的話,就相當於一個404錯誤,sitemap也是有必要做的,可以讓蜘蛛很簡單的工作,這樣蜘蛛對網站也相對會有好點。
10、做seo的博客需要robots.txt文件嗎,如果沒有會是怎麼樣呀
如果有這個文件搜索引擎會優先讀取他,因為只有我們的網站有部分內容不希望搜索引擎收錄的時候才用得到這個文件。如果沒有這個文件,搜索引擎就會根據鏈接來爬行你的整個網站,包括後台目錄文件。