導航:首頁 > 網站優化 > seorebotstxt

seorebotstxt

發布時間:2020-11-19 02:05:54

1、如何為wordpress創建有利於seo的robots.txt文件

如果您不想讓 Google 或其他搜索引擎訪問您網站中的某些內容,請用 robots.txt 文件指定搜索引擎抓取您的網站內容的方式。這是google管理員工具對robots.txt功能的一個描述。robots.txt文件說白了就是告訴爬蟲哪些網址是可以被收錄那些是禁止收錄的。對於大多數wordpress博主來說很少注意robots.txt,認為他無關緊要,其實不然,robots.txt在wordpress優化,網站seo方面有著很重要的作用。robots.txt不光可以保護網站隱私鏈接不被搜索到,而且可以控制網站內容的重復和抓取錯誤。下面我就寫幾種wordpress常用的robots.txt規則。

最簡單的robots.txt規則:

User-agent: *Disallow:

這是開放式的寫法,Disallow:留空,是讓搜索引擎收錄所有鏈接。

安全性的robots.txt書寫規則:

User-agent: *Disallow: /cgi-bin/Disallow: /wp-Allow: /wp-content/uploads/Disallow: /*.php$Disallow: /*.inc$Disallow: /*.js$Disallow: /*.css$Disallow: /*.cgi$Disallow: /?s=

有利於seo的robots.txt書寫規則:(以本站為例)

User-agent: *Disallow: /cgi-bin/Disallow: /wp-Disallow: */rss.xmlDisallow: /author/Disallow: /page/Disallow: /tag/Disallow: */trackback/Disallow: */feed/Disallow: /*.php$Disallow: /*.inc$Disallow: /*.js$Disallow: /*.css$Disallow: /*.cgi$Disallow: /*?*Disallow: /?s=Sitemap: http://www.pakelab.com/sitemap.xml

先說所我為什麼這么設置。google管理員工具在分析我網站抓取錯誤信息的時候,發現大量鏈接是http://www.pakelab.com/xxxx/rss.xml的形式,為了減少抓取錯誤,我就讓搜索不爬這些鏈接,Disallow: */rss.xml ,如果你沒遇到和我一樣的問題這一條你可以不用加。同樣,如果你的網站有大量抓取錯誤的無效鏈接,你可以在這里指定不抓取。

再有就是網站元重復太嚴重(標題重復,描述重復,關鍵詞重復),這嚴重影響搜索引擎排名,我看中的是文章頁排名,所以像標簽頁,作者文章歸檔,月份存檔頁,分頁這些我選擇Disallow。因為我的文章頁面在google中的權重很高,流量幾乎都是文章頁面的,所以才這么設置。這個根據自己網站實際情況選擇性的設置。

feed和trackback的條款是一定要的,可以說wordpress 80%以上的補充材料都是和它們有關。

wordpress官方robots.txt書寫規則(國外)

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /author/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

# Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*

# Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*

# digg mirror
User-agent: ggmirror
Disallow: /

2、關於robots.txt書寫的問題!

在國內,網站管理者似乎對robots.txt並沒有引起多大重視,應一些朋友之請求,今天想通過這篇文章來簡單談一下.txt的寫作。

robots.txt基本介紹

robots.txt是一個純文本文件,在這個文件中網站管理者可以聲明該網站中不想被robots訪問的部分,或者指定搜索引擎只收錄指定的內容。

當一個搜索機器人(有的叫搜索蜘蛛)訪問一個站點時,它會首先檢查該站點根目錄下是否存在robots.txt,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,那麼搜索機器人就沿著鏈接抓取。

另外,robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。

robots.txt寫作語法

首先,我們來看一個robots.txt範例:http://www.seovip.cn/robots.txt

訪問以上具體地址,我們可以看到robots.txt的具體內容如下:

# Robots.txt file from http://www.seovip.cn
# All robots will spider the domain

User-agent: *
Disallow:

以上文本表達的意思是允許所有的搜索機器人訪問www.seovip.cn站點下的所有文件。

具體語法分析:其中#後面文字為說明信息;User-agent:後面為搜索機器人的名稱,後面如果是*,則泛指所有的搜索機器人;Disallow:後面為不允許訪問的文件目錄。

下面,我將列舉一些robots.txt的具體用法:

允許所有的robot訪問

User-agent: *
Disallow:

或者也可以建一個空文件 "/robots.txt" file

禁止所有搜索引擎訪問網站的任何部分

User-agent: *
Disallow: /

禁止所有搜索引擎訪問網站的幾個部分(下例中的01、02、03目錄)

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

禁止某個搜索引擎的訪問(下例中的BadBot)

User-agent: BadBot
Disallow: /

只允許某個搜索引擎的訪問(下例中的Crawler)

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

另外,我覺得有必要進行拓展說明,對robots meta進行一些介紹:

Robots META標簽則主要是針對一個個具體的頁面。和其他的META標簽(如使用的語言、頁面的描述、關鍵詞等)一樣,Robots META標簽也是放在頁面的<head></head>中,專門用來告訴搜索引擎ROBOTS如何抓取該頁的內容。

Robots META標簽的寫法:

Robots META標簽中沒有大小寫之分,name=」Robots」表示所有的搜索引擎,可以針對某個具體搜索引擎寫為name=」BaiSpider」。 content部分有四個指令選項:index、noindex、follow、nofollow,指令間以「,」分隔。

INDEX 指令告訴搜索機器人抓取該頁面;

FOLLOW 指令表示搜索機器人可以沿著該頁面上的鏈接繼續抓取下去;

Robots Meta標簽的預設值是INDEX和FOLLOW,只有inktomi除外,對於它,預設值是INDEX,NOFOLLOW。

這樣,一共有四種組合:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

其中

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以寫成<META NAME="ROBOTS" CONTENT="ALL">;

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以寫成<META NAME="ROBOTS" CONTENT="NONE">

目前看來,絕大多數的搜索引擎機器人都遵守robots.txt的規則,而對於Robots META標簽,目前支持的並不多,但是正在逐漸增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE還增加了一個指令「archive」,可以限制GOOGLE是否保留網頁快照。例如:

<META NAME="googlebot" CONTENT="index,follow,noarchive">

表示抓取該站點中頁面並沿著頁面中鏈接抓取,但是不在GOOLGE上保留該頁面的網頁快照。

3、【答得上才算SEO高手】織夢設置robot的時候,具體有哪些功能需要禁止抓取(Disallow),哪些功能需要開放?

robots.txt文件

搜索引擎使用sphider程序自動訪問互聯網上的網頁並獲取網頁信息。sphider在訪問一個網站時,會首先檢查該網站的根目錄下是否有一
個叫做robots.txt的純文本文件,這個文件用於指定sphider在您的網站上的抓取范圍。您可以在您的網站上創建一個robots.txt,在
文件中聲明該網站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分

robots.txt文件格式

「robots.txt」文件包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL,or NL作為結束符),每一條記錄的格式如下所示:

「<field>:<optional space><value><optional space>」

在該文件中可以使用#進行註解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,後面加上若干Disallow和Allow行。

User-agent

該項的值用於描述搜索引擎robot的名字。在「robots.txt」文件中,如果有多條User-agent記錄說明有多個robot會受到
「robots.txt」的限制,對該文件來說,至少要有一條User-agent記錄。如果該值的值為*,則對任何robot均有效

Disallow

該項的值用於描述不希望被訪問的一組URL,這個值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項的值開頭的URL不會被robot訪問

Allow

該項的值用於描述希望被訪問的一組URL,與Disallow項相似,這個值可以是一條完整的路徑,也可以是路徑的前綴,以Allow項的值開頭的URL是允許被robot訪問的

通配符

sphider支持使用「*」和「$」來模糊匹配URL

shell腳本禁止搜索引擎抓取

禁止搜索引擎抓取網站的網址可以在每個網站的根目錄下放置如下的robots.txt文件:

User-agent: *
Disallow: /

一鍵部署的shell腳本:

#!/bin/bash

#網站根目錄定義
root_dir=("/var/www/")

#構建爬蟲規則
for dir in ${root_dir[*]}
do
#刪除過期的robots.txt文件
if [ -f $dir/robots.txt ]; then
rm -r $dir/robots.txt
fi

#增加新的爬蟲規則
echo "User-agent: *" >$dir/robots.txt
echo "Disallow: /" >>$dir/robots.txt

#修改許可權
chown www-data.www-data $dir/robots.txt
done

4、Robot.txt對SEO有什麼影響?

很多人認為只有防止搜索引擎技術抓取的時候才有用。但是實際上正確使用Robot.txt對 SEO很有好處,比如重復內容用不同形式表現是經常需要的,而這種情況很容易被搜索引擎判定為重復內容堆砌。正確利用Robot可以引導搜索引擎只收錄首 選內容這樣就不會有作弊嫌疑了。(參見:google網站管理員blog的文章
巧妙地處理內容重復)除了處理重復外,Yahoo允許你在Robot.txt文件裡面用Crawl-delay:參數設定抓取頻率(參看:
)。

5、谷歌說沒法抓取我的網站說rotbots.TXT可能有問題,我查了一下,是這樣的,不知道有沒有問題.

你的rotbots.txt寫的是沒有問題的,但是谷歌已經撤出國內了,可以不考慮谷歌。應該重點考慮百度、360什麼的

6、求SEO高手指點robots文件的相關語法!

robots基本概念

Robots.txt文件是網站的一個文件,它是給搜索引擎蜘蛛看的。搜索引擎蜘蛛爬行道我們的網站首先就是抓取這個文件,根據裡面的內容來決定對網站文件訪問的范圍。它能夠保護我們的一些文件不暴露在搜索引擎之下,從而有效的控制蜘蛛的爬取路徑,為我們站長做好seo創造必要的條件。尤其是我們的網站剛剛創建,有些內容還不完善,暫時還不想被搜索引擎收錄時。

robots.txt也可用在某一目錄中。對這一目錄下的文件進行搜索范圍設定。

幾點注意:

網站必須要有一個robot.txt文件。

文件名是小寫字母。

當需要完全屏蔽文件時,需要配合meta的robots屬性。

robots.txt的基本語法

內容項的基本格式:鍵: 值對。

1) User-Agent鍵

後面的內容對應的是各個具體的搜索引擎爬行器的名稱。如百度是Baispider,谷歌是Googlebot。

一般我們這樣寫:

User-Agent: *

表示允許所有搜索引擎蜘蛛來爬行抓取。如果只想讓某一個搜索引擎蜘蛛來爬行,在後面列出名字即可。如果是多個,則重復寫。

注意:User-Agent:後面要有一個空格。

在robots.txt中,鍵後面加:號,後面必有一個空格,和值相區分開。

2)Disallow鍵

該鍵用來說明不允許搜索引擎蜘蛛抓取的URL路徑。

例如:Disallow: /index.php 禁止網站index.php文件

Allow鍵

該鍵說明允許搜索引擎蜘蛛爬行的URL路徑

例如:Allow: /index.php 允許網站的index.php

通配符*

代表任意多個字元

例如:Disallow: /*.jpg 網站所有的jpg文件被禁止了。

結束符$

表示以前面字元結束的url。

例如:Disallow: /?$ 網站所有以?結尾的文件被禁止。

四、robots.txt實例分析

例1. 禁止所有搜索引擎訪問網站的任何部分

User-agent: *

Disallow: /

例2. 允許所有的搜索引擎訪問網站的任何部分

User-agent: *

Disallow:

例3. 僅禁止Baispider訪問您的網站

User-agent: Baispider

Disallow: /

例4. 僅允許Baispider訪問您的網站

User-agent: Baispider

Disallow:

例5. 禁止spider訪問特定目錄

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /data/

注意事項:1)三個目錄要分別寫。2)請注意最後要帶斜杠。3)帶斜杠與不帶斜杠的區別。

例6. 允許訪問特定目錄中的部分url

我希望a目錄下只有b.htm允許訪問,怎麼寫?

User-agent: *

Allow: /a/b.htm

Disallow: /a/

註:允許收錄優先順序要高於禁止收錄。

從例7開始說明通配符的使用。通配符包括("$" 結束符;

"*"任意符)

例7. 禁止訪問網站中所有的動態頁面

User-agent: *

Disallow: /*?*

例8. 禁止搜索引擎抓取網站上所有圖片

User-agent: *

Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.gif$

Disallow: /*.png$

Disallow: /*.bmp$

其他很多情況呢,需要具體情況具體分析。只要你了解了這些語法規則以及通配符的使用,相信很多情況是可以解決的。

meta robots標簽

meta是網頁html文件的head標簽裡面的標簽內容。它規定了此html文件對與搜索引擎的抓取規則。與robot.txt 不同,它只針對寫在此html的文件。

寫法:

<meta name="robots" content="…" />。

…裡面的內容列出如下

noindex - 阻止頁面被列入索引。

nofollow - 阻止對於頁面中任何超級鏈接進行索引。

noarchive - 不保存該頁面的網頁快照。

nosnippet - 不在搜索結果中顯示該頁面的摘要信息,同時不保存該頁面的網頁快照。

noodp - 在搜索結果中不使用Open Directory Project中的描述信息作為其摘要信息。

7、網站SEO中有哪些特別需要注意的地方?

網站seo中有幾個很容易犯的錯誤

網頁標題關鍵詞推疊太嚴重,一般網站title中涉及主關鍵詞不要太多,2-3個為佳

網站關鍵字,雖然這個的影響已經比較小了,但還是盡量不要去堆疊關鍵字,否則是適得其反

網站描述,盡量不要重復,關鍵詞盡量概括

網站圖片盡量不要太大,影響網站載入速度

網站css和js調用盡量要少

img帶上必要的alt屬性

nofollow屬性,在不必要的網頁中可以加入

rebots文件,屬性一定要設置對,不然機器人很可能就被你屏蔽了,這是我的親身經歷

個別有不懂的可以參考我的網站 https://www.hshdlq.cn

8、discuz門戶網站rebots.txt怎麼寫

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/
01.02.03 就是 你用戶、群組、分享、還有登陸後台的名字,你試試

9、SEO 的 robot.txt 文件是怎麼寫的,怎樣屏蔽一些他們已經收錄了的網頁。 求指點,不說明白是不給分的。

如果是谷歌的話,反應很快的;如果是百度,就算你加上也有可能收錄,而且去掉速度也很慢,我的情侶seo博客就是很好的例子。
•要攔截整個網站,請使用正斜線。
Disallow: /•要攔截某一目錄以及其中的所有內容,請在目錄名後添加正斜線。
Disallow: /無用目錄/ •要攔截某個網頁,請列出該網頁。
Disallow: /私人文件.html•要從 Google 圖片中刪除特定圖片,請添加以下內容:
User-agent: Googlebot-Image
Disallow: /images/狗.jpg •要從 Goo le 圖片中 除您網站上的所有圖片,請執行以下指令:
User-agent: Googlebot-Image
Disallow: / •要攔截某一特定文件類型的文件(例如 .gif),請使用以下內容:
User-agent: Googlebot
Disallow: /*.gif$•要阻止抓取您網站上的網頁,而同時又能在這些網頁上顯示 Adsense 廣告,請禁止除 Mediapartners-Google 以外的所有漫遊器。這樣可使網頁不出現在搜索結果中,同時又能讓 Mediapartners-Google 漫遊器分析網頁,從而確定要展示的廣告。Mediapartners-Google 漫遊器不與其他 Google User-agent 共享網頁。例如:
User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Googlebot(但並非所有搜索引擎)遵循某些模式匹配原則。

•要匹配連續字元,請使用星號 (*)。例如,要攔截對所有以 private 開頭的子目錄的訪問,請使用以下內容:
User-agent: Googlebot
Disallow: /private*/•要攔截對所有包含問號 (?) 的網址的訪問(具體地說,這種網址以您的域名開頭、後接任意字元串,然後接問號,而後又接任意字元串),請使用以下內容:
User-agent: Googlebot
Disallow: /*?•要指定與某個網址的結尾字元相匹配,請使用 $。例如,要攔截以 .xls 結尾的所有網址,請使用以下內容:
User-agent: Googlebot
Disallow: /*.xls$您可將此模式匹配與 Allow 指令配合使用。例如,如果 ? 代表一個會話 ID,那麼您可能希望排除包含 ? 的所有網址,以確保 Googlebot 不會抓取重復網頁。但是以 ? 結尾的網址可能是您希望包含在內的網頁的版本。在此情況下,您可以對您的 robots.txt 文件進行如下設置:

User-agent: *
Allow: /*?$
Disallow: /*?Disallow: /*? 指令會阻止包含 ? 的所有網址(具體地說,它將攔截所有以您的域名開頭、後接任意字元串,然後接問號,而後又接任意字元串的網址)。

Allow: /*?$ 指令將允許以 ? 結尾的任何網址(具體地說,它將允許所有以您的域名開頭、後接任意字元串,然後接 ?,? 之後不接任何字元的網址)。

與seorebotstxt相關的知識