1、如何防止網站內容被別的網站惡意抓取
三種實用的方法。
1、文章頭尾加隨機廣告..
2、文章列表加隨機不同的鏈接標簽,比如<a href="",<a class="dds" href=''
3、正文頭尾或列表頭尾添加<!--重復特徵代碼-->
第一種防採集方法:
下面我詳細說一下這三種方法的實際應用:
如果全加上,絕對可以有效的防採集,單獨加一種就可以讓採集者頭疼。。
完全可以對付通用的CMS採集程序。。
在採集時,通常都是指定頭尾特徵從哪到哪過濾.這里我們先講第一種方法,文章頭尾加隨機廣告..
隨機廣告是不固定的。
比如你的文章內容是"歡迎訪問阿里西西",那麼隨機廣告的加入方法:
<div id="xxx">
隨機廣告1歡迎訪問阿里西西隨機廣告2
</div>
注:隨機廣告1和隨機廣告2每篇文章只要隨機顯示一個就可以了.
第二種防採集方法:
<!--<div id="xxx_文章ID">-->
其它標題或內容...
<!--<div id="xxx_文章ID">--> <div id="xxx_文章ID">
隨機廣告1歡迎訪問阿里西西隨機廣告2
<--</div>-->
</div>
<--</div>-->
這是第二種防採集方法。在文章正文頁面插入重復特徵頭尾代碼的注釋。
當然,這個可以用正則去掉,但足於對付通用的採集系統。。
第三種防採集方法:
第三種加在文章的列表,隨便鏈接樣式:
<a href="xxx.html">標題一</a>
<a alt="xxx" href="xxx.html">標題二</a>
<a href='xxx.html'>標題三</a>
<a href=xxx.html>標題四</a>
原理是讓採集的人無法抓到列表鏈接規律,無法批量進行採集.
如果三種方法全部加上,我想一定能讓想採集的人頭疼半天而放棄的..
如果你還問,如何防止別人復制採集呢?要做到這一點容易,把你的網站的網線拔了,自己給自己看就好了.哈哈.
如果你的文章來自原創,那像可以加上版權聲明,別人隨意轉載時,你可以要求對方刪除你有版權的文章.
2、如何讓網站不讓百度收錄
寫一個robots.txt文件放到你的網站的根目錄,記住一定要根目錄才有效。可以參考淘寶的。http://www.taobao.com/robots.txt
3、SEO中禁止抓取和禁止索引是同一個概念嗎
問:SEO中禁止抓取和禁止索引是同一個概念嗎?
答:兩者是不同的概念。
1.主流搜索引擎都會遵守robots.txt文件指令,robots.txt文件禁止抓取的文件搜索引擎將不會訪問,不會抓取。但需要注意的是,被robots.txt文件禁止抓取的URL可能會被索引並出現在搜索結果中。禁止抓取代表著搜索引擎會知道這個URL的存在,雖然不會抓取頁面內容,但是索引庫還是會有這個URL的信息。淘寶網就是最好的例子。
2.如果要想使URL完全不出現在搜索結果中,那麼我們必須使用另外一個標簽:noindex meta robots標簽。這個標簽的意思是禁止搜索引擎索引本頁面,禁止搜索引擎跟蹤本頁面鏈接。noindex meta robots標簽用於指令搜索引擎禁止索引本頁內容,因此不會出現在搜索結果頁面中。
同時,要想讓noindex meta robots標簽起作用,則首先必須允許抓取,如果搜索引擎蜘蛛不抓取這個頁面,它就看不到noindex meta robots標簽。
4、SEO 怎麼禁止百度蜘蛛爬某個文件夾?
經常有站長咨詢說百度蜘蛛頻繁抓取網頁的js文件和css文件,想屏蔽百度蜘蛛不讓百度蜘蛛抓取這些文件,但是很多站長有擔心如何屏蔽了百度蜘蛛抓取css文件和js文件是否會對網站排名產生不利影響,於是這些站長很糾結。
從百度站長優化指南我們就可以指定,百度排名不會考慮js文件或者css文件,也就是說js文件和css文件不參與百度排名,但是大量站長反饋,雖然禁止百度抓取js和css文件,但是百度蜘蛛還是照樣抓取不誤,毫無疑問,它們是用來支撐網站整體上的功能性和美觀性,任何網站都需要js和css。
禁止百度收錄和抓取css文件的方法
通過robots.txt文件實現禁止百度收錄
我們看看其他站長對禁止百度蜘蛛收錄js和css的看法。
1、谷歌管理員指南說明
阻止你的CSS和js文件可能會影響你在谷歌的搜索排名,所以建議robots.txt不要禁止JS和CSS文件訪問。
谷歌索引的建議:
網頁載入速度對用戶和索引依然非常重要。
屏蔽JS和CSS,谷歌索引將無法向普通用戶那樣讀取頁面。
如果JS太復雜,渲染頁面可能不正確。
2、夫唯 - SEOWHY創始人
我認為「蜘蛛抓取一個網站的時間是一定的,限制了某文件被抓取,則它又更多時間去抓取別的網頁」
如果不成立,則完全沒必要屏蔽CSS和JS了。
如果成立,那要屏蔽的就不止CSS和JS了,很多沒實質意義的文件都值得屏蔽。
3、站長:小小馬
順其自然最好,該出現的還是讓它出現,該讓蜘蛛抓取還是要抓取的,沒有必要去限制太多,這樣反而不好。
4、站長:張立博
我覺得沒必要屏蔽,因為搜索引擎會知道哪些是JS、CSS,哪些是網頁文件。抓取js和css的蜘蛛應該不會影響網頁的抓取頻率。
至於搜索引擎抓取js和css,可能跟快照有關,因為現在網站的頁面大多是用div+css來建設的,如果沒有css的頁面會慘不忍睹的。
所以不排除搜索引擎在試圖解釋JS和CSS文件,來豐富網頁的內容,讓搜索更精確。
5、站長:馮涵
經過試驗和跟蹤數據表明:
1>被屏蔽掉的js/css文件依然會被baidu和google大量crawl
2>屏蔽後跟蹤觀察其他page
type
蜘蛛crawl量,發現並未增加
3>如果網站大部分js/css文件里包含較多URL可以不屏蔽,蜘蛛爬取js/css文件的同時可以爬取裡面的link
4>如果網站大部分js/css文件里基本上都是代碼之類的,屏蔽也可,沒發現明顯的好處也沒發現壞處
。
沖浪網站優化網:我們不建議禁止百度收錄js或者css文件,畢竟百度抓取這些文件對網站整體性能影響微乎其微,如果禁止百度抓取js或者css,可能會影響百度快照js特效和css樣式得不償失,建議不要這樣做。
5、優化SEO 如何破解
如果想破解競爭對手的seo優化過的網站,辦法只有一個——你做的比他更好。其他的辦法都是違法的。
6、怎麼樣禁止搜索引擎收錄網站內容
如果不想被搜索引擎收錄的內容,可以使用robots文件進行屏蔽。
比如網站有一個/xxx/文件要屏蔽,可以這樣的寫法:
User-agent:*
Disallow:/xxx/
關於robots的詳細知識,可以百度搜索:太原seo學習網,裡面有這方面的專業文章說明
而且裡面是一個SEO方面的專業知識性平台,對SEO人員有很大的幫助。
望採納,謝謝!!
7、SEO 怎麼屏蔽蜘蛛對某個文件夾 或者是某個文件進行爬行 我要代碼
屏蔽蜘蛛對某個文件夾:
User-agent: *
Disallow: /admin/
屏蔽蜘蛛對某個文件夾下的某個文件
User-agent: *
Disallow: /admin/abc.html
8、求問怎麼設置禁止搜索引擎?
這個文件會告訴蜘蛛程序在該網站的伺服器上哪些文件是可以被爬行的。建議:每個站點最好建立一個robots.txt文件,這樣對seo更友好。不然的話每次搜索引擎蜘蛛來尋找並不存在的robots.txt文件時,伺服器將在日誌記錄中出現一條404錯誤,因此你應該在網站中添加一個robots.txt(即使這個robots.txt文件只是一個空文件)。robots.txt必須放置在一個站點的根目錄下,而且文件名必須全部小寫。robots.txt寫法
robots.txt文件包含一條或更多的記錄,這些記錄通過空行分開(以CR,CR/NL,orNL作為結束符),在該文件中可以使用#進行註解,具體使用方法和UNIX中的慣例一樣。該文件中的記錄通常以一行或多行User-agent開始,後面加上若干Disallow行,詳細情況如下:
1)User-agent: 該項的值用於描述搜索引擎蜘蛛的名字。如果該項的值設為*,則該協議對任何機器人均有效。
2)Disallow: 該項的值用於描述不希望被訪問到的一個URL,一個目錄或者整個網站。以Disallow 開頭的URL 均不會被搜索引擎蜘蛛訪問到。任何一條Disallow 記錄為空,說明該網站的所有部分都允許被訪問。
3)具體實例:
網站目錄下所有文件均能被所有搜索引擎蜘蛛訪問
User-agent: *Disallow:禁止所有搜索引擎蜘蛛訪問網站的任何部分
User-agent: *
Disallow: /
禁止所有的搜索引擎蜘蛛訪問網站的幾個目錄
User-agent: *
9、seo怎麼做到屏蔽單次鏈接 而不是屏蔽這個頁面的效果?
可以使用nofollow標簽,請參考下面的例子
………………………………………………………………………………
<a href="你需要屏蔽的網站鏈接" rel="nofollow">關於我們</a>
………………………………………………………………………………
除了文字鏈接,圖片鏈接也可以加nofollow標簽。
一般在網站上的「關於我們」,「聯系我們」,「留言」之類沒有意義,但必須存在的欄目是一定得加的。
加上了這個nofollow標簽的效果就是這條鏈接將不會被搜索引擎蜘蛛跟蹤與索引。