1、如何防止网站内容被别的网站恶意抓取
三种实用的方法。
1、文章头尾加随机广告..
2、文章列表加随机不同的链接标签,比如<a href="",<a class="dds" href=''
3、正文头尾或列表头尾添加<!--重复特征代码-->
第一种防采集方法:
下面我详细说一下这三种方法的实际应用:
如果全加上,绝对可以有效的防采集,单独加一种就可以让采集者头疼。。
完全可以对付通用的CMS采集程序。。
在采集时,通常都是指定头尾特征从哪到哪过滤.这里我们先讲第一种方法,文章头尾加随机广告..
随机广告是不固定的。
比如你的文章内容是"欢迎访问阿里西西",那么随机广告的加入方法:
<div id="xxx">
随机广告1欢迎访问阿里西西随机广告2
</div>
注:随机广告1和随机广告2每篇文章只要随机显示一个就可以了.
第二种防采集方法:
<!--<div id="xxx_文章ID">-->
其它标题或内容...
<!--<div id="xxx_文章ID">--> <div id="xxx_文章ID">
随机广告1欢迎访问阿里西西随机广告2
<--</div>-->
</div>
<--</div>-->
这是第二种防采集方法。在文章正文页面插入重复特征头尾代码的注释。
当然,这个可以用正则去掉,但足于对付通用的采集系统。。
第三种防采集方法:
第三种加在文章的列表,随便链接样式:
<a href="xxx.html">标题一</a>
<a alt="xxx" href="xxx.html">标题二</a>
<a href='xxx.html'>标题三</a>
<a href=xxx.html>标题四</a>
原理是让采集的人无法抓到列表链接规律,无法批量进行采集.
如果三种方法全部加上,我想一定能让想采集的人头疼半天而放弃的..
如果你还问,如何防止别人复制采集呢?要做到这一点容易,把你的网站的网线拔了,自己给自己看就好了.哈哈.
如果你的文章来自原创,那像可以加上版权声明,别人随意转载时,你可以要求对方删除你有版权的文章.
2、如何让网站不让百度收录
写一个robots.txt文件放到你的网站的根目录,记住一定要根目录才有效。可以参考淘宝的。http://www.taobao.com/robots.txt
3、SEO中禁止抓取和禁止索引是同一个概念吗
问:SEO中禁止抓取和禁止索引是同一个概念吗?
答:两者是不同的概念。
1.主流搜索引擎都会遵守robots.txt文件指令,robots.txt文件禁止抓取的文件搜索引擎将不会访问,不会抓取。但需要注意的是,被robots.txt文件禁止抓取的URL可能会被索引并出现在搜索结果中。禁止抓取代表着搜索引擎会知道这个URL的存在,虽然不会抓取页面内容,但是索引库还是会有这个URL的信息。淘宝网就是最好的例子。
2.如果要想使URL完全不出现在搜索结果中,那么我们必须使用另外一个标签:noindex meta robots标签。这个标签的意思是禁止搜索引擎索引本页面,禁止搜索引擎跟踪本页面链接。noindex meta robots标签用于指令搜索引擎禁止索引本页内容,因此不会出现在搜索结果页面中。
同时,要想让noindex meta robots标签起作用,则首先必须允许抓取,如果搜索引擎蜘蛛不抓取这个页面,它就看不到noindex meta robots标签。
4、SEO 怎么禁止百度蜘蛛爬某个文件夹?
经常有站长咨询说百度蜘蛛频繁抓取网页的js文件和css文件,想屏蔽百度蜘蛛不让百度蜘蛛抓取这些文件,但是很多站长有担心如何屏蔽了百度蜘蛛抓取css文件和js文件是否会对网站排名产生不利影响,于是这些站长很纠结。
从百度站长优化指南我们就可以指定,百度排名不会考虑js文件或者css文件,也就是说js文件和css文件不参与百度排名,但是大量站长反馈,虽然禁止百度抓取js和css文件,但是百度蜘蛛还是照样抓取不误,毫无疑问,它们是用来支撑网站整体上的功能性和美观性,任何网站都需要js和css。
禁止百度收录和抓取css文件的方法
通过robots.txt文件实现禁止百度收录
我们看看其他站长对禁止百度蜘蛛收录js和css的看法。
1、谷歌管理员指南说明
阻止你的CSS和js文件可能会影响你在谷歌的搜索排名,所以建议robots.txt不要禁止JS和CSS文件访问。
谷歌索引的建议:
网页加载速度对用户和索引依然非常重要。
屏蔽JS和CSS,谷歌索引将无法向普通用户那样读取页面。
如果JS太复杂,渲染页面可能不正确。
2、夫唯 - SEOWHY创始人
我认为“蜘蛛抓取一个网站的时间是一定的,限制了某文件被抓取,则它又更多时间去抓取别的网页”
如果不成立,则完全没必要屏蔽CSS和JS了。
如果成立,那要屏蔽的就不止CSS和JS了,很多没实质意义的文件都值得屏蔽。
3、站长:小小马
顺其自然最好,该出现的还是让它出现,该让蜘蛛抓取还是要抓取的,没有必要去限制太多,这样反而不好。
4、站长:张立博
我觉得没必要屏蔽,因为搜索引擎会知道哪些是JS、CSS,哪些是网页文件。抓取js和css的蜘蛛应该不会影响网页的抓取频率。
至于搜索引擎抓取js和css,可能跟快照有关,因为现在网站的页面大多是用div+css来建设的,如果没有css的页面会惨不忍睹的。
所以不排除搜索引擎在试图解释JS和CSS文件,来丰富网页的内容,让搜索更精确。
5、站长:冯涵
经过试验和跟踪数据表明:
1>被屏蔽掉的js/css文件依然会被baidu和google大量crawl
2>屏蔽后跟踪观察其他page
type
蜘蛛crawl量,发现并未增加
3>如果网站大部分js/css文件里包含较多URL可以不屏蔽,蜘蛛爬取js/css文件的同时可以爬取里面的link
4>如果网站大部分js/css文件里基本上都是代码之类的,屏蔽也可,没发现明显的好处也没发现坏处
。
冲浪网站优化网:我们不建议禁止百度收录js或者css文件,毕竟百度抓取这些文件对网站整体性能影响微乎其微,如果禁止百度抓取js或者css,可能会影响百度快照js特效和css样式得不偿失,建议不要这样做。
5、优化SEO 如何破解
如果想破解竞争对手的seo优化过的网站,办法只有一个——你做的比他更好。其他的办法都是违法的。
6、怎么样禁止搜索引擎收录网站内容
如果不想被搜索引擎收录的内容,可以使用robots文件进行屏蔽。
比如网站有一个/xxx/文件要屏蔽,可以这样的写法:
User-agent:*
Disallow:/xxx/
关于robots的详细知识,可以百度搜索:太原seo学习网,里面有这方面的专业文章说明
而且里面是一个SEO方面的专业知识性平台,对SEO人员有很大的帮助。
望采纳,谢谢!!
7、SEO 怎么屏蔽蜘蛛对某个文件夹 或者是某个文件进行爬行 我要代码
屏蔽蜘蛛对某个文件夹:
User-agent: *
Disallow: /admin/
屏蔽蜘蛛对某个文件夹下的某个文件
User-agent: *
Disallow: /admin/abc.html
8、求问怎么设置禁止搜索引擎?
这个文件会告诉蜘蛛程序在该网站的服务器上哪些文件是可以被爬行的。建议:每个站点最好建立一个robots.txt文件,这样对seo更友好。不然的话每次搜索引擎蜘蛛来寻找并不存在的robots.txt文件时,服务器将在日志记录中出现一条404错误,因此你应该在网站中添加一个robots.txt(即使这个robots.txt文件只是一个空文件)。robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。robots.txt写法
robots.txt文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL,orNL作为结束符),在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:
1)User-agent: 该项的值用于描述搜索引擎蜘蛛的名字。如果该项的值设为*,则该协议对任何机器人均有效。
2)Disallow: 该项的值用于描述不希望被访问到的一个URL,一个目录或者整个网站。以Disallow 开头的URL 均不会被搜索引擎蜘蛛访问到。任何一条Disallow 记录为空,说明该网站的所有部分都允许被访问。
3)具体实例:
网站目录下所有文件均能被所有搜索引擎蜘蛛访问
User-agent: *Disallow:禁止所有搜索引擎蜘蛛访问网站的任何部分
User-agent: *
Disallow: /
禁止所有的搜索引擎蜘蛛访问网站的几个目录
User-agent: *
9、seo怎么做到屏蔽单次链接 而不是屏蔽这个页面的效果?
可以使用nofollow标签,请参考下面的例子
………………………………………………………………………………
<a href="你需要屏蔽的网站链接" rel="nofollow">关于我们</a>
………………………………………………………………………………
除了文字链接,图片链接也可以加nofollow标签。
一般在网站上的“关于我们”,“联系我们”,“留言”之类没有意义,但必须存在的栏目是一定得加的。
加上了这个nofollow标签的效果就是这条链接将不会被搜索引擎蜘蛛跟踪与索引。