很多朋友对Robots.txt文件都知道是用来屏蔽“不想被抓取页面”。但具体有哪些页面是不想被抓取呢?深圳网站制作公司举些具体的例子来说明。
1、多版本URL情况下,非主显URL的其他版本。比如网站链接伪静态后就不希望搜索引擎抓取动态版本了,这时就可以使用robots.txt进行屏蔽
2、如果网站内有大量的交叉组合查询所生成的页面,肯定有大量页面是没有内容的,对于没有内容的页面可以单独设置一个URL特征,然后使用robots.txt进行屏蔽,以防搜索引擎认为网站制造垃圾页面
3、如果网站改版或因为某种原因突然删除了大量页面,网站突然出现大量死链,对网站在搜索引擎上的表现是很不利的。虽然现在可以直接向搜索引擎提交死链,但是还不如直接屏蔽百度对死链的抓取,这样理论上搜索引擎就不会突然发现网站多了太多死链,或者两者同时进行,当然自己最好把站内的死链清理干净。
4、如果网站有类似UGC功能,且为了提高用户提供内容积极性,并没有禁止用户在内容中夹杂链接,此时为了不让这些链接浪费网站权重,或牵连网站,就可以把这些链接做成站内跳转链接,然后使用robots.txt进行屏蔽。
5、常规的不希望被搜索引擎索引的内容,如隐私数据、用户信息等都可以使用robots.txt进行屏蔽。
合理地使用ROBOTS.txt,不仅可以保护网站隐私数据,还可以只给搜索引擎展现网站高质量的一面,同时也可以使搜索引擎多多抓取其他允许抓取的页面。另外,网站制作人员不要被robots.txt文件本身的原始作用限制,多思考。比如为提升网站在的搜索引擎眼中的质量,不让搜索引擎抓取无搜索价值页面也是一种方法。
文章出自:深圳网站设计,原文地址:http://www.haojiuku.cn/news/1877.html,转载请保留文章出处即可!
本站文章大多数属于原创文章,欢迎大家转载!少数我们转载文章的文章,如未获您授权请点下方联系我们,我们会尽快下线处理!