做SEO每天打交道最多的就是搜索引擎放出来的小机器人,也叫搜索引擎蜘蛛,我们要做的事情就是把它们伺候好,顺其意投其好。
一、列举一下各大搜索引擎蜘蛛的名字
google蜘蛛: googlebot,百度蜘蛛:baiduspider,搜狗蜘蛛:sogou 湖南网站建设公司 spider,搜搜蜘蛛:Sosospider,yahoo蜘蛛:slurp,alexa蜘蛛:ia_archiver,msn蜘蛛:msnbot,altavista蜘蛛:scooter,lycos蜘蛛: lycos_spider_网站建设营销全案公司(t-rex),alltheweb蜘蛛: fast-webcrawler,inktomi蜘蛛: 品牌网站建设 slurp,有道蜘蛛:YodaoBot和OutfoxBot,热土蜘蛛:Adminrtspider 卓智网东莞网站建设 。当然这里只是象征性的列一下,就算我们分析日志的时候看到了也不要太奇怪,又或者你想禁止它们爬你的站点也是可以的。
二、一句话总结蜘蛛的习惯
google蜘蛛:不太爱爬,但爱收录。
百度蜘蛛:爬谨慎,收录更谨慎。
搜搜蜘蛛:爱爬图片,经常绕在动态地址里出不来。
雅虎蜘蛛:恪守规则,每次都是先爬robots.txt。
其他的没有太多留意,就不多说了。
三、对于robots.txt的支持程度
全部分析可能也不现实,这里拿Disallow: /*?*分析(禁止动态页面抓取)。
google表现:写了禁止就不再爬,会在谷歌站长工具中列出来它想爬被你阻止了,如下图:
百度的表现:写了禁止之后很少爬,但是偶尔也会爬,相信是起作用了,因为越来越少,以前一天几次现在几天一次。
搜狗蜘蛛:可以说是基本不听话,也不知道是不是不吃这个规则,说它完全不吃它也吃了一点,只是把动态地址的问号拿掉了,然后照爬,一爬就是一大片,这不知道它能爬出什么东西,如下图:
搜搜蜘蛛跟雅虎蜘蛛好像差不多,感觉还是挺有效的,禁止之后没有再有它爬过的痕迹。
文章铭睿(http://www.iyoov.com)原创分享,说的不是很全面,只分析了动态的禁止,有些文件夹的禁止总体感觉跟上述的差不多,还有后缀的禁止没有试过,望后来者给予补充。
南京牧狼文化传媒有限公司简介:
牧狼传媒,牧者之心,狼者之性,以牧之谦卑宽容之心待人,以狼之团结无畏之性做事!
公司注册资金100万,主营众筹全案服务、网站营销全案服务、网站建设、微信小程序开发、电商网店设计、H5页面设计、腾讯社交广告投放以及电商营销推广全案等相关业务,致力于为客户提供更有价值的服务,创造让用户满意的效果!
为百度官方及其大客户、苏宁易购、金山WPS秀堂、美的、创维家电、新东方在线、伊莱克斯、宝丽莱等国内国外知名品牌服务过,服务经验丰富!同时,公司也是南京电子商务协会会员单位、猪八戒网官方认证签约服务商、江苏八戒服务网联盟、南京浦口文化产业联合会会员单位,可以为您提供更好的服务!
主营项目:众筹全案服务、网站营销全案服务、网站建设、微信小程序开发、电商网店设计、H5页面设计、腾讯社交广告投放、竞价托管、网站优化、电商代运营等
合作客户:百度、苏宁易购、饿了么、美的、创维家电、新东方在线、宝丽莱、金山WPS秀堂、伊莱克斯
资质荣誉:百度商业服务市场2017年度最佳图片服务商、南京电子商务协会会员单位、猪八戒网官方认证签约服务商、江苏八戒服务网联盟、南京浦口文化产业联合会会员单位、八戒通TOP服务商、"易拍即合杯"H5创意大赛"三等奖"。