百度站长平台提供了一个很好的robots.txt自动生成工具,利用它我们可以很方便的写出robots.txt,通过robots.txt阻止搜索引擎收录你不想要被收录的页面及目录,还可以阻止及引导蜘蛛爬行更多的页面,减少蜘蛛的爬行量,提高蜘蛛的爬行效率,黄石网站建设公司有效的提升更多的页面被收录。
前面我们介绍了通过IIS日志分析让你更好的了解网站运行情况,可以通过IIS日志查询到蜘蛛爬行中返回404状态的页面,这里我们可以用robots.txt禁止蜘蛛爬行。
百度站长平台注册及网站验证方法这里就不说了,下面讲讲Robots工具的使用方法:
通过上图可以看到,蜘蛛返回404状态的页面都是网站改版前使用的网址,现在都不存在了,但是搜索引擎数据库还保存有记录,所以每天蜘蛛还是会来抓取这个页面的数据的,还有的时候是蜘蛛顺着别的网站上面留下的外链爬过来的。
下面我们演示怎样将通过光年SEO日志分析软件生成的日志报告中显示的404状态不存在的页面都屏蔽掉,不让蜘蛛抓取。
首先登陆百度站长平台,点击左边菜单的Robots工具进入Robots自动生成界面。
然后将上图中404状态的页面路径整理后复制到Robots工具输入框中。
User-agent底下选择所有,状态选择不允许抓取,输入路径后点击后面的创建,上图我们测试了两个路径,分别是目录和一个文件,可以一下子输入多个路径,建议先在记事本里面将网址整理好再提交,一行一个路径。
点击创建以后,可以看到,底下的robots.txt内容中出现的代码,而且百度站长平台Robots工具有一个好处就是,不论你是多层目录还是网站单文件页面,它都自动识别后排序生成,不会造成单页面和目录顺序错乱造成蜘蛛抓取robots.txt的时候出现错误,所以我们大不必担心格式问题了。
将所有需要屏蔽的页面或路径都生成以品牌网站建设后,点击底下的下载,然后将robots.txt上传到网站根目录就可以了。
小提示:robots.txt上传以后,我们可以通过robots检测工具来实验一下robots.txt是否有效或者有什么错误,CHINAZ、SEOWHY、爱站等网站都有相关工具的。
建议用一个记事本收集404状态页面,然后整理存档,每次发现IIS日志中有新的4宝鸡网站建设公司04页面出现,就在以前的存档里面查找一下是否有重复,没有重复就可以直接添加到robots.txt文件中了。
本文由利川在线http://www.445400.com原创,转载请注明出处。
南京牧狼文化传媒有限公司简介:
牧狼传媒,牧者之心,狼者之性,以牧之谦卑宽容之心待人,以狼之团结无畏之性做事!
公司注册资金100万,主营众筹全案服务、网站营销全案服务、网站建设、微信小程序开发、电商网店设计、H5页面设计、腾讯社交广告投放以及电商营销推广全案等相关业务,致力于为客户提供更有价值的服务,创造让用户满意的效果!
为百度官方及其大客户、苏宁易购、金山WPS秀堂、美的、创维家电、新东方在线、伊莱克斯、宝丽莱等国内国外知名品牌服务过,服务经验丰富!同时,公司也是南京电子商务协会会员单位、猪八戒网官方认证签约服务商、江苏八戒服务网联盟、南京浦口文化产业联合会会员单位,可以为您提供更好的服务!
主营项目:众筹全案服务、网站营销全案服务、网站建设、微信小程序开发、电商网店设计、H5页面设计、腾讯社交广告投放、竞价托管、网站优化、电商代运营等
合作客户:百度、苏宁易购、饿了么、美的、创维家电、新东方在线、宝丽莱、金山WPS秀堂、伊莱克斯
资质荣誉:百度商业服务市场2017年度最佳图片服务商、南京电子商务协会会员单位、猪八戒网官方认证签约服务商、江苏八戒服务网联盟、南京浦口文化产业联合会会员单位、八戒通TOP服务商、"易拍即合杯"H5创意大赛"三等奖"。