第一堂搜索引擎原理课程,主要介绍搜索引擎爬虫(或者叫机器人,蜘蛛)是如何代替人工收集信息的。
搜索引擎基础
何为搜索引擎?搜索引擎(国外的代表google,国内的代表百度),利用程序在互联网上抓取网站信息,把抓取回来的信息进行分类整理,供访问搜索引擎的互联网用户搜索和关键词相匹配的信息。
比如:您想买一款手机,您可以直接在搜索引擎中输入关键词(诺基亚),在0.1秒之内,搜索引擎会返回出售诺基亚的网站列表,这个网站列表是经过搜索引擎严格筛选得出的结果。搜索引擎在给这个关键词(诺基亚)进行网站排名时,会采用自己一套算法,这套算法也是这些搜索引擎公司的绝密文件。
搜索引擎如何抓去信息
搜索引擎初期,由于互联网信息并不是很多,所以许多搜索引擎收录信息完全依靠人力,许多编辑,每天不停的访问互联网的各个网站,把自己认为比较好的网站进行收录。但是随着互联网时代的到来,互联网网站爆炸式增长,人工收录网站信息已经是完全不可能,所以这些搜索引擎就编写了抓去互联网安阳网站建设公司信息的程序,就叫搜索引擎爬虫,机器人,或者蜘蛛。镇江网站建设公司
下面笔者以世界著名的google搜索引擎为例,来说一说爬虫是怎么代替人工收集整理网站信息的(大部分搜索引擎都是按照这种方法来收集信息的)。
更新爬虫
Google搜索引擎可以同时派出N多个爬虫,同时访问互联网,如果发现新的信息就会放到自己所带的数据库中,我们把这种爬虫称之为更新爬虫。更新爬虫能够根据互联网上的URL地址,不停的以光速爬行,一旦自己所带的数据库装不下更多的信息时,它们会返回谷歌所提供的单独数据库,把自己所带的信息扔在里面,然后又出来接着收集信息。
由于更新爬虫自身所带的仓库容量有限(google更新爬虫应该是100KB容量),所以许多seo建议在制作网站时,每一个页面控制在100KB以内。如果网页大小超过了100KB,剩余的网页信息,更新爬虫是无法一次性带走的。
对于没有被google主索引收录的页面,由于更新爬虫是和google主索引一起提供搜索结果的,所以您会看见自己的网站信息很快出现在搜索结果中,又很快的消失,直到一段时间后又在google主索引中出现。
对于已经被google主索引收的页面,刷新爬虫取得这个页面的更新后,关于该页面的更新会出现在搜索结果中,但是过几天该页面的更新会退回到没有更新之前,直到深度爬虫进行深度爬行之后,更新的页面就会完全被显示出来。
深度爬虫
深度爬虫的主要任务是访问google主索引中已经存在的网站,进行整体的服务器更新,目前google深度爬虫几乎可以每天更新一次,所以如果不注意观察是根本察觉不到的。但是百度深度爬虫的时间就要长一点,大概是一周进行深度爬行一次,所以许多做百度的seo,都盼望百度深度爬行,因为百度深度爬行,就意味着,自己的上一周的工作将被百度肯定。
今日回顾
更新爬虫每天都在互联网上忙碌,力求收集更多更新的网站信息,在收集信息时,由于更新爬虫自身所带的数据存储量的限制,所以更新爬虫不能完全带走超过自身数据限制文昌网站建设公司的网页内容,这也是许多seo为什么要把网页压缩到最小的原因。
深度爬虫访问搜索引擎主索引之后,就意味着,网站关键词排名的大调整,只有经过深度爬虫更新后的搜索结果才能算是基本稳定的搜索结果。
本文由陕西基石广告有限公司原创 http://www.jishiguanggao.com 版权所有,谢谢合作
南京牧狼文化传媒有限公司简介:
牧狼传媒,牧者之心,狼者之性,以牧之谦卑宽容之心待人,以狼之团结无畏之性做事!
公司注册资金100万,主营众筹全案服务、网站营销全案服务、网站建设、微信小程序开发、电商网店设计、H5页面设计、腾讯社交广告投放以及电商营销推广全案等相关业务,致力于为客户提供更有价值的服务,创造让用户满意的效果!
为百度官方及其大客户、苏宁易购、金山WPS秀堂、美的、创维家电、新东方在线、伊莱克斯、宝丽莱等国内国外知名品牌服务过,服务经验丰富!同时,公司也是南京电子商务协会会员单位、猪八戒网官方认证签约服务商、江苏八戒服务网联盟、南京浦口文化产业联合会会员单位,可以为您提供更好的服务!
主营项目:众筹全案服务、网站营销全案服务、网站建设、微信小程序开发、电商网店设计、H5页面设计、腾讯社交广告投放、竞价托管、网站优化、电商代运营等
合作客户:百度、苏宁易购、饿了么、美的、创维家电、新东方在线、宝丽莱、金山WPS秀堂、伊莱克斯
资质荣誉:百度商业服务市场2017年度最佳图片服务商、南京电子商务协会会员单位、猪八戒网官方认证签约服务商、江苏八戒服务网联盟、南京浦口文化产业联合会会员单位、八戒通TOP服务商、"易拍即合杯"H5创意大赛"三等奖"。