文件匹配与初始子集的选择时搜索引擎在排名的过程中非常重要的两个方面,今天就这两个方面给大家做一些基础性的总结。虽然这些看似和我们没有关系,但是大家多了解一些基础性的原理,对以后网站的建设和优化都有一定的指导意义,当然,这些只是自己的一些总结,如果有不对的地方,还希望大家做指正。
当搜索引擎经过预处理的前几个阶贵州网站建设公司段之后,搜索引擎得到的是以词为单位的关键词集合。在这个之前,搜索引擎首先得到的是一个文件对应多个关键词,但这样的查询效率太低也不现实,所以搜索引擎会把这些文件进行反向映射,得到的是一个关键词对应多个文件。这样在用户搜索某个关键词的时候,就在这个关键词对应的所有文件中进行计算和匹配,并返回给用户最佳的搜索结果。了解了这个大体的过程,下边就开始分享今天的两个主要方面。
首先是文件匹配:搜索引擎的蜘蛛是无时无刻的都在爬行和抓取,另扬州网站建设公司外不断对抓取的数据进行整理归纳以及存储。这些过程并不是用户在搜索的时候进行的,而是在搜索之前以后预处理好的,真正当用户搜索某个关键词时,搜索引擎只是在自己的数据库中进行查找,而不是实时的对互联网上所有的网站进行查找。为了表达的更加清楚,我以一个简易的图来给大家说明:
这个图就是典型的倒排索引快速匹配文件表,当用户搜关键词1 关键词16,那么搜索引擎就会在这两个词对应的所有文件中进行简单的计算和匹配,找到既包含关键词1也包含关键词16的所有页面。
其次是初始子集筛选:子集就是为了更加快速的满足用户的需要,搜索引擎需要从所有的相关页面中进行选择,只计算权重稍高的页面返回给用户,这个过程就是常说的初始子集的筛选。大家可以试想,当我们搜索某个关键词时,往往包含这个关键词的页面数量是巨大的,甚至几十万、上百万。如果搜索引擎从这么大的数据中进行匹配的话时间显然更长,为了更好的满足用户的需求,实际中搜索引擎只会选择哪些权重高的页面去匹配,但是什么样的页面才是权重高,才符合搜索引擎的条件呢?这就包含了多方面的内容和页面相关元素的影响,既有外部因素,也会有内部因素。这个问题不是本文总结的一个重点,以后的文章会慢慢和大家分享。
平时我们搜索时不可能一一产看所有的搜索结果,一般情况下只会去查看前几页甚至只是前几名,虽然搜索引擎返回的相关梁平网站建设公司结果有很多,但这些结果仍然是互联网上符合条件众多网页中的一小部分,所以,用户的搜索习惯在发生变化,搜索引擎也面临着很大的挑战,如何能更好的帮助用户搜索到需要的信息,永远是搜索引擎在努力的一件事。
到这里,通过文件匹配以及初始子集的筛选给大家分享了一些搜索引擎的基本原理,当然,在技术上往往要涉及的东西还有很多,考虑的各方面也更周全、更复杂,这些只是在大体的原理上给大家做了总结。通过了解搜索引擎的各个方面,对于我们网站的建设以及搜索引擎优化都能起到一定的指导作用。
好了,本文就到这里,以后会继续和大家总结分享。本文来自:北京SEO,网址:http://www.seostudy.org/,转载请保留版权,谢谢!
南京牧狼文化传媒有限公司简介:
牧狼传媒,牧者之心,狼者之性,以牧之谦卑宽容之心待人,以狼之团结无畏之性做事!
公司注册资金100万,主营众筹全案服务、网站营销全案服务、网站建设、微信小程序开发、电商网店设计、H5页面设计、腾讯社交广告投放以及电商营销推广全案等相关业务,致力于为客户提供更有价值的服务,创造让用户满意的效果!
为百度官方及其大客户、苏宁易购、金山WPS秀堂、美的、创维家电、新东方在线、伊莱克斯、宝丽莱等国内国外知名品牌服务过,服务经验丰富!同时,公司也是南京电子商务协会会员单位、猪八戒网官方认证签约服务商、江苏八戒服务网联盟、南京浦口文化产业联合会会员单位,可以为您提供更好的服务!
主营项目:众筹全案服务、网站营销全案服务、网站建设、微信小程序开发、电商网店设计、H5页面设计、腾讯社交广告投放、竞价托管、网站优化、电商代运营等
合作客户:百度、苏宁易购、饿了么、美的、创维家电、新东方在线、宝丽莱、金山WPS秀堂、伊莱克斯
资质荣誉:百度商业服务市场2017年度最佳图片服务商、南京电子商务协会会员单位、猪八戒网官方认证签约服务商、江苏八戒服务网联盟、南京浦口文化产业联合会会员单位、八戒通TOP服务商、"易拍即合杯"H5创意大赛"三等奖"。