搜索引擎工作原理
搜索引擎工作原理
蜘蛛(爬行和抓取页面的一个程序,每种类型的蜘蛛分工明确,如:爬行的蜘蛛只会爬行网址而不会抓取页面,抓取的蜘蛛只会抓取页面,抓取的网址是由抓取蜘蛛提供。)
跟踪链接:爬行类型蜘蛛跟踪链接。一、深度爬行:网址的每一条链接都会爬行。(一般情况下适用与比较好的网站) 二、广度爬行:蜘蛛只会选择一条网址进行爬行,当把这条网址都爬行完成的时候,蜘蛛将离开网站。
吸引蜘蛛:常见的吸引蜘蛛有标题写的非常好,但确没有实质的内容。(对蜘蛛非常不友好的)。 发布外链,让蜘蛛能更快的发现我们的网站。
网站和页面权重:权重分为0-10总共11个级别。(权重不被百度所认可。权重是有爱站网提出来的。)权重是仿照谷歌的PR值来设定的。那么相应的来说,权重越高的网站蜘蛛爬行的几率就会越高,权重越低,那么爬行的几率就会越低。
页面更新度:更新度也就是网站的更新频率,一般蜘蛛会偏好更新度比较高的网站。
导入链接:导入链接就是外部网站指向自身网站的链接。导入链接越多,页面被发现的几率就会越大。
与首页点击距离:与首页点击距离越近的页面,越容易被收录。
地址库:爬行类型的蜘蛛将发现的网站存入地址库中,抓取蜘蛛可以直接通过地址库中的链接直接到网站上去抓取内容。 将网址存入地址库的两种方法:一、爬行蜘蛛存入地址库中。 二、通过网址提交存入地址库中。(网站上线第一件事就是去做网址提交)
文件存储:存储网站的网址。
爬行时复制检测:在爬行的时候检测是否存在类似的数据,如果存在将不会被抓取,如果没有才会被抓取。
提取文字:在抓取回来的内容中提取出重要文字和关键词。关键词:在搜索框中搜索的词叫关键词,比较长的关键词叫做长尾关键词。
中文分词:把提取出来的关键词进行拆分。中文分词是基于:统计匹配和词典匹配。统计匹配,是根据网络的热门搜索程度来匹配的。词典匹配,是根据词典来匹配关键词的。百度词条可以创建新的关键词。
去停止词:去掉那些在语句中没有起到作用的词。常见的有地、得、的。
消除噪声:去掉那些与页面无关的因素,如:广告、备案信息等;
去重:经过一系列的处理之后,再把筛选出来的数据和数据库中的对比,如果数据库中存在类似的数据,那么这条数据将不会被放入到数据库中(也就是收录)。
正向索引:正向索引储存的是关键词文件。
倒排索引:倒排索引是储存关键词页面。
链接关系计算:通过链接技术,让页面有一个初步大概的排名。
特殊文件处理:搜索引擎现在目前为止绝大部分只会识别文字,如图片,其他格式的一些文档,搜索引擎是无法识别的。
搜索词的处理:把用户输入的关键词进行处理,筛选出最能说明用户意图的关键词。
文件匹配:把处理后的关键,拿到倒排索引库中进行匹配。
初始子集的选择:选择出需要参与排名的页面,百度最多显示76,也就是760个倒排索引中的文件。
相关性计算:相关性计算比较复杂,通过相关性计算,能得到大概的排名。
排名过滤及调整:主要是针对于做弊的网站进行调整。
显示排名:经过以上的处理之后,搜索引擎将搜索结果显示给用户。
搜索缓存:第一次搜索结果将会被缓存在浏览器或者其他的地方,当第二次搜索这个关键词的时候,会直接调用缓存返回给用户。(前提是没有清空缓存文件)
查询及点击日志:服务器会记录下关键词的搜索次数和点击次数。如百度指数可以查看一个关键词在一个时间段的大概搜素次数。
版权声明:本站【趣百科】文章素材来源于网络或者用户投稿,未经许可不得用于商用,如转载保留本文链接:https://www.qubaik.com/article/30920.html