搜索引擎工作原理-趣百科

搜索引擎工作原理

蜘蛛(爬行和抓取页面的一个程序，每种类型的蜘蛛分工明确，如：爬行的蜘蛛只会爬行网址而不会抓取页面，抓取的蜘蛛只会抓取页面，抓取的网址是由抓取蜘蛛提供。)

跟踪链接：爬行类型蜘蛛跟踪链接。一、深度爬行：网址的每一条链接都会爬行。(一般情况下适用与比较好的网站) 二、广度爬行：蜘蛛只会选择一条网址进行爬行，当把这条网址都爬行完成的时候，蜘蛛将离开网站。

吸引蜘蛛：常见的吸引蜘蛛有标题写的非常好，但确没有实质的内容。(对蜘蛛非常不友好的)。发布外链，让蜘蛛能更快的发现我们的网站。

网站和页面权重：权重分为0-10总共11个级别。(权重不被百度所认可。权重是有爱站网提出来的。)权重是仿照谷歌的PR值来设定的。那么相应的来说，权重越高的网站蜘蛛爬行的几率就会越高，权重越低，那么爬行的几率就会越低。

页面更新度：更新度也就是网站的更新频率，一般蜘蛛会偏好更新度比较高的网站。

导入链接：导入链接就是外部网站指向自身网站的链接。导入链接越多，页面被发现的几率就会越大。

与首页点击距离：与首页点击距离越近的页面，越容易被收录。

地址库：爬行类型的蜘蛛将发现的网站存入地址库中，抓取蜘蛛可以直接通过地址库中的链接直接到网站上去抓取内容。将网址存入地址库的两种方法：一、爬行蜘蛛存入地址库中。二、通过网址提交存入地址库中。(网站上线第一件事就是去做网址提交)

文件存储：存储网站的网址。

爬行时复制检测：在爬行的时候检测是否存在类似的数据，如果存在将不会被抓取，如果没有才会被抓取。

提取文字：在抓取回来的内容中提取出重要文字和关键词。关键词：在搜索框中搜索的词叫关键词，比较长的关键词叫做长尾关键词。

中文分词：把提取出来的关键词进行拆分。中文分词是基于：统计匹配和词典匹配。统计匹配，是根据网络的热门搜索程度来匹配的。词典匹配，是根据词典来匹配关键词的。百度词条可以创建新的关键词。

去停止词：去掉那些在语句中没有起到作用的词。常见的有地、得、的。

消除噪声：去掉那些与页面无关的因素，如：广告、备案信息等；

去重：经过一系列的处理之后，再把筛选出来的数据和数据库中的对比，如果数据库中存在类似的数据，那么这条数据将不会被放入到数据库中(也就是收录)。

正向索引：正向索引储存的是关键词文件。

倒排索引：倒排索引是储存关键词页面。

链接关系计算：通过链接技术，让页面有一个初步大概的排名。

特殊文件处理：搜索引擎现在目前为止绝大部分只会识别文字，如图片，其他格式的一些文档，搜索引擎是无法识别的。

搜索词的处理：把用户输入的关键词进行处理，筛选出最能说明用户意图的关键词。

文件匹配：把处理后的关键，拿到倒排索引库中进行匹配。

初始子集的选择：选择出需要参与排名的页面，百度最多显示76，也就是760个倒排索引中的文件。

相关性计算：相关性计算比较复杂，通过相关性计算，能得到大概的排名。

排名过滤及调整：主要是针对于做弊的网站进行调整。

显示排名：经过以上的处理之后，搜索引擎将搜索结果显示给用户。

搜索缓存：第一次搜索结果将会被缓存在浏览器或者其他的地方，当第二次搜索这个关键词的时候，会直接调用缓存返回给用户。(前提是没有清空缓存文件)

查询及点击日志：服务器会记录下关键词的搜索次数和点击次数。如百度指数可以查看一个关键词在一个时间段的大概搜素次数。

搜索引擎工作原理