首页 > 操作系统 >

Google搜索引擎工作原理简介

电脑杂谈　发布时间：2020-04-01 17:09:55　来源：网络整理

谷歌搜索引擎原理_谷歌搜图引擎 -(搜索)_谷歌以图搜图引擎

本文基于Google创始人劳伦斯·佩奇（Lawrence Page）和谢尔盖·布林（Sergey Brin）较早论文的简化翻译. 尽管Google一直在纠正各种因素对网页权重的影响，以消除作弊网站对搜索结果的干扰并获得最佳搜索结果，但其核心思想并未改变.

Google使用两个重要功能来获取准确的查询结果: 首先，Google使用网页的链接结构来计算每个网页的排名，这称为PageRank；其次，Google使用链接提供的信息进一步改善了搜索结果.

PageRank的计算:

PageRank的基本思想是: 如果一个网页也多次被其他网页指向，则表示该网页更重要或质量更高. 除了考虑页面链接的数量之外，Google还参考链接页面本身的级别以及该页面与其他页面的前向链接数. 当然，“重要的” Web链接将具有更高的权重. PageRank的简化计算公式:

PR（A）=（1-d）+ d（PR（T1）/ C（T1）+…+ PR（Tn）/ C（Tn））

•PR（A）: 页面A的PageRank值；

•PR（Ti）: 链接到页面A的页面Ti的PageRank值；

•C（Ti）: 网页Ti上的出站链接数；

谷歌搜索引擎原理_谷歌以图搜图引擎_谷歌搜图引擎 -(搜索)

•d: 阻尼系数，0

PageRank可以通过链接权重的矢量矩阵的组合计算获得（对于PageRank的深入分析，我将在方便的时候写另一篇文章）

随机冲浪模型:

PageRank可以理解为用户行为模型. 假设一个随机的网站访问者“随机冲浪者”给出了一个随机网页，并且他将继续单击网页中的链接，直到感到疲倦并从头开始浏览新的随机网页. PageRank可以理解为网页被随机访问的概率. 阻尼系数d是随机访问者未跟随网页链接并从头开始随机冲浪的概率. 对于某些网页，阻尼系数可能会人为改变，从而可以防止某些作弊网站误导Google并获得更高的PageRank的可能性.

您还可以通过这种方式自觉地理解PageRank: PageRank较高的页面是指向许多页面的页面，或者是指向一些重要页面的页面. Google假设如果一个网页被其他许多不同的页面引用，则意味着该网页也值得一游. 另外，如果网页指向Yahoo这样的网站，通常值得一看.

锚文字

Google对连接描述文本有特殊待遇. 大多数搜索引擎将链接文本与其所在的页面相关联，而Google还将链接文本与其指向的文档相关联. 这样做的原因是，链接描述通常可以更准确地描述所指向的网页.

除PageRank和链接描述外，Google还使用其他一些功能: 首先，Google记录所有关键字的位置信息（命中），并在搜索中充分利用关键字相关性分析. 其次，Google会记录一些视觉信息，例如字体大小. 大字体和粗体字体比网络上其他字体的权重更高.

谷歌以图搜图引擎_谷歌搜索引擎原理_谷歌搜图引擎 -(搜索)

此外，Google认为，未直接呈现给访问者的文本信息可能会被滥用并用于误导搜索引擎. 因此Google不太关注元数据文本.

系统结构分析

图中显示了Google的整体系统结构

Google Architecture Overview

首先，URL服务器发送一系列URL地址，以供爬网程序收集. 收集网页后，将其传送到商店服务器. 存储服务器压缩网页内容，并将其存储在信息仓库存储库中. 所有新页面都分配了一个docID. 索引由索引器和分类器执行. 索引器读取存储库的文件，并将其转换为一系列关键字排序，称为匹配. 命中记录关键字，它们在文件中出现的位置，字体的相对大小以及字母的大小写. 然后，Indexer将这些命中数据放入一系列的桶中谷歌搜索引擎原理，并建立部分有序的良好远期指数. 索引器还将所有链接从网页中分离出来，并将重要信息存储在锚文件中. 该文件包含确定链接的指向和链接的描述性文本的信息.

URLresolver读取Anchors文件并将相对URL转换为绝对URL，这些绝对URL依次放入docID中. 然后谷歌搜索引擎原理，它将链接的描述性文本放置在前向索引中，并将docID与链接的描述性文本相关联. 同时，它还生成对应于链接和docID的. 此链接将用于计算所有页面的PageRanks.

然后，排序器从桶中检索按docID排序的页面，并按wordID生成反向索引. 排序器还生成一个单词ID及其反向索引偏移量的列表. 名为DumpLexicon的程序将此列表与搜索引擎词库结合在一起，以生成可供搜索者使用的新词库词库. 由Web服务器组成的搜索引擎Searcher使用具有反向索引和PageRanks的新词库来回答查询.

命中列表

谷歌搜索引擎原理_谷歌搜图引擎 -(搜索)_谷歌以图搜图引擎

命中列表记录有关出现在网页上的关键字的一系列信息，包括网页上的位置，字体的相对大小和字母大小写. 命中列表占据了前向和反向索引中的大部分空间.

命中类型有两种: 花式命中和普通命中. 热门匹配包括出现在URL，标题，锚文本或元标记中的关键字. 出现在其他位置的所有关键字都是简单匹配. 普通匹配由1位大写和小写字母，3位字体大小和12位信息组成，这些信息用于指示关键字在网页上的位置（所有大于4095的位置的纪元均为4096）.

Forward Reverse Indexes

转发索引

远期指数包括64桶桶. 每个桶都存储特定范围的wordID. 如果网页包含属于某个桶范围的关键字，则docID会记录在此特定桶中. docID与这些关键字的wordID和命中列表一起记录在此桶中.

反向索引

反向索引使用与正向相同的障碍. 唯一的区别是反向索引由排序器处理. 对于每个有效的wordID，同义词库词典都包含指向特定桶的指针. 它指向由docID及其对应的命中列表组成的doclist列表. 此文档列表表示该单词出现在所有文件中的列表.

Google使用两组倒置桶. 一组包含标题和锚点命中，另一组包含所有命中. 这样，Google首先检查第一组短桶，如果没有足够的匹配结果，则查询第二组长桶.

谷歌搜图引擎 -(搜索)_谷歌以图搜图引擎_谷歌搜索引擎原理

Google查询过程如下

解析查询关键字并将关键字转换为wordID. 在短桶中找到每个关键字. 扫描文档列表开头的文档列表，直到找到与查询匹配的页面. 桶文档列表已被检查. 在长桶的长桶文档列表中找到每个关键字的起点. 重复步骤4. 如果尚未检查文档列表，请重复步骤4.

根据计算出的排名对匹配页面进行排序，并返回前k个查询结果.

Google的排名系统

Google比其他搜索引擎包含更多的网络信息. 每个命中列表均包含位置，字体和大写信息. Google的另一个参考是锚文本和网页的PageRank. 没有哪个因素会对搜索结果的排名产生太大影响.

让我们看一下对单个关键字的查询: Google首先看与该单词相对应的页面的匹配列表. Google区分每个匹配包含几种不同的类型（标题，锚点，URL，大字体，小字体等），并且每种类型都有自己的类型权重. 这些类型权重组成一个类型向量. Google会对每种点击数进行计数，然后将这些点击数转换为计数权重Count-weights. 计数权重开始线性增加，然后逐渐停止，因此太多的命中计数无效. Google正在将Count-weights和type-weight相乘以计算网页的IR得分. 最后，将此IR得分与PageRank结合在一起，以获得最终的搜索排名结果.

对于多关键字搜索，计算方法更加复杂. 现在必须完整扫描多个命中列表，以使在文章中显得较近的命中具有比相距较远的命中更高的权重. 将这些紧密匹配匹配在一起，然后计算这些匹配匹配的相关性. 关联性是根据这些匹配在文章中出现的距离确定的，并分为10个不同的值，这些值表示为词组匹配甚至不接近. 命中计数不仅可以计算每种类型，还可以计算每种类型及其相关性匹配. 每个类型和关联对都有一个类型权重权重. 该计数器转换为计数权重. 然后将此计数权重乘以类型近似权重即可获得商品的IR得分. 当然，最终结果是IR得分和PageRank的组合，以获得最终搜索排名结果.

最后一句话

整理本文的目的是为了使您更好地了解Google搜索引擎，也希望可以帮助您对Google的工作原理有一个大致的了解. 如果您仍然不理解我的文章，可以在这里找到原始的英文文本. 〜backrub / google.html.

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-160267-1.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论