b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

Google搜索引擎工作原理简介

电脑杂谈  发布时间:2020-04-01 17:09:55  来源:网络整理

谷歌搜索引擎原理_谷歌搜图引擎 -(搜索)_谷歌以图搜图引擎

本文基于Google创始人劳伦斯·佩奇(Lawrence Page)和谢尔盖·布林(Sergey Brin)较早论文的简化翻译. 尽管Google一直在纠正各种因素对网页权重的影响,以消除作弊网站对搜索结果的干扰并获得最佳搜索结果,但其核心思想并未改变.

Google使用两个重要功能来获取准确的查询结果: 首先,Google使用网页的链接结构来计算每个网页的排名,这称为PageRank;其次,Google使用链接提供的信息进一步改善了搜索结果.

PageRank的计算:

PageRank的基本思想是: 如果一个网页也多次被其他网页指向,则表示该网页更重要或质量更高. 除了考虑页面链接的数量之外,Google还参考链接页面本身的级别以及该页面与其他页面的前向链接数. 当然,“重要的” Web链接将具有更高的权重. PageRank的简化计算公式:

PR(A)=(1-d)+ d(PR(T1)/ C(T1)+…+ PR(Tn)/ C(Tn))

•PR(A): 页面A的PageRank值;

•PR(Ti): 链接到页面A的页面Ti的PageRank值;

•C(Ti): 网页Ti上的出站链接数;

谷歌搜索引擎原理_谷歌以图搜图引擎_谷歌搜图引擎 -(搜索)

•d: 阻尼系数,0

PageRank可以通过链接权重的矢量矩阵的组合计算获得(对于PageRank的深入分析,我将在方便的时候写另一篇文章)

随机冲浪模型:

PageRank可以理解为用户行为模型. 假设一个随机的网站访问者“随机冲浪者”给出了一个随机网页,并且他将继续单击网页中的链接,直到感到疲倦并从头开始浏览新的随机网页. PageRank可以理解为网页被随机访问的概率. 阻尼系数d是随机访问者未跟随网页链接并从头开始随机冲浪的概率. 对于某些网页,阻尼系数可能会人为改变,从而可以防止某些作弊网站误导Google并获得更高的PageRank的可能性.

您还可以通过这种方式自觉地理解PageRank: PageRank较高的页面是指向许多页面的页面,或者是指向一些重要页面的页面. Google假设如果一个网页被其他许多不同的页面引用,则意味着该网页也值得一游. 另外,如果网页指向Yahoo这样的网站,通常值得一看.

锚文字

Google对连接描述文本有特殊待遇. 大多数搜索引擎将链接文本与其所在的页面相关联,而Google还将链接文本与其指向的文档相关联. 这样做的原因是,链接描述通常可以更准确地描述所指向的网页.

除PageRank和链接描述外,Google还使用其他一些功能: 首先,Google记录所有关键字的位置信息(命中),并在搜索中充分利用关键字相关性分析. 其次,Google会记录一些视觉信息,例如字体大小. 大字体和粗体字体比网络上其他字体的权重更高.

谷歌以图搜图引擎_谷歌搜索引擎原理_谷歌搜图引擎 -(搜索)

此外,Google认为,未直接呈现给访问者的文本信息可能会被滥用并用于误导搜索引擎. 因此Google不太关注元数据文本.

系统结构分析

图中显示了Google的整体系统结构

Google Architecture Overview

首先,URL服务器发送一系列URL地址,以供爬网程序收集. 收集网页后,将其传送到商店服务器. 存储服务器压缩网页内容,并将其存储在信息仓库存储库中. 所有新页面都分配了一个docID. 索引由索引器和分类器执行. 索引器读取存储库的文件,并将其转换为一系列关键字排序,称为匹配. 命中记录关键字,它们在文件中出现的位置,字体的相对大小以及字母的大小写. 然后,Indexer将这些命中数据放入一系列的桶中谷歌搜索引擎原理,并建立部分有序的良好远期指数. 索引器还将所有链接从网页中分离出来,并将重要信息存储在锚文件中. 该文件包含确定链接的指向和链接的描述性文本的信息.

URLresolver读取Anchors文件并将相对URL转换为绝对URL,这些绝对URL依次放入docID中. 然后谷歌搜索引擎原理,它将链接的描述性文本放置在前向索引中,并将docID与链接的描述性文本相关联. 同时,它还生成对应于链接和docID的. 此链接将用于计算所有页面的PageRanks.

然后,排序器从桶中检索按docID排序的页面,并按wordID生成反向索引. 排序器还生成一个单词ID及其反向索引偏移量的列表. 名为DumpLexicon的程序将此列表与搜索引擎词库结合在一起,以生成可供搜索者使用的新词库词库. 由Web服务器组成的搜索引擎Searcher使用具有反向索引和PageRanks的新词库来回答查询.

命中列表

谷歌搜索引擎原理_谷歌搜图引擎 -(搜索)_谷歌以图搜图引擎

命中列表记录有关出现在网页上的关键字的一系列信息,包括网页上的位置,字体的相对大小和字母大小写. 命中列表占据了前向和反向索引中的大部分空间.

命中类型有两种: 花式命中和普通命中. 热门匹配包括出现在URL,标题,锚文本或元标记中的关键字. 出现在其他位置的所有关键字都是简单匹配. 普通匹配由1位大写和小写字母,3位字体大小和12位信息组成,这些信息用于指示关键字在网页上的位置(所有大于4095的位置的纪元均为4096).

Forward Reverse Indexes

转发索引

远期指数包括64桶桶. 每个桶都存储特定范围的wordID. 如果网页包含属于某个桶范围的关键字,则docID会记录在此特定桶中. docID与这些关键字的wordID和命中列表一起记录在此桶中.

反向索引

反向索引使用与正向相同的障碍. 唯一的区别是反向索引由排序器处理. 对于每个有效的wordID,同义词库词典都包含指向特定桶的指针. 它指向由docID及其对应的命中列表组成的doclist列表. 此文档列表表示该单词出现在所有文件中的列表.

Google使用两组倒置桶. 一组包含标题和锚点命中,另一组包含所有命中. 这样,Google首先检查第一组短桶,如果没有足够的匹配结果,则查询第二组长桶.

谷歌搜图引擎 -(搜索)_谷歌以图搜图引擎_谷歌搜索引擎原理

Google查询过程如下

解析查询关键字并将关键字转换为wordID. 在短桶中找到每个关键字. 扫描文档列表开头的文档列表,直到找到与查询匹配的页面. 桶文档列表已被检查. 在长桶的长桶文档列表中找到每个关键字的起点. 重复步骤4. 如果尚未检查文档列表,请重复步骤4.

根据计算出的排名对匹配页面进行排序,并返回前k个查询结果.

Google的排名系统

Google比其他搜索引擎包含更多的网络信息. 每个命中列表均包含位置,字体和大写信息. Google的另一个参考是锚文本和网页的PageRank. 没有哪个因素会对搜索结果的排名产生太大影响.

让我们看一下对单个关键字的查询: Google首先看与该单词相对应的页面的匹配列表. Google区分每个匹配包含几种不同的类型(标题,锚点,URL,大字体,小字体等),并且每种类型都有自己的类型权重. 这些类型权重组成一个类型向量. Google会对每种点击数进行计数,然后将这些点击数转换为计数权重Count-weights. 计数权重开始线性增加,然后逐渐停止,因此太多的命中计数无效. Google正在将Count-weights和type-weight相乘以计算网页的IR得分. 最后,将此IR得分与PageRank结合在一起,以获得最终的搜索排名结果.

对于多关键字搜索,计算方法更加复杂. 现在必须完整扫描多个命中列表,以使在文章中显得较近的命中具有比相距较远的命中更高的权重. 将这些紧密匹配匹配在一起,然后计算这些匹配匹配的相关性. 关联性是根据这些匹配在文章中出现的距离确定的,并分为10个不同的值,这些值表示为词组匹配甚至不接近. 命中计数不仅可以计算每种类型,还可以计算每种类型及其相关性匹配. 每个类型和关联对都有一个类型权重权重. 该计数器转换为计数权重. 然后将此计数权重乘以类型近似权重即可获得商品的IR得分. 当然,最终结果是IR得分和PageRank的组合,以获得最终搜索排名结果.

最后一句话

整理本文的目的是为了使您更好地了解Google搜索引擎,也希望可以帮助您对Google的工作原理有一个大致的了解. 如果您仍然不理解我的文章,可以在这里找到原始的英文文本. 〜backrub / google.html.


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-160267-1.html

    相关阅读
      发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

      热点图片
      拼命载入中...