首页 > 操作系统 >

Google搜索引擎原则

电脑杂谈　发布时间：2020-04-01 17:08:27　来源：网络整理

谷歌搜索引擎原理_人肉引擎搜索_谷歌以图识图引擎

在本文中，我们介绍了Google，这是大型搜索引擎的原型. 搜索引擎广泛用于超文本. Google的设计可以有效地对网页进行爬网和索引，其查询结果要优于其他现有系统. 该原型的全文和超链接包含至少24'000'000个网页. 我们可以从这里下载.

设计搜索引擎是一项艰巨的任务. 搜索引擎索引了数以亿计的网页，其中包含截然不同的单词. 每天回答数千个查询. 在网络上，尽管大型搜索引擎很重要，但很少在学术界对其进行研究. 此外，由于技术的飞速发展和网页的大量增加，现在构建搜索引擎与三年前完全不同.

本文详细介绍了我们的大型搜索引擎，并据我们所知，在公开发表的论文中，这是第一个如此详细的描述. 除了将传统的数据搜索技术应用于如此大量的网页时遇到的问题之外，还有许多新的技术挑战，包括使用超文本中的附加信息来改善搜索结果.

本文将解决此问题，并描述如何使用超文本中的附加信息来构建大型实用系统. 任何人都可以在Internet上自由发布信息. 如何有效地处理这些无组织的超文本集合也是本文应注意的问题.

人肉引擎搜索_谷歌搜索引擎原理_谷歌以图识图引擎

关键字万维网，搜索引擎，信息检索，PageRank，Google

1简介

网络给信息检索带来了新的挑战. Web上的信息量正在迅速增长，与此同时，不断有新用户，他们没有经验来体验Web的艺术. 人们喜欢使用超链接来浏览Internet，通常从重要的网页或Yahoo等搜索引擎开始. 每个人都认为列表（目录）有效地包含了每个人都感兴趣的主题，但是它是主观的，建立和维护的成本很高，升级速度很慢，并且不能包含所有深奥的主题. 基于关键字的自动搜索引擎通常会返回太多低质量的匹配项. 更糟糕的是，一些广告试图误导自动搜索引擎以引起关注. 我们构建了一个大型搜索引擎，以解决现有系统中的许多问题. 超文本结构的应用大大提高了查询的质量. 我们的系统名为google，以googol的流行拼写命名，即10到100的幂，这与我们建立大型搜索引擎的目标不谋而合.

1.1 Web搜索引擎-扩:

谷歌以图识图引擎_谷歌搜索引擎原理_人肉引擎搜索

1994-2000年，搜索引擎技术必须进行扩展，以跟上网站数量的翻倍.

1994年，第一个Web搜索引擎万维网蠕虫（WWWW）可以检索11万个网页和Web文件.

到1994年11月，顶级搜索引擎声称能够检索2'000'000（WebCrawler）到100'000'000的Web文件（来自Search Engine Watch）.

可以预见的是，在2000年，将有超过1'000'000'000个可搜索网页. 同时，搜索引擎流量将以惊人的速度增长.

谷歌以图识图引擎_人肉引擎搜索_谷歌搜索引擎原理

1997年3月和4月，万维网蠕虫平均每天收到1500个查询.

1997年11月，Altavista声称每天处理大约20'000'000个查询. 随着互联网用户数量的增长.

到2000年，自动搜索引擎每天将处理数亿个查询. 我们系统的设计目标是解决许多问题，包括质量和可升级性，引入可扩展的搜索引擎技术并将其升级为如此大量的数据.

1.2 Google:

谷歌搜索引擎原理_人肉引擎搜索_谷歌以图识图引擎

通过Web进行扩展构建与当今的Web规模兼容的搜索引擎面临许多挑战. Web抓取技术必须足够快才能跟上网页更改的速度（保持最新状态）. 存储索引和文档的空间必须足够大. 索引系统必须能够有效处理数千亿个数据. 查询处理必须快速，每秒可处理数百至数千个查询（每秒数百至数千个）. 随着Web的不断发展，这些任务变得更加困难. 但是谷歌搜索引擎原理，硬件执行效率和成本也在迅速提高，这可以部分抵消这些困难. 还有一些值得注意的因素，例如磁盘查找时间和操作系统的健壮性. 在Google的设计中，我们既考虑了Web的增长速度又考虑了技术更新. Google的设计是处理大量数据集的不错升级. 它可以有效地利用存储空间来存储索引. 优化的数据结构可以快速有效地访问（请参阅第4.2节）. 此外，我们希望相对于爬网的文本文件和HTML页面的数量，存储和索引的成本尽可能小（请参阅附录B）. 对于像Google这样的集中式系统，采取这些措施可带来令人满意的系统可扩展性.

1.3设计目标

1.3.1提高搜索质量我们的主要目标是提高Web搜索引擎的质量.

1994年，人们认为建立完整的搜索索引将使查找任何数据变得容易. 根据1994年Best of the Web导航器的介绍，“最好的导航服务使搜索Web上的任何信息变得容易（可以同时登录所有数据）. ”但是，1997年的Web截然不同. 搜索引擎用户最近确认谷歌搜索引擎原理，索引的完整性不是评估搜索质量的唯一标准. 感兴趣的用户的搜索结果通常会在“垃圾结果”中丢失. 实际上，截至1997年11月，四个主要的商业搜索引擎中只有一个能够找到自己（搜索它们的名称时返回的前十个结果都包括了它们自己）. 出现此问题的主要原因是文档数量增加了几个数量级，但是用户可以看到的文档数量却没有增加. 用户仍然只希望看到前几十个搜索结果. 因此，随着集合的增长，我们需要工具来使结果准确（返回的前几十个结果中相关文档的数量）. 由于从成千上万个稍有关联的文档中选择了几十个，因此，实际上，相关概念指的是最好的文档. 即使以响应（系统可以返回的相关文档总数）为代价，高精度也很重要. 好消息是，使用超文本链接提供的信息可以帮助改善搜索和其他应用程序. 尤其是，链接结构和链接文本为关联性判断和高质量过滤提供了大量信息. Google同时使用链接结构和锚文本（请参阅第2.1和2.2节）.

1.3.2搜索引擎的学术研究随着时间的流逝而过去. 除了快速发展之外，Web已经变得越来越商业化.

1993年，只有1.5％的Web服务来自.com域. 到1997年，它已超过60％. 同时，搜索引擎正在从学术领域进入业务领域. 到目前为止，大多数搜索引擎都归公司所有，很少披露技术细节. 这导致了一个事实，即搜索引擎技术仍在很大程度上是黑盒操作，并且倾向于做广告（请参阅附录A）. Google的主要目标是在这方面推进和了解学术领域. 另一个设计目标是为每个人提供一个实用的系统. 应用程序对我们非常重要，因为现代Web系统中有很多有用的数据（因为我们认为一些最有趣的研究将涉及利用现代Web系统中可用的大量使用数据）. 例如，每天有数千万的研究. 但是，很难获得这些数据，主要是因为它们没有商业价值. 我们最终的设计目标是建立一个可以支持对大量Web数据进行新研究的体系结构. 为了支持这项新研究，Google以压缩形式保存了其实际抓取的文档. 设计google的目标之一是建立一个环境，以便其他研究人员可以快速进入该领域，处理大量Web数据并获得令人满意的结果，但是通过其他方法很难获得结果. 该系统是在很短的时间内建立的. 有几篇论文使用了Google建立的，并且开始时还有更多论文. 我们的另一个目标是建立一个类似于太空的实验室环境，研究人员甚至学生都可以在我们的大量网络数据上进行设计或做一些实验.

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-160263-1.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

秦庄襄王

我也昨天也喝了黑芝麻糊

2026年06月05日回复顶转发

每日福利

Win7 Ultimate Edition

消息队列ZeroMq的安装和调试

vs nuget 安装插件_vs安装svn插件_nuget 安装mv

乐之城到成都的汽车时间表

热点图片

热点排行