首页 > 操作系统 >

搜索引擎如何工作

电脑杂谈　发布时间：2020-05-03 15:15:45　来源：网络整理

按工作原理划分常见的搜索引擎_入侵报警系统按警戒范围划分_搜索影片引擎

全部展开

全文搜索引擎的“网络机器人”或“网络蜘蛛”是网络上的一种软件，它可以遍历Web空间并可以扫描特定IP地址范围内的网站，并通过该链接访问以下网页: 另一个网页将网页数据从一个网站收集到另一个网站. 为了确保所收集的数据是最新的，它还将返回到已爬网的网页. 由网络机器人或网络蜘蛛收集的网页需要由其他程序进行分析. 根据一定程度的相关算法，在将网页索引添加到索引之前，要进行大量计算以建立网页索引. 我们通常看到的全文搜索引擎实际上只是搜索引擎系统的搜索界面. 当您输入查询关键字时，搜索引擎将从庞大的中找到与该关键字匹配的所有相关网页的索引，并根据某些排名规则向我们展示. 不同的搜索引擎具有不同的Web索引和不同的排名规则. 因此，当我们使用不同的搜索引擎查询相同的关键字时，搜索结果也将不同.

入侵报警系统按警戒范围划分_按工作原理划分常见的搜索引擎_搜索影片引擎

与全文搜索引擎一样，目录的整个工作过程也分为三个部分: 收集信息，分析信息和查询信息. 但是，收集和分析信息的两个部分主要是手动的. 类别目录通常具有专门的编辑人员，负责在网站上收集信息. 随着所包含站点数量的增加按工作原理划分常见的搜索引擎，站点管理员通常将其网站信息提交到类别目录，然后类别目录的编辑者查看所提交的网站，以决定是否包括该站点. 如果站点被批准，类别目录的编辑器还需要分析站点的内容，并将站点放置在相应的类别和目录中. 所有这些包含的站点也都存储在“索引”中. 查询信息时，用户可以选择按关键字搜索，也可以按类别搜索. 如果使用关键字搜索，则返回的结果与全文搜索引擎相同，并且还会根据信息关联程度来排列网站. 需要说明的是，分类目录的关键词搜索只能在网站名称，URL，介绍等内容中进行，其查询结果仅为所包含网站首页的URL地址，而不是具体的. 页. 类别目录就像电话簿. 根据每个网站的性质，将其URL分组在一起. 在每个网站的详细地址之前，主要类别下都有小类别. 通常，还提供每个网站的内容. 用户可以在不使用关键字的情况下进行搜索，只要找到相关目录，就可以找到相关网站（请注意: 这是一个相关网站，而不是该网站上网页的内容，目录中网站的排名通常是根据标题字母的顺序或记录的时间顺序.

搜索引擎并没有真正搜索Internet，它实际上是在搜索预先组织的网络索引.

真正的搜索引擎通常是指全文搜索引擎，它可以在Internet上收集数百至数百亿个网页，并对网页上的每个单词（即关键字）建立索引，以建立索引. 当用户搜索关键字时，页面内容中包含该关键字的所有网页都将被搜索出来. 经过复杂的算法排序后，将根据搜索关键词的相关性对这些结果进行排序.

搜索影片引擎_按工作原理划分常见的搜索引擎_入侵报警系统按警戒范围划分

超链接分析技术已广泛用于搜索引擎. 除了分析被索引网页本身的内容的文本. 因此，有时，即使在某个网页A中没有诸如“ Devil Satan”之类的特定单词，如果另一个网页B使用链接“ Devil Satan”指向该页面A，那么用户也可以搜索“ Devil Satan”查找页面A. 此外，如果还有更多网页（C，D，E，F ...）指向带有链接“ Devil Satan”的该网页A，或提供源网页（ B，C，D，E，F）……）最好，当用户搜索“ Devil Satan”时，页面A会被认为越相关，排名越高.

搜索引擎的原理可以看作是三个步骤: 从Internet上爬行网页→建立索引→在索引中进行搜索和排名.

从Internet上爬行网页

入侵报警系统按警戒范围划分_按工作原理划分常见的搜索引擎_搜索影片引擎

使用Spider系统程序，该程序可以自动从Internet收集网页，自动访问Internet并沿着任何网页中的所有URL爬网到其他网页，重复此过程，然后将所有已爬网的网页收集回来.

创建索引

分析并索引系统以分析收集的网页并提取相关的网页信息（包括网页的URL，编码类型，页面内容中包含的关键字，关键字位置，生成时间，大小以及与其他网页的链接）等），根据某种相关算法进行大量复杂的计算，以获取页面内容和超链接中每个关键字的每个关键字的相关性（或重要性），然后使用这些相关信息建立一个Web索引.

入侵报警系统按警戒范围划分_搜索影片引擎_按工作原理划分常见的搜索引擎

在索引中搜索和排序

用户输入关键字搜索后，搜索系统程序会从网页索引中找到与关键字匹配的所有相关网页. 由于该关键字的所有相关网页的相关性已经得到了很好的计算，因此您只需要根据现有的相关性值对它们进行排序即可. 相关性越高，排名越高.

最后，页面生成系统将搜索结果链接地址和页面内容摘要以及其他内容组织回给用户.

搜索引擎蜘蛛通常会定期重新访问所有网页（每个搜索引擎的周期是不同的，可能是几天，几周或几个月，或者对于具有不同重要性的网页可能具有不同的更新频率）. 索引以反映网页内容的更新，添加新的网页信息，删除无效链接以及根据网页内容和链接关系的更改重新排序. 这样，网页的特定内容和更改将反映在用户查询的结果中.

尽管只有一个Internet，但是每个搜索引擎具有不同的功能和偏好，因此其爬网的页面也不同，并且排序算法也不同. 大型搜索引擎的在Internet上存储了数千到数千亿个网页索引，数据量达到了数千G甚至数万G. 但是即使最大的搜索引擎构建的索引超过2十亿个网页，它只能占Internet上普通网页的不到30％. 不同搜索引擎之间的网页数据重叠率通常低于70％. 我们使用不同搜索引擎的重要原因是因为它们可以分别搜索不同的内容. 互联网上有很多内容按工作原理划分常见的搜索引擎，搜索引擎无法抓取索引，我们也无法使用搜索引擎进行搜索.

您应该牢记这个概念: 搜索引擎只能搜索存储在其Web索引中的内容. 您还应该有一个概念: 如果应该有一个搜索引擎的Web索引而您没有搜索，那是您的能力问题. 学习搜索技巧可以大大提高您的搜索能力.

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-197748-1.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

王驾

所以车买不了

2026年03月26日回复顶转发

每日福利

热点图片

热点排行