首页 > 操作系统 >

说明搜索引擎的工作原理

电脑杂谈　发布时间：2020-04-21 17:13:30　来源：网络整理

合格的seo工程师一定会了解搜索引擎的工作原理. 百度和谷歌的原理几乎是相同的，但是一些细节是不同的，例如分词技术，因为国内搜索一般是百度，所以我们所有课程都是针对百度的，当然，基础课只适用到Google！

搜索引擎的工作原理实际上非常简单. 首先，搜索引擎大致分为4个部分，第一部分是蜘蛛搜寻器，第二部分是数据分析系统，第三部分是索引系统，第四部分是查询系统. 当然，这只是基本的4个部分！

让我们谈谈搜索引擎的工作流程:

什么是搜索引擎蜘蛛？什么是爬虫程序？

搜索引擎蜘蛛程序实际上是搜索引擎的自动应用程序. 它的作用是什么？实际上，这非常简单，那就是浏览Internet上的信息，然后在搜索引擎的服务器上获取所有信息，然后建立索引库等，我们可以将搜索引擎蜘蛛视为用户，然后该用户访问我们的网站，然后将我们网站的内容保存到您自己的计算机中！比较容易理解.

搜索引擎蜘蛛如何抓取网页？

找到一个链接→下载此页面→添加到临时库→从网页中提取链接→在下载页面上→循环

首先，搜索引擎蜘蛛需要查找链接. 至于如何找到它们，很容易通过链接进行链接. 当搜索引擎蜘蛛找到此链接时，它将下载此页面并将其存储在临时库中. 当然，同时，它将提取此页面上的所有链接搜索引擎的类型及其工作原理，然后循环.

搜索引擎蜘蛛24小时几乎不间断（我为此感到悲惨，没有假期. 哈哈. ）那么蜘蛛下载回的网页又如何呢？这需要第二个系统，即搜索引擎的分析系统.

搜索引擎蜘蛛是否定期抓取网页？

搜索引擎的类型及其工作原理_搜索原理盲目搜索与启发式搜索_盘找找百度网盘资源搜索云引擎

这个问题问得很好，所以搜索引擎蜘蛛会定期抓取网页吗？答案是肯定的！

如果蜘蛛不分青红皂白地爬网网页，则需要付出很多努力. 每天Internet上都有很多网页. 蜘蛛如何爬行？因此，蜘蛛会定期抓取网页！

蜘蛛爬网策略1: 深度优先

什么是深度优先？简而言之，搜索引擎蜘蛛会在一个页面上找到一个链接，然后沿着该链接进行爬网，然后在下一页上找到一个链接，然后向下爬网并全部爬网. 这是深度优先的爬网策略. 看下面的图片

上图是深度优先的. 如果我们假设页面A在搜索引擎中具有最高权限，如果页面D具有最低的权限，如果搜索引擎蜘蛛根据深度优先策略网页进行爬网，则它将被颠倒，即D页面最高，深度优先！

蜘蛛网抓取策略2: 宽度优先

宽度首先更容易理解，也就是说，搜索引擎蜘蛛首先对整个页面的所有链接进行一次爬网，然后对下一页的所有链接进行爬网.

上图是宽度优先的！这实际上是每个人都在谈论的扁平结构. 您可能会在一个神秘的角落看到一篇文章，警告所有人该网页的级别不要太大. 如果过多将使其难以包含，那么这实际上就是处理搜索引擎蜘蛛的广度优先策略的原因.

蜘蛛爬网策略3: 重量第一

如果宽度优先级优于深度优先级，则不是绝对的. 只能说每个人都有自己的利益. 现在搜索引擎蜘蛛通常同时使用两种爬网策略，即深度优先+宽度优先，并且在使用这两种策略进行抓取时，应参考此连接的权重，如果此连接的权重还不错，则首先使用深度，如果此连接的权重非常低，请首先使用宽度！

盘找找百度网盘资源搜索云引擎_搜索引擎的类型及其工作原理_搜索原理盲目搜索与启发式搜索

那么搜索引擎蜘蛛如何知道这种连接的重要性？

这里有2个因素: 1.或多或少的水平； 2.所连接外部链接的数量和质量；

因此，如果链接太多，是否不会对其进行爬网？这不是绝对的，这里有很多因素要考虑，我们将在高级阶段沦为逻辑策略，我将详细告诉您！

Spider抓取网络策略4: 重新访问抓取

我认为这更容易理解. 例如，昨天搜索引擎蜘蛛来抓取我们的网页，今天我们在页面上添加了新内容，然后搜索引擎蜘蛛今天又来了内容，这是重新访问抓取！重访的爬网也分为以下两种:

1. 重新访问所有

所谓的全部重访是指蜘蛛上次爬网的链接，然后在一个月的某天再次访问并再次爬网！

2. 单次访问

单次访问通常是相对快速且相对稳定地更新的页面. 如果我们有一个页面，它将不会每月更新一次.

然后搜索引擎蜘蛛会在第一天出现，您的样子，第二天，它仍然像这样，然后搜索引擎蜘蛛不会在第三天出现，并且会偶尔出现，例如每月一次，或者每次重新访问时更新一次.

搜索引擎的类型及其工作原理_搜索原理盲目搜索与启发式搜索_盘找找百度网盘资源搜索云引擎

以上是搜索引擎蜘蛛抓取网页的一些策略！好吧，正如我们上面所说的，当搜索引擎蜘蛛向后爬网网页时，第二部分开始了，这就是数据分析的这一部分.

数据分析系统

数据分析系统是处理由搜索引擎蜘蛛抓取的网页，然后将数据分析分为以下几类:

1，网页结构化

简单地说，删除所有html代码并提取内容.

2. 降噪

去噪是什么意思？在网页的结构中，已删除html代码，并保留了文本，然后降噪是指保留网页的主题内容搜索引擎的类型及其工作原理，并删除无用的内容，例如版权！

3. 重复检查

更容易理解重复检查，即搜索引擎找到重复的页面和内容，如果找到重复的页面，则将其删除.

4. 分词

盘找找百度网盘资源搜索云引擎_搜索引擎的类型及其工作原理_搜索原理盲目搜索与启发式搜索

分词是神马的事吗？也就是说，搜索引擎蜘蛛已经执行了前面的步骤，然后提取了正文的内容，然后将我们的内容分为N个字，然后将其排列并存储在索引库中！它还可以计算该单词在此页面上出现的次数.

5. 链接分析

这是我们通常要做的烦躁工作，搜索引擎将查询该页面有多少反向链接，出口链接和内部链接有多少，然后给该页面赋予多少权重等.

数据索引系统

执行上述步骤后，搜索引擎会将处理后的信息放入搜索引擎的索引库中. 然后，将这个索引库大致分为以下两个系统:

前排索引系统

什么是正指数？简而言之，搜索引擎会在所有URL上添加一个数字，该数字与URL的内容相对应，包括URL的外部链接，关键字密度和其他数据.

搜索引擎简单工作原理概述

搜索引擎蜘蛛发现连接→根据蜘蛛的爬行策略对网页进行爬行→然后将其交给分析系统→分析网页→建立索引库

好的，这堂课结束了. 对于我来说，这并不容易，今天只是对搜索引擎工作的简单讨论，因为搜索引擎是一个非常复杂的系统，因此不可能在数十分钟内全方位传播. 我们在高级或高级教程中. 我会慢慢谈论它！

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-183788-1.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

关京花

2026年06月12日回复顶转发
吴雪瑶

现代级前2艘和这条船舰龄差不多

2026年06月12日回复顶转发
周永趁

可以说这是在筛选优秀人人才

2026年06月12日回复顶转发

每日福利

分布式存储环境网贷之家小编根据舆情频道的相关数据，精心整理的

如何打开win7系统注册表的启动项？

解决方法：如何在XP系统中打开资源管理器？步骤是什么？

关于加强EB病毒抗体四项检验的通知

热点图片

热点排行