首页 > 操作系统 >

搜索引擎的工作原理: 页面抓取

电脑杂谈　发布时间：2020-06-07 05:02:09　来源：网络整理

元搜索引擎工作原理_能搜索图片的引擎_人肉引擎搜索

全文搜索引擎

目录搜索引擎

元搜索引擎

在Internet中，URI是每个页面的填充地址，搜索引擎蜘蛛程序通过URL对该页面进行爬网. 搜索引擎蜘蛛程序从原始UR列表开始，通过URL爬行并存储原始页面；同时，在原始页面中提取UR资源，并将其添加到URU列表中. 通过这样一个连续的周期，您可以从Internet获得足够的页面，如图

URL是页面的入口，第二个域名是网站的入口. 搜索引擎蜘蛛程序通过域名进入网站，从而开始对网站页面进行爬网. 换句话说，搜索引擎抓取Internet上页面首页的任务是创建足够大的原始域名列表，然后通过该域名输入相应的网站来抓取该网站中的页面.

人肉引擎搜索_元搜索引擎工作原理_能搜索图片的引擎

对于网站，如果要包含在搜索引擎中，则必须首先加入搜索引擎的域名列表.

1. 使用搜索引擎提供的网站登录条目将网站域名提交给搜索引擎.

百度:

360:

搜狗:

2. 通过外部网站建立连接关系，即搜索引擎可以通过外部网站发现我们的网站，从而包含该网站. 只要我们有足够的高质量链接，主动权就在我们自己手中，并且收录速度比搜索引擎的主动提交要快得多.

如果您将网站页面集合视为有向图，请从指定页面继续. 遵循页面中的链接，并根据特定策略遍历网站中的页面. 继续从URL列表中删除访问的URL，并保存原始页面，同时在原始页面中提取URL信息；然后将该URL分为两类: 域名和内部URL，同时确定是否已访问该URL，将未访问的URL添加到URI列表中. 递归扫描URL列表，直到用尽所有URL资源. 完成这些任务后，搜索索引可以构建庞大的域名列表，页面URL列表，并存储足够的原始页面.

有6种方法来抓取页面

能搜索图片的引擎_人肉引擎搜索_元搜索引擎工作原理

宽度第一

深度优先

大型网站优先级

高体重在头

黑网抓取

用户提交

网站上的重复信息包括两类: 重印内容和镜像内容. 搜索引擎在分析页面时必须具有识别重复信息的能力. 大量重复信息不仅占用服务器硬盘空间巨大，而且增加了用户查找信息的时间，降低了用户体验. 但这并不意味着所有重复的信息都是毫无价值的. 搜索引擎认为，重新打印的内容不如原始内容重要，这赋予原始内容页面更高的权重，并且镜像站点几乎被忽略.

因为搜索引擎无法一次对网站上的所有页面进行爬网元搜索引擎工作原理，并且网站上的页面数将继续变化，并且内容会不断更新，因此搜索引擎也需要对网页进行爬网已爬网的页面维护和更新，以便您可以及时获取页面上的最新新闻并获取更多新页面.

元搜索引擎工作原理_能搜索图片的引擎_人肉引擎搜索

常用页面维护方法包括: 常规爬网，增量爬网，分类定位爬网，历史更新策略和用户体验策略.

定期爬网也称为定期爬网，这意味着搜索引擎会定期更新站点上已爬网的页面. 更新时，将爬网的新页面替换为原始的旧页面，删除不存在的页面，然后存储新发现的页面. 定期更新针对已爬网的所有页面元搜索引擎工作原理，因此更新周期将更长. 这适用于维护页面较少且内容更新较慢的网站，并且包含在普通公司网站中. 但是，由于更新周期很长，因此无法及时向用户反映页面的更改.

增量爬网是定期监视和控制已爬网的页面，以便更新和维护页面. 但是，定期监视网站的每个页面是不现实的. 基于重要页面包含重要内容和80/20规则的思想，搜索引擎只需要定期监视网站中的一些重要页面，以获得网站上相对重要的信息.

因此，增量爬网仅适用于网站中的某些重要页面，而不是针对所有已爬网的页面，这就是为什么搜索引擎对重要页面的更新周期会更短的原因. 例如，具有频繁更新内容的页面在搜索参考文献时也会频繁更新，以便可以及时发现新内容和新链接，并删除不存在的信息.

Xu的增量爬网基于原始页面，因此将大大减少搜索引擎的爬网时间，并及时向用户显示页面上的最新内容.

类别定位抓取

与增量爬网（由页面的重要性决定）不同，分类定位爬网是指一种页面监视方法，该方法根据页面的类别或性质来设置相应的更新周期. 例如，新闻和信息页面的更新周期可以精确到每分钟，而下载页面的更新周期可以设置为一天或更长.

类别定位爬网将不同类别的页面分开，可以节省大量的爬网时间，大大提高了页面内容的实时性，增强了页面爬网的灵活性. 但是，按类别制定页面更新周期的方法比较普遍，并且难以跟踪页面的更新状态. 因为即使对于同一类别的页面，不同网站上内容的更新周期也会非常不同. 例如，新闻页面，大型大型网站中的内容更新速度将比其他小型网站快得多. 因此，有必要结合其他方法（例如增量爬网等）来监视和更新页面.

人肉引擎搜索_元搜索引擎工作原理_能搜索图片的引擎

实际上，搜索引擎以多种方式维护网站上的页面，这相当于为每个页面间接选择最合适的维护方法. 这样，不仅可以减轻搜索引擎的负担，而且可以为用户提供及时的信息.

例如，网站中的页面类型很多，常见的页面包括: 主页，论坛页面，内容页面等. 对于更新频率较高的页面（例如主页），可以使用增量爬网监控它们，以便您可以及时更新网站中相对重要的页面；对于实时性能非常高的论坛页面，可以使用分类定位的抓取方法；为了防止网站中某些页面被遗漏，Qu还需要采用定期爬网的方法.

历史更新频率策略

历史更新频率策略基于这样的思想，即网页在过去的特定时间段内频繁更新，然后在将来的特定时间频繁地更新. 例如，对于一个网站的主页，可以通过监视网站的内容来分析其内容更新规则，搜索引擎可以相应地调整爬网的频率和时间点，从而及时获取刚镇的最新内容.

用户体验策略

所谓的用户体验策略是指开发用于改善索引用户体验的目标网页更新策略. 大多数搜索引擎的用户体验指标很多，而网页更新的及时性是重要因素之一. 对于搜索引擎中的关键字搜索结果，用户通常只单击前30页. 因此，只要及时更新前30个页面，不仅可以引入搜索引擎的资源，提高重要页面的更新频率，还可以满足大多数用户获取信息的需求.

页面存储

除了存储原始页面外，搜索引擎还将在存储原始信息的基础上附加一系列信息，例如文件类型，文件大小，最后修改时间，URL，IP地址，爬网时间等. 页. 此信息用作某些工作的基础. 例如，如果文件太大，则搜索引擎可能会放弃它；最后修改时间是页面更新的日期.

2019年: 天龙八部08经典复古网单版BUG情况（0）2015年: 普通计算机故障排除（2）（0）

欢迎来到菜鸟头的个人博客. 以下是我的微信QR码. 对Internet感兴趣或有共同爱好的朋友可以添加一个朋友进行交流和一起学习.

本文已被百度收录. 如果您在本网站上发现任何侵犯您利益的内容，请及时通过电子邮件或消息与我们联系. 我将尽快删除所有相关内容.

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-236777-1.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论