b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

关于搜索引擎工作原理的简要说明

电脑杂谈  发布时间:2020-03-31 12:19:29  来源:网络整理

百度云搜索资源引擎_搜索引擎基本工作原理_搜索影片引擎

全部展开

搜索引擎由搜索器,索引器,搜寻器和用户界面组成.

1.Searcher

搜索器的功能是在Internet上漫游,发现和收集信息. 它通常是昼夜运行的计算机程序. 它需要尽可能快地收集各种类型的新信息,并且由于Internet上的信息是快速更新的,因此它还必须更新定期收集的旧信息,以避免无效连接和无效连接. 当前有两种收集信息的策略:

百度云搜索资源引擎_搜索影片引擎_搜索引擎基本工作原理

●从一组起始URL开始,然后按照这些URL中的超链接,以宽度优先,深度优先或启发式的循环发现Internet上的信息. 这些起始URL可以是任意URL,但通常是具有许多链接的非常流行的网站(例如Yahoo!).

●Web空间按域名,IP地址或国家/地区域名划分,每个搜索者负责详尽搜索子空间.

搜索者收集各种信息,包括HTML,XML,新闻组文章,FTP文件,文字处理文档和多媒体信息.

搜索者的实现通常使用分布式并行计算技术来提高信息发现和更新的速度. 商业搜索引擎信息发现每天可以到达数百万个网页.

搜索影片引擎_百度云搜索资源引擎_搜索引擎基本工作原理

2. 索引器

索引器的功能是了解搜索者搜索到的信息并从中提取索引项,这些索引项用于表示文档并为文档库生成索引表.

索引条目有两种类型: 目标索引和内容索引: 目标条目与文档的语义内容无关,例如作者姓名,URL,更新时间,编码,长度,链接流行度等. 用于反映文档内容,例如关键字及其权重,短语,单词等. 内容索引项可以分为单索引项和多索引项(或短语索引项). 单个索引词是英语的英语单词,由于单词之间存在自然的分隔符(空格),因此更易于提取. 对于连续书写的中文之类的语言,必须进行分词.

在搜索引擎中,通常给单个索引词一个权重,以指示该索引词区分文档的程度,并用于计算查询结果的相关性. 通常使用的方法是统计方法,信息论方法和概率方法. 短语索引项的提取方法包括统计方法,概率方法和语言方法.

搜索影片引擎_百度云搜索资源引擎_搜索引擎基本工作原理

索引表通常使用某种形式的反转列表(Inversion List),即通过索引条目找到相应的文档. 索引表还可以记录索引条目在文档中的位置,以便爬虫可以计算索引条目之间的相邻关系或接近关系(接近度).

索引器可以使用集中式索引算法或分布式索引算法. 当数据量很大时,必须实现即时索引,否则您将无法跟上信息量的快速增长. 索引算法对索引器的性能有很大影响,例如峰值查询的响应速度. 搜索引擎的有效性在很大程度上取决于索引的质量.

3. 爬虫

搜寻器的功能是根据用户查询在索引中快速签出文档,评估文档和查询的相关性搜索引擎基本工作原理,对要输出的结果进行排序,并实现用户相关性反馈机制.

搜索影片引擎_百度云搜索资源引擎_搜索引擎基本工作原理

常用的信息检索模型包括集合论模型,代数模型,概率模型和混合模型.

4. 用户界面

用户界面用于输入用户查询,显示查询结果并提供用户相关性反馈机制. 主要目的是使用户易于使用搜索引擎,并以多种方式有效地从搜索引擎获取有效和及时的信息. 用户界面是使用人机交互理论和方法设计和实现的,以完全适应人类的思维习惯. 用户输入界面可以分为简单界面和复杂界面.

简单界面仅提供用户输入查询字符串的文本框;复杂的界面允许用户限制查询的出现位置,例如逻辑操作(和/或非; +,-),紧密关系(相邻,NEAR),域范围(例如.edu,.com) (例如标题搜索引擎基本工作原理,内容),消息时间,长度等.


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-158852-1.html

    相关阅读
      发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

      • 阮槃溪
        阮槃溪

        我们家千玺配的棒棒的

      • 岳珂
        岳珂

        我们在南海有许多的东风牌可打

      热点图片
      拼命载入中...