8.链接关系计算
链接关系计算也是预处理中很重要的一部分。现在所有的主流搜索引擎排名因素中都包含网页之间的链接流动信息。搜索引擎在抓取页面内容后,必须事前计算出:页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。
Google PR值就是这种链接关系的最主要体现之一。其他搜索引擎也都进行类似计算,虽然它们并不称为PR.
由于页面和链接数量巨大,网上的链接关系又时时处在更新中,因此链接关系及PR的计算要耗费很长时间。关于PR和链接分析,后面还有专门的章节介绍。
9.特殊文件处理
除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等。我们在搜索结果中也经常会看到这些文件类型。但目前的搜索引擎还不能处理图片、视频、Flash这类非文字内容,也不能执行脚本和程序。
虽然搜索引擎在识别图片及从Flash中提取文字内容方面有些进步,不过距离直接靠读取图片、视频、Flash内容返回结果的目标还很远。对图片、视频内容的排名还往往是依据与之相关的文字内容,详细情况可以参考后面的整合搜索部分。指纹定位算法
排名
经过搜索引擎蜘蛛抓取的界面,搜索引擎程序计算得到倒排索引后,收索引擎就准备好可以随时处理用户搜索了。用户在搜索框填入关键字后,排名程序调用索引库数据,计算排名显示给客户,排名过程是与客户直接互动的。
作者:佚名
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/tongxinshuyu/article-71597-4.html
我凡要出新歌啦
戒骄戒躁