首页 > 电脑主机 >

nutch使用_nutch和lucene_nutch eclipse(6)

电脑杂谈　发布时间：2017-05-28 05:05:47　来源：网络整理

nutch的文档不多，而且多是安装文档，要深入nutch，就必须一字不漏的阅读：

Introduction to Nutch, Part 1 Crawling 和Introduction to Nutch, Part 2 Searching

然后就是看源码了，好在nutch的源码非常均匀，简短，没有花哨的技巧，很容易把事情看明白。

首先理解nutch的三个数据目录：

1.crawdb,linkdb 是web link目录，存放url 及url的互联关系，作为爬行与重新爬行的依据，页面默认30天过期。

2.segments 是主目录，存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。nutch以广度优先的原则来爬行，因此每爬完一轮会生成一个segment目录。

3.index 是lucene的索引目录，是indexs里所有index合并后的完整索引，注意索引文件只对页面内容进行索引，没有进行存储，因此查询时要去访问segments目录才能获得页面内容。

3.Nutch 每条索引记录的字段

url：作为唯一标标识值，由BasicIndexingFilter类产生。

boost：优先级，由Indexer类调用插件计算产生。

title：显示标题，在BasicIndexingFilter插件中被索引和存储。

content：主要的被搜索项，在BasicIndexingFilter插件中被索引。

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/ruanjian/article-49657-6.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

每日福利

苹果铃声格式?iphone铃声格式?苹果铃声m4a格式?iPhone6自定义铃声必须是什么格式的？

热点图片

热点排行