<property>
<name>searcher.dir</name>
<value>E:/nutch/csdn</value>
<description></description>
</property>
</configuration>
(4) 启动Tomcat,打开浏览器在地址栏中输入::8080/nutch ,就可以看到搜索页面了.
注意:从网页上复制的代码可能存在一些非英文编码字符,会造成影响,我就遇到了这个问题。把前面的空格等都去掉就解决了。
nutch抓取下来,但搜索不到结果的解决方案
(1)在 cygwin 中输入 ”bin/nutch org.apache.nutch.searcher.NutchBean csdn”测试是否已经抓取了页面,如果有结果,则说明有
(2)查看tomcat的 webapps/nutch/WEB-INF/classes下的nutch-site.xml文件里,是否设置了searcher.dir属性,这是必须的
(3)别忘了在设置完成后,要重启下tomcat。(注意每次修改nutch-site.xml 文件后都要重新启动tomcat)
(4)貌似nutch/conf/nutch-site.xml也要设置searcher.dir属性,都进行设置
中文乱码问题
在文本框中输入关键字,就可以进行搜索了.不过用户在使用时会发现,对于英文单词的搜索一切正常,而当要搜索中文词语时会出现乱码。其实这个问题是Tomcat设置的问题,解决办法是修改tomcat的配置文件,打开tomcat/conf下的server.xml文件,将其中的Connector部分改成如下形式即可:
将
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443" />
改为
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443"
URIEncoding="UTF-8"
useBodyEncodingForURI="true"/>
然后重启 tomcat即可。
索引查看
LukeAll 3.01打开爬行结果目录下的index目录
注意:低版本Luke不能打开该文件,需要高版本的Luke,下载地址
Dedian同志翻译的Doug Cutting 访谈录 -- 关于搜索引擎的开发 。nutch使用
注:Doug Cutting是Lucene、Nutch的开发人员
关于链接分析模块:
你有实现你自己的PageRank或者WebRank算法系统在你的Nutch里吗?什么是你做网页排名(Ranking)的考虑?
是的,Nutch里面有一个链接分析模块。它是可选的,因为对于站内搜索来说,网页排名是不需要的。
Nutch目前对中文分词的支持还不够完善,从测试的结果来看它是将中文词语分成单独的字进行处理的。但是瑕不掩瑜,作为一个开源的搜索引擎项目,Nutch的功能不仅可圈可点,而且从对它源代码的解读中可以使我们对搜索引擎的运行机理和相关算法有了更加深入的了解。此外,Nutch优秀的设计架构使得用户能够非常容易的开发自己的插件,以实现个性化的需求与功能。相信随着Nutch不断的改进和成熟,在不久的将来,基于Nutch的个人搜索引擎以及行业垂直搜索引擎会不断的涌现出来。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/ruanjian/article-49657-5.html
省下的钱足够养得起军队了
这是两岸人民的共同心声