Nutch使用方法简介
目前Nutch采用Sehll的启动方式,如果您使用的是Windows系统,那么首先需要安装Cygwin。本文就以在Windows中为例,介绍Nutch的安装和使用方法。
(1)准备需要的软件列表
Cygwin (下载地址:) Jdk(1.4.2以上版本,下载地址) Nutch(推荐使用0.9版本,下载地址) Tomcat(下载地址)
(2) 安装软件
1) Cygwin 打开安装程序Cygwin.exe后,在"Choose Installation Type"页选择 "Install from Internet"(如果你已经把全部安装包下载到本地,就可以选择"Install from local directory"选项)。然后点击"Next".
然后选择安装目录,其他可保持默认选项,点击"Next".
选择保存安装包的本地目录,点击"Next".
选择下载连接的类型,点击Next。
然后通过服务器先下在需要安装的包列表,默认全部安装,并且选择可以使用的下载镜像地址(速度不一样,如果太慢可以换别的:) )
请耐心等待,安装程序会自动下载和安装程序包,并且保存程序包在设定的目录,这样下次安装就不必重新下载了。我安装时大约用了3分钟,下载网速大约80Kbs/s。
完成安装。nutch使用
2) 安装JDK,这个就不用介绍了,注意安装完成后需要在Windows的环境变量中加入JA_HOME=你的jdk的安装目录
3) 安装Tomcat,这个就不用多说了吧。
4)把Nutch解压到本地目录,例如D:/nutch。这时候启动Cygwin程序,Cygwin程序会启动一个模拟Unix/Linux的终端窗口,然后使用方式就和Unix的Shell一样了,Cygwin的根目录是/cygdriver,这个目录相当于Windows的“我的电脑”,然后进入Nutch的目录,例如:cd /cygdriver/d/nutch,然后运行bin/nutch命令,如果出现下面的Usage 信息,这样Nutch就安装完成了,非常简单。
Usage: nutch COMMAND
where COMMAND is one of:
crawl one-step crawler for intranets
readdb read / dump crawl db
mergedb merge crawldb-s, with optional filtering
readlinkdb read / dump link db
inject inject new urls into the database
generate generate new segments to fetch
fetch fetch a segment's pages
parse parse a segment's pages
readseg read / dump segment data
mergesegs merge several segments, with optional filtering and slicing
updatedb update crawl db from segments after fetching
invertlinks create a linkdb from parsed segments
mergelinkdb merge linkdb-s, with optional filtering
index run the indexer on parsed segments and linkdb
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/ruanjian/article-49659-1.html
质检总局去买个假货