b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

nutch使用_nutch eclipse_万用表的使用方法(2)

电脑杂谈  发布时间:2017-05-28 05:06:11  来源:网络整理

merge merge several segment indexes

dedup remove duplicates from a set of segment indexes

plugin load a plugin and run one of its classes main()

server run a search server

or

CLASSNAME run the class named CLASSNAME

Most commands print help when invoked w/o parameters.

(3)开始使用Nutch

下面用一个简单的例子说明Nutch的使用方法

1) 添加需要爬行的内部网地址信息。

mkdir urls

echo >urls/csdn

2) 然后修改conf目录下的crawl-urlfilter.txt文件,这个文件中的正则表达式定义了那些文件可以被Nutch爬行,那些不可以被爬行。其中以“+”号开头的表示属于Nuch合法的Url连接,“-”号开头相反。我们需要修改文件中的

# accept hosts in MY.DOMAIN.NAME

+^([a-z0-9]*/.)*MY.DOMAIN.NAME/

# accept hosts in MY.DOMAIN.NAME

+^([a-z0-9]*/.)*csdn.com/

3)接下来我们需要配置conf/nutch-site.xml,这个需要填写相关的代理属性,应为Nutch也许要准受Robot协议,在爬行人家网站的时候,把相关的信息提交给被爬行的网站。

我们在这个文件中,需要在<configuration>和</configuration>之间,加入是个代理属性,例如http.agent.name属性

<property>

<name>http.agent.name</name>

<value>csdn.com</value>

<description>csdn.com</description>

</property>

其中除了name字段需要准确添写外,其他value和descrption字段可或添写。

同样,还需要加入http.agent.description,http.agent.url和http.agent.email这三个属性。

4)这样就完成了全部爬行所需要的配置,下面就可以用nutch的crawl命令来派性企业内部网了

再nutch目录中输入:

bin/nutch crawl urls -dir csdn -threads 4 -depth2 -topN 30

这样nutch就启动并且开始爬行任务了,由于是简单示例,所以以上这个命令很快就结束了,因为爬行的广度和深度都非常小,也就是说,示例只爬行了csdn网站的很小一部分网页。

下面就上面命令的参数进行说明:

Crawl命令的使用说明为: crawl <url dir> [-dir index] [-threads num] [-depth num] [-topN num]

其中:

-dir选项是抓取的页面的存放目录。

-threads选项是启动的最大线程数。

-depth选项是能爬行的最大深度,也就是最多爬行到第几级的页面,也叫爬行深度。

-topN选项是在每层深度上,所能爬行的最多页面数,也称爬行广度。

完成爬行后,会在-dir选项所指定的目录中保存网页信息和搜索需要的索引。nutch使用


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/ruanjian/article-49659-2.html

相关阅读
    发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

    热点图片
    拼命载入中...