b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

安装svn NUTCH初步(一)

电脑杂谈  发布时间:2018-02-12 03:25:41  来源:网络整理

怎么检验svn安装了_win10安装svn_安装svn

自从前一段时间耍了一转回绵阳后,一直抱着AltiumDesigner的指导书进行上手。从绘制原理图,画自己的元件库、封装库和集成库,再在PCB上布局、排线,最后某宝上联系厂家定制并仔细选购元器件,终于赶在放假前拿到了印刷好的板子,只等部分还在路上的元件。

前几天360貌似清理掉了VirtualBox的什么关键文件,全部推倒重装,顺便把CentOS换成了对新人更加友好的Ubuntu系统。安装过程真的很久,应该是虚拟系统网速慢的原因。

后来亲爱的360摧毁了ubuntu的log文件,幸好我机智的利用虚拟磁盘文件新建了一个同名虚拟机。

又花了一两天时间重新学习系统操作,图形化界面真的比纯命令行看起来舒服多了。

接下来就是搭建nutch。简单来说就是下载安装svn和ant,抽出源代码并编译,同时如果没有JDK还需要安装。中途遇到找不到JDK的问题,原因在于默认JDK路径在安装后还没来及修改,重启一道就好了(重启大法好)。

安装完成后的文件:

由于需要下载相关框架等等,第一次用ant编译花了七分多钟。安装svn

nutch的主要命令及说明:

接下来是要配置些参数,甚是麻烦,此处略去。

先是从自己的博客开始爬,最大深度为3,线程为100,以nohup方式运行。后面换成了天涯论坛。爬到数据的具体分析还不会,以下是统计信息:

可以看到crawldb库里面总共的url有2w+,已经抓取的网页有500+。此外还可以看到对网页的评分,临时/永久重定向的网页数等等内容。安装svn

要点:

1.通过nutch,诞生了hadoop、tika、gora。

win10安装svn_怎么检验svn安装了_安装svn

2.nutch通过ivy来进行依赖管理(1.2之后)。

3.nutch是使用svn进行源代码管理的。

4.lucene、nutch、hadoop,在搜索界相当有名。

5.ant构建之后,生成runtime文件夹,该文件夹下面有deploy和local文件夹,分别代表了nutch的两种运行方式。

6.nutch和hadoop是通过nutch脚本连接起来的。通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。

7.nutch入门重点在于分析nutch脚本文件。

8.git来作为分布式版本控制工具,github作为server。bitbucket.org提供免费的私有库。

9.nutch的提高在于研读nutch-default.xml文件中的每一个配置项的实际含义(需要结合源代码理解)。

10.定制开发nutch的入门方法是研读build.xml文件。

部分操作:

apt-get install subversion

svn cohttps://svn.apache.org/repos/asf/nutch/tags/release-1.6/

cd release-1.6

win10安装svn_安装svn_怎么检验svn安装了

apt-get install ant

ant

cd runtime/local

mkdir urls

vi urls/url.txt 并输入 //注意vi的相关操作命令

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100&

vi release-1.6/conf/nutch-site.xml增加http.agent.name配置

//注意如何查找本浏览器的用户代理user agent

cd ../../release-1.6

ant

cd runtime/local

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100&

删除报错的文件夹//此前无http.agent.name配置报错,但已经生成对应文件夹

nohup bin/nutch crawl urls -dir data -depth 1 -threads 100&


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-72857-1.html

    相关阅读
      发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论