首页 > 操作系统 >

安装svn NUTCH初步（一）

电脑杂谈　发布时间：2018-02-12 03:25:41　来源：网络整理

怎么检验svn安装了_win10安装svn_安装svn

自从前一段时间耍了一转回绵阳后，一直抱着AltiumDesigner的指导书进行上手。从绘制原理图，画自己的元件库、封装库和集成库，再在PCB上布局、排线，最后某宝上联系厂家定制并仔细选购元器件，终于赶在放假前拿到了印刷好的板子，只等部分还在路上的元件。

前几天360貌似清理掉了VirtualBox的什么关键文件，全部推倒重装，顺便把CentOS换成了对新人更加友好的Ubuntu系统。安装过程真的很久，应该是虚拟系统网速慢的原因。

后来亲爱的360摧毁了ubuntu的log文件，幸好我机智的利用虚拟磁盘文件新建了一个同名虚拟机。

又花了一两天时间重新学习系统操作，图形化界面真的比纯命令行看起来舒服多了。

接下来就是搭建nutch。简单来说就是下载安装svn和ant，抽出源代码并编译，同时如果没有JDK还需要安装。中途遇到找不到JDK的问题，原因在于默认JDK路径在安装后还没来及修改，重启一道就好了（重启大法好）。

安装完成后的文件：

由于需要下载相关框架等等，第一次用ant编译花了七分多钟。安装svn

nutch的主要命令及说明：

接下来是要配置些参数，甚是麻烦，此处略去。

先是从自己的博客开始爬，最大深度为3，线程为100，以nohup方式运行。后面换成了天涯论坛。爬到数据的具体分析还不会，以下是统计信息：

可以看到crawldb库里面总共的url有2w+，已经抓取的网页有500+。此外还可以看到对网页的评分，临时/永久重定向的网页数等等内容。安装svn

要点：

1.通过nutch，诞生了hadoop、tika、gora。

win10安装svn_怎么检验svn安装了_安装svn

2.nutch通过ivy来进行依赖管理（1.2之后）。

3.nutch是使用svn进行源代码管理的。

4.lucene、nutch、hadoop，在搜索界相当有名。

5.ant构建之后，生成runtime文件夹，该文件夹下面有deploy和local文件夹，分别代表了nutch的两种运行方式。

6.nutch和hadoop是通过nutch脚本连接起来的。通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。

7.nutch入门重点在于分析nutch脚本文件。

8.git来作为分布式版本控制工具，github作为server。bitbucket.org提供免费的私有库。

9.nutch的提高在于研读nutch-default.xml文件中的每一个配置项的实际含义（需要结合源代码理解）。

10.定制开发nutch的入门方法是研读build.xml文件。

部分操作：

apt-get install subversion

svn cohttps://svn.apache.org/repos/asf/nutch/tags/release-1.6/

cd release-1.6

win10安装svn_安装svn_怎么检验svn安装了

apt-get install ant

ant

cd runtime/local

mkdir urls

vi urls/url.txt 并输入 //注意vi的相关操作命令

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100&

vi release-1.6/conf/nutch-site.xml增加http.agent.name配置

//注意如何查找本浏览器的用户代理user agent

cd ../../release-1.6

ant

cd runtime/local

nohup bin/nutch crawl urls -dir data -depth 3 -threads 100&

删除报错的文件夹//此前无http.agent.name配置报错，但已经生成对应文件夹

nohup bin/nutch crawl urls -dir data -depth 1 -threads 100&

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-72857-1.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

陈冠希

是事实

2026年06月11日回复顶转发
于涛

够早的啊

2026年06月11日回复顶转发
景宗王曦

您太开放了

2026年06月11日回复顶转发

每日福利

onekey ghost 64位下载中文版

解读:如何调整桌面颜色如何在win10 [插图]中设置桌面墙纸和主题颜色

解决方案：是否需要更新图形卡的驱动程序？请保留老玩家的建议

Python源代码: 如何获取微信公众号历史记录文章

热点图片

热点排行