
自从前一段时间耍了一转回绵阳后,一直抱着AltiumDesigner的指导书进行上手。从绘制原理图,画自己的元件库、封装库和集成库,再在PCB上布局、排线,最后某宝上联系厂家定制并仔细选购元器件,终于赶在放假前拿到了印刷好的板子,只等部分还在路上的元件。
前几天360貌似清理掉了VirtualBox的什么关键文件,全部推倒重装,顺便把CentOS换成了对新人更加友好的Ubuntu系统。安装过程真的很久,应该是虚拟系统网速慢的原因。
后来亲爱的360摧毁了ubuntu的log文件,幸好我机智的利用虚拟磁盘文件新建了一个同名虚拟机。
又花了一两天时间重新学习系统操作,图形化界面真的比纯命令行看起来舒服多了。
接下来就是搭建nutch。简单来说就是下载安装svn和ant,抽出源代码并编译,同时如果没有JDK还需要安装。中途遇到找不到JDK的问题,原因在于默认JDK路径在安装后还没来及修改,重启一道就好了(重启大法好)。
安装完成后的文件:
由于需要下载相关框架等等,第一次用ant编译花了七分多钟。安装svn
nutch的主要命令及说明:
接下来是要配置些参数,甚是麻烦,此处略去。
先是从自己的博客开始爬,最大深度为3,线程为100,以nohup方式运行。后面换成了天涯论坛。爬到数据的具体分析还不会,以下是统计信息:
可以看到crawldb库里面总共的url有2w+,已经抓取的网页有500+。此外还可以看到对网页的评分,临时/永久重定向的网页数等等内容。安装svn
要点:
1.通过nutch,诞生了hadoop、tika、gora。

2.nutch通过ivy来进行依赖管理(1.2之后)。
3.nutch是使用svn进行源代码管理的。
4.lucene、nutch、hadoop,在搜索界相当有名。
5.ant构建之后,生成runtime文件夹,该文件夹下面有deploy和local文件夹,分别代表了nutch的两种运行方式。
6.nutch和hadoop是通过nutch脚本连接起来的。通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。
7.nutch入门重点在于分析nutch脚本文件。
8.git来作为分布式版本控制工具,github作为server。bitbucket.org提供免费的私有库。
9.nutch的提高在于研读nutch-default.xml文件中的每一个配置项的实际含义(需要结合源代码理解)。
10.定制开发nutch的入门方法是研读build.xml文件。
部分操作:
apt-get install subversion
svn cohttps://svn.apache.org/repos/asf/nutch/tags/release-1.6/
cd release-1.6

apt-get install ant
ant
cd runtime/local
mkdir urls
vi urls/url.txt 并输入 //注意vi的相关操作命令
nohup bin/nutch crawl urls -dir data -depth 3 -threads 100&
vi release-1.6/conf/nutch-site.xml增加http.agent.name配置
//注意如何查找本浏览器的用户代理user agent
cd ../../release-1.6
ant
cd runtime/local
nohup bin/nutch crawl urls -dir data -depth 3 -threads 100&
删除报错的文件夹//此前无http.agent.name配置报错,但已经生成对应文件夹
nohup bin/nutch crawl urls -dir data -depth 1 -threads 100&
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-72857-1.html