找到登录页面表单里的用户名,密码等,模拟登录。
注意:xml存在转义 不能直接写& 要用&;来代替
<property> <name>http.cookie.login.page</name> <value>?id=xxx&pas=xxx</value> <description>URL of the login page to derive the cookies from. Cookies will be stored upon initialization and re-initialized upon expiration. Any URL request attributes will be sent to POSTed to the page. NOTE: This currently only works for protocol-httpclient.</description></property>
ant 编译nutch
在nutch-1.6目录下运行 ant就可以直接进行编译,但是有一些问题需要注意。
问题一:jsoup.jar不存在
由于我们修改的文件用引入了这个包,所以我们需要在工程中引入这个包,要修改ivysetting.xml和plugin.xml,具体方法谷歌(add third part dependency to you nutch plugin),我的搜索不了,以后再更新。
问题二:运行到此处没反应的,需要等待几分钟
resolve-default:[ivy:resolve] :: Ivy 2.2.0 - 20100923230623 :: ::[ivy:resolve] :: loading settings :: file = /home/shaozt/softIns/CrawSource/apache-nutch-2.1/ivy/ivysettings.xml
问题三:connection time out
此问题的原因是不存在,解决方案是寻找能使用的资源库URL。经过测试在浏览器下可以正常访问,用此URL替换/ivy目录下ivysettings.xml中的,可以正常下载所依赖的jar包,编译成功。
问题四:是否需要代理
如果你使用的是代理,而问题三改后任然timeout ,需要为ant配置代理,格式如下。网上的什么set感觉没有用。
export ANT_OPTS="-Dhttp.proxyHost=XXX -Dhttp.proxyPort=XX"
//如果需要用户名和密码,需要后面添加
export ANT_OPTS="-Dhttp.proxyHost=代理服务器地址 -Dhttp.proxyPort=代理服务器端口 -Dhttp.proxyUserName=用户名 -Dhttp.proxyPassword=密码"
nutch使用注意:二次开发的是protocol-httpclient,在nutch-site.xml 把protocol-http 插件换成protocol-httpclient
最重要的几点我都已经说明了,我相信会对需要的人有很大的帮助。不过这个插件二次开发还是不太完善,补丁包里面也有很多不用的代码,但是至少功能实现了。后面还面临更大的挑战,主页可不可以不要全部用js生成,还让人怎么活啊!
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/ruanjian/article-49658-2.html
允许一妻多夫
今后从此多事了
指同盟国)