b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

nutch使用_nutch plugin_nutch eclipse(2)

电脑杂谈  发布时间:2017-05-28 05:05:54  来源:网络整理

找到登录页面表单里的用户名,密码等,模拟登录。

注意:xml存在转义 不能直接写& 要用&来代替

<property> <name>http.cookie.login.page</name> <value>?id=xxx&amp;pas=xxx</value> <description>URL of the login page to derive the cookies from. Cookies will be stored upon initialization and re-initialized upon expiration. Any URL request attributes will be sent to POSTed to the page. NOTE: This currently only works for protocol-httpclient.</description></property>

ant 编译nutch

在nutch-1.6目录下运行 ant就可以直接进行编译,但是有一些问题需要注意。

问题一:jsoup.jar不存在

由于我们修改的文件用引入了这个包,所以我们需要在工程中引入这个包,要修改ivysetting.xml和plugin.xml,具体方法谷歌(add third part dependency to you nutch plugin),我的搜索不了,以后再更新。

问题二:运行到此处没反应的,需要等待几分钟

resolve-default:[ivy:resolve] :: Ivy 2.2.0 - 20100923230623 :: ::[ivy:resolve] :: loading settings :: file = /home/shaozt/softIns/CrawSource/apache-nutch-2.1/ivy/ivysettings.xml

问题三:connection time out

此问题的原因是不存在,解决方案是寻找能使用的资源库URL。经过测试在浏览器下可以正常访问,用此URL替换/ivy目录下ivysettings.xml中的,可以正常下载所依赖的jar包,编译成功。

问题四:是否需要代理

如果你使用的是代理,而问题三改后任然timeout ,需要为ant配置代理,格式如下。网上的什么set感觉没有用。

export ANT_OPTS="-Dhttp.proxyHost=XXX -Dhttp.proxyPort=XX"

//如果需要用户名和密码,需要后面添加

export ANT_OPTS="-Dhttp.proxyHost=代理服务器地址 -Dhttp.proxyPort=代理服务器端口 -Dhttp.proxyUserName=用户名 -Dhttp.proxyPassword=密码"

nutch使用注意:二次开发的是protocol-httpclient,在nutch-site.xml 把protocol-http 插件换成protocol-httpclient

最重要的几点我都已经说明了,我相信会对需要的人有很大的帮助。不过这个插件二次开发还是不太完善,补丁包里面也有很多不用的代码,但是至少功能实现了。后面还面临更大的挑战,主页可不可以不要全部用js生成,还让人怎么活啊!


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/ruanjian/article-49658-2.html

相关阅读
    发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

    热点图片
    拼命载入中...