

41个人同意答案
作为一个既不懂章鱼捕手又同时使用章鱼的非技术人员,我喜欢互联网技术,因为我拥有自己的技术. . . 让我说说我的感受.
章鱼具有一些优势,例如学习成本低,可视化的过程和快速的采集系统. 可以直接导出excel文件并导出到. 降低收集成本. 云收集提供了10个节点八爪鱼采集器是干什么的,可以节省大量工作.

不好的是,即使看起来很简单,并且有一个更聪明的傻瓜模式,但内部的坑只有更多的才干才能弄清楚. 我只是在自己的博客中写过有关此内容的信息,但是我对此实在太诚实了,还没有仔细组织它.
首先,内部循环都是xpath元素定位. 如果使用简单的傻瓜式单击定位,则它会非常僵硬,并且在大量收集页面时很容易出错. 另外,使用此工具,由于方便,白色太多,有些人整日问常见问题,他们不会看页面结构,不了解xpath,很容易出现收藏不全,翻页无限和其他问题.
但是章鱼收集器的ajax加载可以模拟工件,该加载器可以模拟手机页面,过滤广告并滚动到页面底部. 可以进行一次检查. 编写代码很麻烦,实现这些功能很麻烦.
章鱼毕竟只是一种工具,必须完全挫败自由度. 优点是方便,快速且成本低.

章鱼的判断语录很弱,无法执行复杂的判断或执行复杂的逻辑. 另一个问题是只有八达通企业版才能解决验证码问题,普通版不能访问编码平台.
另一点是,没有ocr功能. 58个城市和市场网络收集的电话号码均为图片格式. 可以使用开放源代码图像识别库解决Python,并且可以使用停靠进行识别.
在此处更新
以前的写作感觉是单方面的,毕竟那是我当时的心态. 经过一段时间的考虑之后,数据收集的需求决定了最终的工具. 如果我有很多数据收集要求,那么爬网程序必然是不可避免的,因为代码的自由度更高. 章鱼的目的不是要替换python八爪鱼采集器是干什么的,而是要实现每个人都可以使用的收集器的目的.

另一点是python易于学习,易于部署且免费开源. 即使我只是学习scrapy,我也可以解决一些问题,但是麻烦的是,只能通过编写或复制其他人的代码来实现在某些工具中可以轻松选择的功能. 我想从入门到放弃...
我写了一个全面的比较和一个坑,并把它放在知道栏中. 有兴趣的人可以查看一下:
谈论使用章鱼收集器时最近遇到的凹坑(也可与其他收集软件和爬行动物进行比较)-了解专栏
于2017年12月17日编辑


6个人同意答案
小白够八达通
于2017-08-18编辑
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/ruanjian/article-154721-1.html
美期待
这是必须的