
背景#
微信公众号历史只能通过客户端(手机python抓取微信公众号,PC,Mac)查看,网络版微信不能查看公众号历史文章,否则就没有今天的文章.
具体的解释是,与公共账户历史文章相对应的URL必须由客户端生成,以供查看,并且该密钥也受到限制,具体限制为:
此键有一个时限,将近两个小时.
密钥不是通用的,每个公用帐户必须分别生成.
由于上述问题,要获取公共帐户并不容易,因此现在通常有两种方法.

获取搜狗微信.
使用“中间人攻击”的想法来使用代理获取.
获取搜狗微信#
这种很好的理解是获取网站数据. 请参考特定的代码: 该代码是用Python编写的.
好处: #
简单易用.

可以批量获取帐户.
所有爬网行为都可以在服务器上完成,而无需依赖客户端.
可以随时更新哪些公共帐户.
缺点: #
Sogou WeChat Anti-Crawler非常复杂,经常发现该代码不再可用,或者跳转到验证代码界面(我见过一个开源项目,有人在验证代码出现时购买了编码服务直接调用编码接口,该接口很便宜,这是一个想法).
捕获的链接是一个临时链接. 您需要跳转以获得永久链接.

只能获取由公共帐户推送的最新10篇文章,但无法获取历史记录.
对于上述问题,如果您只是想随便抓取最新文章,可以使用搜狗微信,但如果您确实想稳定抓取并需要更完整的数据,则需要使用以下方法.
使用代理和客户端爬网#
好处#
可以检索所有文章.
您可以在任何帐户之间切换(PC和Mac需要一些技能).

您可以获取文章的消息.
您可以欣赏这篇文章.
您可以获取阅读的文章,喜欢的文章等的数量.
保证稳定性,因为实际上我们没有进行任何非法操作.
缺点#
客户端是必需的python抓取微信公众号,这与直接在服务器上爬网的最大区别.
因为需要客户,所以效率相对较低. 平均而言,一个客户每秒可以抓取多达10篇文章,如果速度太快,则很容易出现请求速度太快的问题.
有时在自动爬网过程中,会出现一些导致爬网停止的问题,但这也是我们需要解决的问题.
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-197920-1.html
早就回去吃晚饭了