首页 > 操作系统 >

网络爬虫是什么_网络爬虫原理_c#网络爬虫原理

电脑杂谈　发布时间：2017-02-07 09:59:52　来源：网络整理

今日头条这类资讯聚合平台是基于数据挖掘技术，筛选和推荐新闻：“它为用户推荐有价值的、个性化的信息，提供连接人与信息的新型服务，是国内移动互联网领域成长最快的产品服务之一”。自从2012年3月创建以来，今日头条至今已经累计激活用户3.1亿，日活跃用户超过3000万。

本文尝试从技术层面分析今日头条的传播机制和相关原理。

网络爬虫是什么？

STEP 1：从互联网各个角落收集信息；

STEP 2：将其中的新闻类信息进行汇总；

STEP 3：汇总的信息经过基于机器学习的分类和排序，划分出每一个时刻的热点新闻。

今日头条作为数据新闻平台，与一般数据新闻的区别，在于提供一个媒介平台，展示汇总的信息，而不是一条信息。

网络爬虫的工作机制是什么？

网络爬虫的工作机制依赖于会联网互联网上的超链接网络。

在互联网上多数网页，都有超链接存在。这些超链接将各个网页链接起来构成了一个庞大的网络，也就是超链接网络。爬虫作为一种网络程序从一些网页出发，保存网页的内容，寻找网页当中的超链接，然后访问这些超链接，并重复以上过程，这个过程可以不断进行下去。如图所示：

“今日头条”怎么计算：“网络爬虫+相似矩阵”技术运作流程

STEP 1：爬虫从一个节点0开始爬取网页内容，

STEP 2：抓取的同时发现两个超链接，并爬取第一级节点，

STEP 3：从第一级节点开始又发现第二级节点，这个过程不断进行下去。

这个过程当中有两种策略：

1、只有穷尽一个层级的所有页面才爬取下一个层级，这种策略叫做“广度优先”；

2、发现一个超链接后，立刻就开始爬取这个网页，并持续深入下去，这种过程叫做“深度优先”。

补充说明：

上图是一个树状网络，现实的网络不是这么简单的，里面充满了“回路”，即新发现的网页里的超链接指向的是已经爬取的老节点。这个时候就需要甄别那些网页已经被成功抓取。

举个栗子——

以今日头条为例说明一下网络爬虫在新闻抓取中的工作流程：

STEP 2：通过这些字典，网络爬虫将会锁定到这些网站的超链接，从中抓取新闻。

补充说明：

如果这条新闻是在这些新闻平台相关的博客当中的内容，而不是新闻平台本身的新闻，网络爬虫就抓不到了。

聚合媒体的概念并非如此简单，除了汇聚来自不同媒体的内容之外，聚合媒体更重要的特征是对不同信息进行分类并排序，得到一个信息汇总界面（aggregator），这种信息汇总往往表现为某种排行榜。这种排行榜在传播机制上满足网络科学中所说的“优先链接机制”，即用户的注意力更倾向于投向那些排名靠前的信息，这个过程可以被经典的传播学发现：“乐队花车效应”。这个发现起源于美国的选举过程。候选人会站在乐队花车上拉选票，赞同者会站到他的车上。研究发现，人们倾向于登上那些站满了人的花车，而非那些只有很少人的花车。

个性化推荐在今日头条当中发挥着重要作用。

今日头条的用户登录非常人性化。作为一个后起之秀，今日头条非常具有策略性地允许用户使用微博、QQ等社交账号登录。这个过程实际上授权今日头条挖掘个人社交网络的基本信息。因而，便于获取用户的个性化信息，比如用户的兴趣、用户属性。越用越懂用户，从而进行精准的阅读内容推荐。

个性化推荐的基础是构建推荐系统

推荐系统广泛地应用于用户没有明确需求的场景。推荐系统就算法而言，可以分为：

社会化推荐（Social recommendation, 比如向朋友咨询）；

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-31049-1.html