今日头条这类资讯聚合平台是基于数据挖掘技术,筛选和推荐新闻:“它为用户推荐有价值的、个性化的信息,提供连接人与信息的新型服务,是国内移动互联网领域成长最快的产品服务之一”。自从2012年3月创建以来,今日头条至今已经累计激活用户3.1亿,日活跃用户超过3000万。
本文尝试从技术层面分析今日头条的传播机制和相关原理。
网络爬虫是什么?
STEP 1:从互联网各个角落收集信息;
STEP 2:将其中的新闻类信息进行汇总;
STEP 3:汇总的信息经过基于机器学习的分类和排序,划分出每一个时刻的热点新闻。
今日头条作为数据新闻平台,与一般数据新闻的区别,在于提供一个媒介平台,展示汇总的信息,而不是一条信息。
网络爬虫的工作机制是什么?
网络爬虫的工作机制依赖于会联网互联网上的超链接网络。
在互联网上多数网页,都有超链接存在。这些超链接将各个网页链接起来构成了一个庞大的网络,也就是超链接网络。爬虫作为一种网络程序从一些网页出发,保存网页的内容,寻找网页当中的超链接,然后访问这些超链接,并重复以上过程,这个过程可以不断进行下去。如图所示:
“今日头条”怎么计算:“网络爬虫+相似矩阵”技术运作流程
STEP 1:爬虫从一个节点0开始爬取网页内容,
STEP 2:抓取的同时发现两个超链接,并爬取第一级节点,
STEP 3:从第一级节点开始又发现第二级节点,这个过程不断进行下去。
这个过程当中有两种策略:
1、只有穷尽一个层级的所有页面才爬取下一个层级,这种策略叫做“广度优先”;
2、发现一个超链接后,立刻就开始爬取这个网页,并持续深入下去,这种过程叫做“深度优先”。
补充说明:
上图是一个树状网络,现实的网络不是这么简单的,里面充满了“回路”,即新发现的网页里的超链接指向的是已经爬取的老节点。这个时候就需要甄别那些网页已经被成功抓取。
举个栗子——
以今日头条为例说明一下网络爬虫在新闻抓取中的工作流程:
STEP 2:通过这些字典,网络爬虫将会锁定到这些网站的超链接,从中抓取新闻。
补充说明:
如果这条新闻是在这些新闻平台相关的博客当中的内容,而不是新闻平台本身的新闻,网络爬虫就抓不到了。
聚合媒体的概念并非如此简单,除了汇聚来自不同媒体的内容之外,聚合媒体更重要的特征是对不同信息进行分类并排序,得到一个信息汇总界面(aggregator),这种信息汇总往往表现为某种排行榜。这种排行榜在传播机制上满足网络科学中所说的“优先链接机制”,即用户的注意力更倾向于投向那些排名靠前的信息,这个过程可以被经典的传播学发现:“乐队花车效应”。这个发现起源于美国的选举过程。候选人会站在乐队花车上拉选票,赞同者会站到他的车上。研究发现,人们倾向于登上那些站满了人的花车,而非那些只有很少人的花车。
个性化推荐在今日头条当中发挥着重要作用。
今日头条的用户登录非常人性化。作为一个后起之秀,今日头条非常具有策略性地允许用户使用微博、QQ等社交账号登录。这个过程实际上授权今日头条挖掘个人社交网络的基本信息。因而,便于获取用户的个性化信息,比如用户的兴趣、用户属性。越用越懂用户,从而进行精准的阅读内容推荐。
个性化推荐的基础是构建推荐系统
推荐系统广泛地应用于用户没有明确需求的场景。推荐系统就算法而言,可以分为:
社会化推荐(Social recommendation, 比如向朋友咨询);
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-31049-1.html
加油
活着还有什么意思
那不是对你秀的