b2科目四模拟试题多少题驾考考爆了怎么补救
b2科目四模拟试题多少题 驾考考爆了怎么补救

朵唯s920_联想s920参数_联想s920零配件图解(3)

电脑杂谈  发布时间:2016-12-27 18:01:48  来源:网络整理

在往下深入,我们可以分析用户历史行为,进行个性化的预测。比如分析用户性别,喜好,来进行分类,推荐。

统计的算法也是机器学习的一种,如果用户行为数据足够多,那直接使用统计分析应该是可以解决大部分问题。剩下的小部分问题是可以交给机器学习其他算法来完成。

举一个简单的例子来说明,用户搜索“nike”和“羽绒服”比较多,有了足够多的统计数据,我们知道“nike”对应的是运动鞋,运动服等。“羽绒服”对应的是服装。但是用户搜索“红色的nike羽绒服”次数很少,没有足够多的数据,我们统计到的结果也许是不准确的,偏差较大。

那我们可以将较好的数据进行训练,并对长尾的query进行分类预测。这里的训练数据的特征是用户query中每个词,词出现对应这一种分类。

训练数据的选择是分类算法最重要的一步,一般对文本的分类预测,可以使用信息增益,卡方,互信息等来作为训练特征。具体问题具体分析,例如使用loglinear算法进行预测,实验证明信息增益来作为特征选择会更加有效,另外也得分析应用的场景,根据需要来选择算法,选择特征,法无定法,对于淘宝的数据来说,用于搜索的限于宝贝的标题,非常的短,直接使用用一般的网页分类算法是不太可行的,所以,数据不一样,方法就不一样,重要的是了解数据,了解方法的原理。机器学习不是万能的,不能靠运气。By the way,建议读下元函的Treelink算法介绍(),写的挺好的。

分好类后,对每个类中的文档的排序也可以通过机器学习来进行,如果每个文档有很多标准的特征,每个维度的特征有一定的分数。这个也可以通过机器学习的方法来进行好中坏分档,或者找出线性加权的最优化参数。

我们首先可以做的是把文档的自身的相关性做好,回到最开始的那个问题,一个用户搜索一个query是“百度”,怎么知道用户真正是想找什么呢。

先我们至少可以把文档按分词后的结果和query进行比较,文档中如果是“众里寻他千百度”这样的就可以过滤掉了,因为“千百度”和“百度”还是有一些区别的。这是从文档自有的相关性上来进行优化。

接下来,我们看这个文档是不是描述文档的,比如文档里面是讲“非诚勿扰2”的,里面提到“廖凡,如果你不知道廖凡是谁,请百度一下”,那么这种文档不是描述“百度”这个词的,而是描述“非诚勿扰2的”,我们可以通过给文档进行分类或者加上tag,来表示他的主题词,这样,这类的文档也可以过滤掉。

我们再讨论下如果进行分类,在有用户数据的时候,我们可以用用户的行为来作为文档分类的结果;没有的情况下,我们可以进行人为的标注,当然这部分工作量巨大。另外可能可行的是,在结构化比较好的数据里面,找到关键的字段进行分类,例如,品牌产品型号,这样的字段作为聚类的关键key,把文档分为很多类。如果结构化不是很好,可以考虑用crf算法来抽取其中的关键字段进行聚类。同时把query对文档的直接搜索转化为对不同类文档的搜索。那么这时候,我们已经把搜索的所有文档进行了聚类,发现“朵唯S920”手机的描述中,常会出现“舒淇在非诚勿扰2中使用”这样的描述,是否就可以考虑把两者联系在一起了呢。

名词解释:

query:用户搜索的关键词。


本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/shouji/article-23600-3.html

相关阅读
    发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

    热点图片
    拼命载入中...