首页 > 病毒安全 >

朵唯s920_联想s920参数_联想s920零配件图解(3)

电脑杂谈　发布时间：2016-12-27 18:01:48　来源：网络整理

在往下深入，我们可以分析用户历史行为，进行个性化的预测。比如分析用户性别，喜好，来进行分类，推荐。

统计的算法也是机器学习的一种，如果用户行为数据足够多，那直接使用统计分析应该是可以解决大部分问题。剩下的小部分问题是可以交给机器学习其他算法来完成。

举一个简单的例子来说明，用户搜索“nike”和“羽绒服”比较多，有了足够多的统计数据，我们知道“nike”对应的是运动鞋，运动服等。“羽绒服”对应的是服装。但是用户搜索“红色的nike羽绒服”次数很少，没有足够多的数据，我们统计到的结果也许是不准确的，偏差较大。

那我们可以将较好的数据进行训练，并对长尾的query进行分类预测。这里的训练数据的特征是用户query中每个词，词出现对应这一种分类。

训练数据的选择是分类算法最重要的一步，一般对文本的分类预测，可以使用信息增益，卡方，互信息等来作为训练特征。具体问题具体分析，例如使用loglinear算法进行预测，实验证明信息增益来作为特征选择会更加有效，另外也得分析应用的场景，根据需要来选择算法，选择特征，法无定法，对于淘宝的数据来说，用于搜索的限于宝贝的标题，非常的短，直接使用用一般的网页分类算法是不太可行的，所以，数据不一样，方法就不一样，重要的是了解数据，了解方法的原理。机器学习不是万能的，不能靠运气。By the way，建议读下元函的Treelink算法介绍（），写的挺好的。

分好类后，对每个类中的文档的排序也可以通过机器学习来进行，如果每个文档有很多标准的特征，每个维度的特征有一定的分数。这个也可以通过机器学习的方法来进行好中坏分档，或者找出线性加权的最优化参数。

我们首先可以做的是把文档的自身的相关性做好，回到最开始的那个问题，一个用户搜索一个query是“百度”，怎么知道用户真正是想找什么呢。

先我们至少可以把文档按分词后的结果和query进行比较，文档中如果是“众里寻他千百度”这样的就可以过滤掉了，因为“千百度”和“百度”还是有一些区别的。这是从文档自有的相关性上来进行优化。

接下来，我们看这个文档是不是描述文档的，比如文档里面是讲“非诚勿扰2”的，里面提到“廖凡，如果你不知道廖凡是谁，请百度一下”，那么这种文档不是描述“百度”这个词的，而是描述“非诚勿扰2的”，我们可以通过给文档进行分类或者加上tag，来表示他的主题词，这样，这类的文档也可以过滤掉。

我们再讨论下如果进行分类，在有用户数据的时候，我们可以用用户的行为来作为文档分类的结果；没有的情况下，我们可以进行人为的标注，当然这部分工作量巨大。另外可能可行的是，在结构化比较好的数据里面，找到关键的字段进行分类，例如，品牌产品型号，这样的字段作为聚类的关键key，把文档分为很多类。如果结构化不是很好，可以考虑用crf算法来抽取其中的关键字段进行聚类。同时把query对文档的直接搜索转化为对不同类文档的搜索。那么这时候，我们已经把搜索的所有文档进行了聚类，发现“朵唯S920”手机的描述中，常会出现“舒淇在非诚勿扰2中使用”这样的描述，是否就可以考虑把两者联系在一起了呢。

名词解释：

query：用户搜索的关键词。

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/shouji/article-23600-3.html