![]()
谢谢:
一个,.5
.5是机器学习算法中的分类决策树算法,
这是决策树的核心算法(决策树是像树一样做出决策的节点之间的组织,实际上是一棵倒置树)
改进了ID3算法,因此基本了解了构造它的决策树构造方法的一半.
决策树构造方法实际上是每次都选择一个好的特征和分割点作为当前节点的分类条件.
与ID3相比,.5具有以下改进:
1. 使用信息获取率选择属性.
ID3选择属性以使用子树的信息增益. 有许多定义信息的方法. ID3使用熵(熵,一种熵度量标准),
那是熵的变化值.
.5使用信息增益率. 是的,区别在于一个是信息增益,另一个是信息增益率.
通常来说,汇率是用来平衡的,就像方差的影响一样
例如,如果有两个跑步者,那么一个起始点为10m / s的人将在10s之后变为20m / s;
另一个人的启动速度为1m / s,1s之后为2m / s.

如果精确计算出差异,则两者之间的差异非常大. 如果使用速度增长率(加速度,均为1m / s ^ 2)进行测量,则两个人的加速度相同.
因此,.5克服了ID3在选择具有信息增益的属性时倾向于选择具有多个值的属性的缺点.
2. 在树木建造过程中修剪. 在构建决策树时,只有少数几个元素的节点不被认为是最好的,否则很容易导致过度拟合.
3. 它还可以处理非离散数据.
4. 能够处理不完整的数据.
第二,k-means算法是K-Means算法
k-means算法是一种聚类算法,根据对象的属性(k 它与处理混合正态分布的最大期望算法(前十大算法中的第五个)非常相似算法的数据包括哪些,因为它们都试图在数据中找到自然聚类的中心. 假定对象属性来自空间矢量,目标是使每个组内的均方误差之和最小. 三,支持向量机 Support Vector Machine,支持向量机的英文,简称SV机器(在本文中通常称为SVM). 这是一种监督学习方法,广泛用于统计分类和回归分析. 支持向量机将向量映射到高维空间中,在该空间中建立了超空间超平面. 在超平面的每一侧上构建了两个并行的超平面,以分隔数据. 分开超平面可以最大化两个平行超平面之间的距离. 假设平行超平面之间的距离或间隙越大,分类器的总误差就越小. 优秀的指南是C.J.C Burges的模式识别支持向量机指南. van der Walt和Barnard将支持向量机与其他分类器进行了比较. 四,Apriori算法 Apriori算法是用于挖掘布尔关联规则的频繁项集的最具影响力的算法. 核心是基于两阶段频率集思想的递归算法. 关联规则分为一维,单层和布尔关联规则. 在这里,所有支持度大于最小支持度的项目集称为频繁项目集,或简称为频率集. 五,最大期望(EM)算法 在统计计算中,期望最大化(EM)算法基于概率 (概率)一种用于在模型中找到参数的最大似然估计的算法,其中概率模型取决于无法观察到的隐藏变量(潜在变量). 在机器学习和计算机视觉的数据聚类领域中经常使用最大期望值. 六. PageRank PageRank是Google算法的重要组成部分. 2001年9月,他获得了美国专利. 专利权人是Google的创始人之一拉里·佩奇(Larry Page). 因此,PageRank中的页面不是指网页,而是指Page,即该级别方法是以Page命名的. PageRank根据网站的内部和外部链接的数量和质量来衡量网站的价值. PageRank背后的概念是,指向页面的每个链接都是对该页面的投票算法的数据包括哪些,并且链接越多,它从其他站点获得的投票就越多. 这是所谓的“链接流行度”,用于衡量有多少人愿意将其网站链接到您的网站. PageRank的概念是从学术界对某论文的引用频率中引用的,也就是说,被他人引用的次数越多,通常就对该论文的权威性给予较高的评价. VII. AdaBoost Adaboost是一种迭代算法,其核心思想是针对同一训练集训练不同的分类器(弱分类器) 然后将这些弱分类器组合起来,形成更强大的最终分类器(强分类器). 算法本身是通过根据每个训练集中每个样本的分类是否正确来改变数据分布来实现的, 最后一次总体分类的准确性,以确定每个样品的重量. 将权重已修改的新数据集发送到下级分类器进行训练,最后将每次训练获得的分类器融合为最终决策分类器. kNN,k-近邻分类 K最近邻(K-Nearest Neior,KNN)分类算法是一种理论上成熟的方法,也是最简单的机器学习算法之一. 此方法的想法是: 如果样本位于特征空间中k个最相似的位置(即特征空间中最近的邻居) 其中大多数属于某个类别,因此样本也属于该类别. 九岁,朴素贝叶斯 在许多分类模型中,使用最广泛的两个分类模型是决策树模型和决策树模型 朴素贝叶斯模型(NBC). 朴素贝叶斯模型起源于经典数学理论,具有扎实的数学基础和稳定的分类效率. 同时,NBC模型所需的估计参数很少,对丢失的数据不太敏感,算法相对简单. 理论上,与其他分类方法相比,NBC模型的错误率最小. 但这并非总是如此,因为NBC模型假设属性彼此独立,所以这种假设在实际应用中 这通常是站不住脚的,这对NBC模型的正确分类有一定影响. 属性或属性很多 当相关性较大时,NBC模型的分类效率不如决策树模型. 当属性相关性较小时,NBC模型的性能最佳. X. CART: 分类和回归树 CART,分类和回归树. 分类树下有两个关键思想: 第一个 关于递归划分自变量空间的想法;第二个想法是修剪验证数据.

本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-228634-1.html
你说对了
杨洋
埋起头来发展才是硬道理
脚踏实地的演员杨洋