首页 > 操作系统 >

“ R语言数据挖掘”读书笔记: 六，高级聚类算法

电脑杂谈　发布时间：2020-07-20 02:30:00　来源：网络整理

python 高光谱聚类_高维聚类分析_fcm聚类有效性分析

1. DBSCAN算法与电子商务客户分类分析

1.1DBSCAN算法

通过定义数据点空间的密度和密度度量，可以将这些类建模为数据空间中具有一定密度的横截面.

基于密度的带噪应用空间聚类（DBSCAN）是存在噪声时最流行的基于密度的聚类算法之一.

DBSCAN算法的主要特征: 擅长处理带有噪声的大型数据集，并且可以处理不同形状的类.

DBSCAN算法的基本思想: 算法的本质是发现集群并不断扩展集群的过程.

DBSCAN算法基于将数据集中的数据点分为核心数据点，边界数据点和噪声数据点，并支持使用点之间的密度关系，包括直接达到密度. ，密度可达（density-reachable）和密度连接（density-connected）点.

详细的算法分析:

易于理解的插图:

1.2电子商务客户分类分析

电子商务的一般分析过程是: 数据收集->分析->推荐->操作->数据收集周期.

2. OPTICS算法和网页聚类

2.1 OPTICS算法

OPTICS算法的难点在于维护可直接到达的核心点的有序列表.

OPTICS（用于识别聚类结构的订购点）是基于密度的聚类算法，OPTICS算法是DBSCAN的改进版本，因此OPTICS算法也是基于密度的聚类算法. 在DBCSAN算法中需要输入两个参数: ϵ和MinPts. 选择不同的参数将导致最终的聚类结果非常不同. 因此，DBCSAN对输入参数过于敏感. 提出OPTICS算法是为了帮助DBSCAN算法选择合适的参数并降低输入参数的敏感性. OPTICS主要旨在提高输入参数的灵敏度. OPTICS和DBSCNA具有相同的输入参数（ϵ和MinPts）. 尽管OPTICS算法还需要两个输入参数高维聚类分析，但是该算法对ϵ个输入不敏感（通常ϵ是固定的）. 是无穷大）. 同时，该算法不会显式生成数据集群. 它只是对数据集中的对象进行排序以获得对象的有序列表. 通过有序列表，可以获得决策图. 图可以检测具有不同ϵ参数的数据集中的聚类，即: 首先通过固定的MinPts和无穷ϵ获得有序列表，然后通过决策图获得决策图，我们可以知道when何时取特定值（对于例如，ϵ = 3）数据的聚类.

fcm聚类有效性分析_python 高光谱聚类_高维聚类分析

详细的算法分析:

易于理解的算法图:

2.2网页群集

网页聚类可用于对相关文本或文章进行分组，作为监督学习的预处理步骤. 它可以自动分类. 网页是通用的，具有不同的结构和内容.

3. 浏览器缓存中的DENCLIUE算法和访问者分析

3.1 DENCLUE算法（基于密度的聚类）

一种基于密度的聚类方法，它依赖于密度分布函数的支持.

基本术语: 影响函数，密度函数，梯度和密度吸引点

详细算法:

3.2浏览器缓存中的访问者分析

4-6都是基于网格的聚类算法

4. 推荐系统和STING算法

4.1 STING算法

统计信息网格（STING）是基于网格的聚类算法.

STING算法的基本思想: 首先，将样本划分为特定级别（维度或属性）. 在每个级别高维聚类分析，我们根据维度或概念对不同的单元进行分层. 实际上，这里的每个级别对应于一个样本A分辨率（这里我认为这是某个属性的稀疏性）. 根据预设的阈值进行分块（将上层的大小区切成小小区），丢弃一些不满足密度阈值的数据，达到根据特定属性和阈值聚类的目的. 由于算法的每一层都会丢弃一些不相关的样本，因此所需的计算量将越来越少，因此速度将非常快.

python 高光谱聚类_高维聚类分析_fcm聚类有效性分析

STING算法的特点: 独立于查询结构，本质上并行，效率高.

对STING算法的详细分析[非常好]（机器学习: 基于网格的聚类算法，张蓓）:

4.2推荐系统

根据统计，数据挖掘和知识发现技术，大多数电子商务网站都使用推荐系统，以使消费者更容易找到需要购买的商品. 三个主要部分是: 输入数据表示，邻域形成和推荐生成.

5. CLIQUE算法和网络情感分析

5.1 CLIQUE算法（Quest中的集群）

CLIQUE算法是自上而下的基于网格的聚类算法. 该算法的思想是先验特征，即密度单位相对于维度的单调性. 如果一组数据点S是k维投影空间中的一个类别，则S被包括在任何（k-1）维投影空间中的一个类别中. 该算法是逐层处理的. 通过简化一次数据生成一维密集单元，并使用候选生成程序和在步骤（k-1）中获得的确定的（k-1）维密集单元生成k维候选单元.

CLIQUE算法的特征: ①对高维数据集有效②结果的可解释性③可扩展性和可用性

用于数据集聚类的CLIQUE算法包括3个步骤: ①选择一组子空间（可以根据每个维划分），以对数据集进行聚类； ②对每个子空间独立进行聚类（通过某些方法）； ③以析取范式形式（结合各个维度的聚类结果）的形式生成每个类别的描述.

CLIQUE算法的详细分析[非常好]（机器学习: 基于网格的聚类算法，张蓓）:

5.2网络情绪分析

互联网情感分析可以用于识别文本背后的想法或思想，例如，Twitter上的微博情感分析. 情绪判断的一个简单示例是将发布的内容与预定义单词标签列表进行比较. 另一个例子是能够通过大拇指或大拇指下来评价电影评论. 互联网情绪分析还用于新闻报道的偏见分析，特定意见和新闻组的评估等.

6. WAVE聚类算法和观点挖掘

6.1 WAVE聚类算法

python 高光谱聚类_fcm聚类有效性分析_高维聚类分析

WAVE聚类算法是一种基于网格的聚类算法，它依赖于空间数据集和多维信号之间的关系. 想法是，多维空间数据集中的类将在进行小波变换后变得更容易区分（即，将小波应用于输入数据或预处理的数据集，在下面的链接中详细描述了特定的变换方法）. 在转换结果中，密集部分除以稀疏区域表示类.

WAVE聚类算法的特点如下: ①对大数据集有效②有效查找各种形状的类别③对噪声或异常不敏感④对数据集的输入顺序不敏感⑥小波变换引入的多分辨率⑦适用于任何数值数据集

WAVE聚类算法只需要执行几个步骤: 第一步是创建一个网格，并将输入数据集中的每个数据对象分配给网格中的一个单元；第二步是应用小波. 变换函数将数据变换到一个新的空间中. 第三步是在新空间中找到连接的分支，并将与原始数据空间相关的数据对象映射到类标签. （很高兴了解以下网址中的小波变换到群集空间映射的过程）

WAVE算法的详细分析[非常好]（机器学习: 基于网格的聚类算法，张蓓）:

6.2意见挖掘

观点挖掘是指对所研究的对象或实体的某些特征的观点的挖掘. 最简单的情况是判断意见是肯定还是否定.

7. EM算法和用户搜索意图

7.1 EM算法（期望最大化，EM）[我目前尚不了解，您可以在以后仔细研究它]

最大期望算法是基于概率模型的聚类算法. 它依赖于混合模型. 在混合模型中，数据是通过混合简单模型来建模的. 这些模型相关的参数是通过最大似然估计方法（最大似然估计，MLE）来估计的.

EM算法的详细说明（一篇更简洁明了的好文章）

EM算法的详细说明（EM算法的推导过程非常理论化）:

7.2用户搜索意图

就搜索和查询而言，相对于稀疏数据的获取，确定用户意图是一个重要但困难的问题.

用户意图具有广泛的应用程序，集群查询校正，用户意图概要文件和Web搜索意图归纳. 给定Internet上的搜索引擎查询，查找用户意图也是关键和要求. 为了确定用户的兴趣和偏好，可以将搜索结果上的点击序列用作良好的基本数据. Web搜索个性化是用户搜索意图的另一个重要应用，它与用户的上下文和意图有关. 随着用户意图的应用，将提供更有效和高效的信息.

8. 高维数据聚类和客户购买数据分析

高维聚类分析_fcm聚类有效性分析_python 高光谱聚类

对于高维数据空间聚类，存在两个问题: 效率和质量. 需要新的算法来处理这种类型的数据集. 为此有两种流行的策略，一种是子空间聚类策略，目的是在原始数据集空间的子空间中找到类. 另一种是降维策略，它创建了一个较低维的数据空间以用于进一步的聚类.

8.1 MAFIA算法

MAFIA算法是一种有效且可扩展的子空间聚类算法，可用于高维和大型数据集.

算法摘要:

8.2 SURFING算法

冲浪算法从数据集的原始属性中选择感兴趣的特征.

8.3客户购买数据分析

客户购买数据分析包括许多应用程序，例如客户满意度分析.

基于客户购买数据分析，其中一个应用程序可以帮助发现不必要的消费或用户购买行为.

9. 网络数据聚类以及SNS和图

9.1 SCAN算法

图形和网络数据的聚类在现代生活中具有广泛的应用，例如社交网络. 但是，更多的挑战伴随着需求的意外出现. 主要问题是计算成本高，图形复杂，维稀疏和策略高. 使用一些特殊的转换，这些问题可以转换为图形切割问题.

网络结构聚类算法（SCAN）是其中一种，它使用搜索图中紧密相连的分支作为类.

9.2社交网络服务

社交网络已成为当今最流行的交流方法. 由于安全性，业务和控制要求，社交网络服务（SNS）分析变得非常重要. 社交网络服务的基础是图论，尤其是用于挖掘社交网络服务（例如查找社交社区）和滥用社交网络服务以达到不良目的.

社交网络服务群集是查找社区的固有应用程序. 随机游走是社交网络服务分析中用于发现社区的另一项关键技术.

下一章: 将介绍与异常检测及其算法有关的主要主题，并讨论一些示例.

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-286581-1.html

相关阅读

发表评论　　请自觉遵守互联网相关的政策法规，严禁发布、暴力、反动的言论

孙哲

这样的事件最好不好在发生了

2026年03月27日回复顶转发

每日福利

热点图片

热点排行