数据挖掘|什么是数据挖掘中的聚类？算法

【数据挖掘|什么是数据挖掘中的聚类？】

文章图片

数据挖掘和聚类密切相关。它们都专注于特定数据集的模式识别。
主要是机器学习、模式识别和统计的共同努力。它们有助于发现数据中的模式。聚类是数据挖掘的各种方法之一。

数据分析
什么是数据挖掘中的聚类？通常，数据挖掘最终会发现模式。如果您特别谈论聚类，它是一种无监督的数据挖掘方法，可将数据分成几组。换句话说，聚类是将数据统计分布到子类中。每个子类都展示了一组相似的对象。这是一种无监督算法。
让我们考虑用这个例子来阐明它的含义。当您在搜索引擎中键入一个短语时，它会立即进行监控。每当您再次浏览它时，它都会排列一系列由您之前的搜索所激发的广告。它的机器人需要几分钟来扫描您探索的内容。同样，许多其他用户也会浏览过类似或相关的信息。但是，他们的措辞可能会有所不同。它的机器人在算法中进行了数十亿次搜索，以列出最易搜索的短语。这就是数据挖掘。

数据处理
无监督算法使用多个变量描述数据作为输入。与监督算法不同，它没有变量来预测。
它的各种方法是什么？数据可以有多种类型，如调查、报告、表格、图像等。其各种方法处理数据挖掘中聚类分析中的数据类型。因此，结果出现了决定性的作用。

划分方法：假设一个数据集包含 n 个对象，而它们划分为组 k 。这意味着每个 k 组将有 n 个对象，前提是：

每个集群应该至少有一个对象。
一个对象应该只属于一个集群。

大数据
这种聚类在数据挖掘中最初是有效的。紧随其后的是迭代重定位技术以及进行精细聚类。

分层方法：它是数据对象的分层分解。它的凝聚方法首先将每个对象聚集在一个组中。随后，根据自下而上的方法，合并密切相关的对象，直到留下一个对象。

另一方面，矿工可以采用自上而下的方法，即。分裂的方法。它首先将所有对象聚集到一个组中。然后，它被分成更小的集群。

基于密度的方法：顾名思义，只要相邻簇的密度超过其阈值，该方法就会扩大簇的半径。
基于模型的方法：它基于假设建模。建立一个假设模型以找到数据的最佳拟合。密度函数保持在核心。然后，出现数据的空间分布。在考虑异常值或噪声的同时，标准统计数据确定聚类。
基于约束的方法：这种方法反映了将用户或面向应用的约束（如用户的期望）合并到集群中。

它的应用有哪些？

市场研究：市场研究需要深入洞察比较和预测分析。这种聚类广泛地有助于识别隐藏模式、分析和战略形成。
互联网算法：万维网使用它来理解搜索以过滤准确的结果或信息。
模式识别：许多银行使用异常值检测应用程序来筛选信用卡欺诈模式。
图像处理：比方说，政府想要了解有关特定地点征地的确切信息。聚类有助于根据图像中出现的房屋类型、价值和地理位置确定房屋类型。