Linux|数据挖掘，在商业智能BI领域的运用 CPU|thread|飞利浦·斯塔克

文章图片

文章图片

数据挖掘在商业领域，特别是在零售业的运用是比较成功的。由于各业务系统的普遍使用，再加上商业智能BI的可视化分析，企业可以收集到大量关于购买情况的数据，并且数据量在不断激增。利用数据挖掘技术可以为经营管理人员提供正确的决策手段，这样对促进销售及提高竞争力是有帮助的。
一、什么是数据挖掘
所站立场不同，对数据挖掘的定义也是不一样的。
1. 技术上的定义
数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

2. 商业角度的定义
数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。
因此，数据挖掘可以描述为：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，并进一步将其模型化的先进有效的方法。
二、数据挖掘的分类
数据挖掘分为有指导的数据挖掘和无指导的数据挖掘。有指导的数据挖掘是利用可用的数据建立一个模型，这个模型是对一个特定属性的描述。无指导的数据挖掘是在所有的属性中寻找某种关系。具体而言，分类、估值和预测属于有指导的数据挖掘；关联规则和聚类属于无指导的数据挖掘。

分类
它首先从数据中选出已经分好类的训练集，在该训练集上运用数据挖掘技术，建立一个分类模型，再将该模型用于对没有分类的数据进行分类。
估值
估值与分类类似，但估值最终的输出结果是连续型的数值，估值的量并非预先确定。估值可以作为分类的准备工作。
预测
它是通过分类或估值来进行，通过分类或估值的训练得出一个模型，如果对于检验样本组而言该模型具有较高的准确率，可将该模型用于对新样本的未知变量进行预测。
关联
关联的目的是发现某些事情总是一起发生。
聚类
它是自动寻找并建立分组规则的方法，它通过判断样本之间的相似性，把相似样本划分在一个簇中。
三、数据分析和数据挖掘的区别
数据分析，是用适当的统计方法对收集的海量数据进行分析、提取有用的信息和形成结论，然后对数据加以详细研究和概括总结的过程。
数据挖掘，是从海量的数据中通过相应的算法，挖掘其中有价值（未知的、有规律的）的信息的复杂过程。

数据挖掘是深层次的数据分析，数据分析是浅层次的数据挖掘，数据挖掘更偏重于探索性数据分析，因为数据挖掘的重点是从数据中发现知识规律。
四、应用领域
搜索引擎：数据挖掘技术应用到搜索引擎领域，从而产生智能搜索引擎，将会给用户提供一个高效、准确的检索工具。
金融领域：可以利用数据挖掘对客户信誉进行分析。典型的金融分析领域有投资评估和股票交易市场预测。

数据挖掘还可用于工业、农业、交通、电信、军事、互联网等其它行业。数据挖掘具有广泛的应用前景，它既可应用于决策支持，也可用于数据库管理系统中。