花束|干货分享：数据挖掘浅谈( 三 ) odaia|ai|saas|客户|ventures|算法|制

4）维度灾难：当数据集中包含上百乃至上千万的变量时，往往会提高模型的复杂度，从而影响模型的运行效率，所以需要采用方差分析、相关分析、主成分分析等手段实现降维。
3.4 建模型一般情况下，预处理将占整个数据挖掘流程80%左右的时间。在保证数据“干净”的前提下，需要选出合适的模型。以下是常用的机器算法。1）分类模型：KNN、决策树、逻辑回归等。
2）回归模型：线性回归、岭回归、支持向量回归等。
3）无监督模型：k-means等。
数据挖掘中大部分模型都不是专为解决某个问题而特制的，模型之间相互不排斥。不能说一个问题只能采用某个模型，其他的都不能用。通常来说，针对某个数据分析项目，并不存在所谓的最好的模型，在最终决定选择哪种模型之前，各种模型都尝试一下，然后再选取一个较好的。各种模型在不同的环境中，优劣会有所不同。
3.5 评估模型评估阶段主要是对建模结果进行评估，目的是选出最佳的模型，让这个模型能够更好地反映数据的真实性。并不是每一次建模都能符合我们的目标，对效果较差的结果分析原因，偶尔也会返回前面的步骤对挖掘过程重新定义。比如，对于决策树或者逻辑回归，即使在训练集中表现良好，但在测试集中结果较差，说明该模型存在过拟合。
3.6 模型部署建立的模型需要解决实际的问题，它还包括了监督、产生报表和重新评估模型等过程。很多时候建模一般使用spss、python、r等，在建模的过程中只考虑模型的可用性，在生产环境中通常会利用Java或C++等语言将模型改写，从而提高运行性能。
祝大家情人节快乐！
作者：猫耳朵，专注于数据分析；“数据人创作者联盟”成员。
本文由@一个数据人的自留地原创发布于人人都是产品经理，未经许可，禁止转载。
题图来自 Pexels，基于CC0协议。