4)维度灾难:当数据集中包含上百乃至上千万的变量时,往往会提高模型的复杂度,从而影响模型的运行效率,所以需要采用方差分析、相关分析、主成分分析等手段实现降维。
3.4 建模型一般情况下,预处理将占整个数据挖掘流程80%左右的时间。在保证数据“干净”的前提下,需要选出合适的模型。以下是常用的机器算法。1)分类模型:KNN、决策树、逻辑回归等。
2)回归模型:线性回归、岭回归、支持向量回归等。
3)无监督模型:k-means等。
数据挖掘中大部分模型都不是专为解决某个问题而特制的,模型之间相互不排斥。不能说一个问题只能采用某个模型,其他的都不能用。通常来说,针对某个数据分析项目,并不存在所谓的最好的模型,在最终决定选择哪种模型之前,各种模型都尝试一下,然后再选取一个较好的。各种模型在不同的环境中,优劣会有所不同。
3.5 评估模型评估阶段主要是对建模结果进行评估,目的是选出最佳的模型,让这个模型能够更好地反映数据的真实性。并不是每一次建模都能符合我们的目标,对效果较差的结果分析原因,偶尔也会返回前面的步骤对挖掘过程重新定义。比如,对于决策树或者逻辑回归,即使在训练集中表现良好,但在测试集中结果较差,说明该模型存在过拟合。
3.6 模型部署建立的模型需要解决实际的问题,它还包括了监督、产生报表和重新评估模型等过程。很多时候建模一般使用spss、python、r等,在建模的过程中只考虑模型的可用性,在生产环境中通常会利用Java或C++等语言将模型改写,从而提高运行性能。
祝大家情人节快乐!
作者:猫耳朵,专注于数据分析;“数据人创作者联盟”成员。
本文由@一个数据人的自留地 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Pexels,基于CC0协议。
- 带货|揭秘爆款带货短视频的套路|超干货,值得收藏
- 2月10日|《极限竞速:地平线5》国内玩家分享游戏中出现的各式涂装
- 干货在这里!荆州公安纪律作风专项整治动员会精神
- MySQL|策划经理都在用的神器,一次分享出来了!
- 客单价|占豪干货:付费和收费,才是最好链接人脉的方式
- 自媒体|自媒体公众号写作注意事项(干货)(我自己的实战经验)
- 高颜小巧充电快!南卡C2双口快充头分享体验
- 阿迪达斯|阿迪达斯因在Twitter上分享露骨图片以推广运动胸罩而受到批评
- 微信|培训机构类微信公众号变现的七大手段(实战干货)
- 工业互联网|阿迪达斯因在Twitter上分享露骨图片以推广运动胸罩而受到批评