我们一起来看 。
更推荐R语言
进入正题之前 , 我们先来浅聊一下数据科学(DataScience) 。
数据科学是指通过挖掘数据、处理数据、分析数据 , 从而得到有用信息的技术和研究 , 再将这些信息应用到不同领域的各个方面 。
该学科结合了诸多领域中的理论和技术 , 包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算等 , 覆盖知识面非常广 。
作者表示想要掌握这些技能 , 大概每周要投入10个小时来学习 。
那么在开始真正学习之前 , 先来看一个最关键的问题——
用什么语言?
文章图片
在这里 , 作者认为选择R语言或者Python都可以 。
如果从从业角度出发 , 他会考虑以下三个因素:
编程语言对数据科学的影响有多大?就业市场的需求如何?就业市场的竞争力如何?
第一方面 , 作者直接将二者进行了对比 。
文章图片
Python非常适合机器学习和深度学习 。 但是在市场报告方面的优势不大 , 能用于统计经济学等重要领域的库比较少 。
只需4步 , 上手数据科学
接下来 , 就到了正式学习的环节 。
大致可以分为4个步骤:
掌握基础技能学习建模学习时间序列分析将模型集成到应用程序
所需要点亮的技能树如下所示:
文章图片
看到这里 , 先不要头皮发麻……作者给出了一些具体的学习tips 。
第一 , 从基础技能学起 。
可能很多人一上来就想搞定机器学习 , 但这可能会影响学习兴趣&效率 。
文章图片
作者用R语言进行了示范 , 列举了一些基础技能:
导入数据:使用数据库 , 连接到SQL , readr包,readxl包;转换数据:处理异常值、缺失数据、重塑数据、聚合、过滤等;可视化数据:静态/交互式数据可视化 , ggplot2以及plotly;处理文本数据、函数式编程……
如果以上这些基础技能都掌握后 , 接下来就可以学习机器学习了 。
在这里 , 可能有人会疑惑 , 不应该先学习数学、统计和算法吗?
对此作者认为 , 如果从头开始学习如何编写算法 , 可能并不是快速上手数据分析 。
所以 , 他更推荐从实战中学习这些技能 。
简单来看可以分为三步:
把机器学习应用在实际问题上;尝试使用不同的算法;对比不同的应用结果 。
在这方面需要用到哪些工具呢?
Tidymodels和H2O是作者推荐的两个软件包 。
另外 , Recipes中具有很多预处理工具 , 可以转换数据、创建数据特征 。
接下来 , 作者推荐你开始学习时间序列分析 。
因为这个技能意味着你可以对未来的一些数据进行预测 , 掌握这项技能也会使你成为大厂手中炙手可热的人才 。
在这方面 , 你需要掌握的技能如下:
时间序列分析:处理日期/日期时间数据、聚合、转换、可视化时间序列、使用timetk预测:ARIMA、指数平滑、Prophet、机器学习(XGBoost、随机森林、GLMnet等)、深度学习(GluonTS)、集成、调整超参数、扩展预测、modeltime包 。
进行到这一步后 , 你就可以尝试去创建一个模型并投入使用了 。
在这里 , 作者推荐了一个能够将模型集成到应用程序中的工具——Shiny 。
这个程序包可以用来创建交互式Web应用程序 , 代码可以在本地或服务器上托管 。
- 华为mate50|华为Mate50和P60延期发布,追求影像旗舰机,应该怎么选?
- 大屏|五款值得推荐的数据可视化大屏软件
- 正在离开太阳系的奥陌陌,为什么“猛踩油门”?科学家也困惑不已
- 人类为何不能实现“永生”?科学家:人类只是在给基因打工罢了
- Outlook|群晖NAS+西部数据红盘组合,解决仓鼠党头疼的数据存储问题
- 红米手机|realme GT2 Pro和红米K50 Pro该怎么选?
- Windows11|陈根:奥飞数据元宇宙联盟的炒作
- 半导体|中国芯片迎来爆发!400多家企业销售超1亿,硅谷抱怨不该对华制裁
- 固态硬盘|500G固态硬盘实际容量多大?看完文章后,就知道该如何计算了
- 小米科技|买小米手机算支持国产吗,小米应该赚不到多少钱吧?