5G|统计学和机器学习到底存在哪些联系和区别?( 三 )


  • 物理只是数学的一种更好听的说法 。
  • 动物学只是邮票收藏的一种更好听的说法 。
  • 建筑学只是沙堡建筑的一种更好听的说法 。
这些说法(尤其是最后一个)非常荒谬 , 完全混淆了两个类似想法的术语 。
实际上 , 物理是建立在数学基础上的 , 理解现实中的物理现象是数学的应用 。 物理学还包括统计学的各个方面 , 而现代统计学通常是建立在Zermelo-Frankel集合论与测量理论相结合的框架中 , 以产生概率空间 。 它们有很多共同点 , 因为它们来自相似的起源 , 并运用相似的思想得出一个逻辑结论 。 同样 , 建筑学和沙堡建筑可能有很多共同点 , 但即使我不是一个建筑师 , 也不能给出一个清晰的解释 , 但也看得出它们显然不一样 。
在我们进一步讨论之前 , 需要简要澄清另外两个与机器学习和统计有关的常见误解 。 这就是人工智能不同于机器学习 , 数据科学不同于统计学 。 这些都是没有争议的问题 , 所以很快就能说清楚 。
数据科学本质上是应用于数据的计算和统计方法 , 包括小数据集或大数据集 。 它也包括诸如探索性数据分析之类的东西 , 例如对数据进行检查和可视化 , 以帮助科学家更好地理解数据 , 并从中做出推论 。 数据科学还包括诸如数据包装和预处理之类的东西 , 因此涉及到一定程度的计算机科学 , 因为它涉及编码和建立数据库、Web服务器之间的连接和流水线等等 。
要进行统计 , 你并不一定得依靠电脑 , 但如果是数据科学缺了电脑就没法操作了 。 这就再次说明了虽然数据科学借助统计学 , 这两者不是一个概念 。
同理 , 机器学习也并非人工智能;事实上 , 机器学习是人工智能的一个分支 。 这一点挺明显的 , 因为我们基于以往的数据“教”(训练)机器对特定类型的数据进行概括性的预测 。
机器学习是基于统计学
在我们讨论统计学和机器学习之间的区别前 , 我们先来说说其相似性 , 其实文章的前半段已经对此有过一些探讨了 。
机器学习基于统计的框架 , 因为机器学习涉及数据 , 而数据必须基于统计学框架来进行描述 , 所以这点十分明显 。 然而 , 扩展至针对大量粒子的热力学的统计机制 , 同样也建立在统计学框架之下 。
压力的概念其实是数据 , 温度也是一种数据 。 你可能觉得这听起来不合理 , 但这是真的 。 这就是为什么你不能描述一个分子的温度或压力 , 这不合理 。 温度是分子相撞产生的平均能量的显示 。 而例如房屋或室外这种拥有大量分子的 , 我们能用温度来描述也就合理了 。
你会认为热力学和统计学是一个东西吗?当然不会 , 热力学借助统计学来帮助我们理解运动的相互作用以及转移现象中产生的热 。
事实上 , 热力学基于多种学科而非仅仅统计学 。 类似地 , 机器学习基于许多其他领域的内容 , 比如数学和计算机科学 。 举例来说:
机器学习的理论来源于数学和统计学
机器学习算法基于优化理论、矩阵代数和微积分
机器学习的实现来源于计算机科学和工程学概念 , 比如核映射、特征散列等 。
当一个人开始用Python开始编程 , 突然从Sklearn程序库里找出并使用这些算法 , 许多上述的概念都比较抽象 , 因此很难看出其中的区别 。 这样的情况下 , 这种抽象定义也就致使了对机器学习真正包含的内容一定程度上的无知 。
统计学习理论——机器学习的统计学基础
统计学和机器学习之间最主要的区别在于统计学完全基于概率空间 。 你可以从集合论中推导出全部的统计学内容 , 集合论讨论了我们如何将数据归类(这些类被称为“集”) , 然后对这个集进行某种测量保证其总和为1.我们将这种方法成为概率空间 。