数学|图论新维度:数据驱动的数学理论,揭秘复杂联系的新工具

数学|图论新维度:数据驱动的数学理论,揭秘复杂联系的新工具
文章插图

作者 | Stephen Ornes
编译 | 王晔
校对 | 维克多
用由点和线组成的网络形式对现实世界建模,是自18世纪以来采用的主流方法。但随着大数据的出现,研究人员开发了更多的数学工具,在大量的计算机资源加持下,数学研究不断被发现。
正如科罗拉多大学博尔德分校的计算机科学家Josh Grochow说的那样:“整个领域经历了一个令人兴奋的快速增长期。”,“毕竟,新网络模型的出现,让我们有能力在大数据的噪音中找到有价值的东西:复杂的结构和信号。”
在之前,业界往往用数学分支中的图论表示两个事物中的关系。但当涉及到大数据时候,需要关系并不能用简单的二元关系来表示,换句话说,传统的图论思维表现出了“短板”。
例如尝试建立一个关于养育子女的网络模型。图论能表现出父母与孩子的联系,但是对于同侪压力等群体效应往往束手无措,即二元网络并不能捕捉到群体的影响。再例如,如果一位药理学家想模拟药物相互作用,图论可能会显示两种药物如何相互反应。但三种药物呢?或者四种呢?
对于群体效应等的描述,数学家和计算机科学家发明了"高阶互动 "一词。从量子力学中的相互作用到疾病在人群中传播的轨迹,这些"高阶互动 "的数学现象遍布各个方面。
最近几年,高维数据集成为探索的引擎,给数学家和网络理论家带来新思路。对于图论表示“高阶互动”有了新的研究成果。最直观的表现是一些数学家已经意识到:从数学角度来看,我们以为的数据结构并不完全适合我们在数据中看到的情况。

数学|图论新维度:数据驱动的数学理论,揭秘复杂联系的新工具
文章插图
Emilie Purvine
"网络只是事物的影子,"Grochow表示。如果一个数据集有一个复杂的基础结构,那么把它作为一个图来建模可能只揭示了整个故事的有限投影。

1

进入超图(Hypergraph)
寻找高维结构使数学变得特别模糊而有趣。例如,图的“高阶类似物”被称为超图。结合图,可以理解到超图就是每一个边可以包含两个以上的点所构成的图,这意味着它可以代表多向(或多线性)关系。
超图的边(Hyperedge)可以被看作是一个表面,而不是一条线,就像在三个或更多地方钉了一块油布一样。
超图如何从大数据集中挖掘关系类型?以科学出版为例,想象两个数据集,每个数据集都包含最多由三位数学家共同撰写的论文;为了简便,我们把它们命名为A、B和C。一个数据集包含六篇论文,其中三个不同的二人合著组(AB、AC和BC)各写了两篇论文。另一个数据集只包含两篇论文,每篇都是由三位数学家合著的(ABC)。
从这两组数据中提取的合著关系图可能看起来像一个三角形,显示每个数学家(三个节点)都与另外两个数学家(三个链接)合作过。当然,如果只有“谁与谁合作”这一个问题,那么就不需要超图。
超图可以回答关于不明显结构的问题。例如,第一个数据集的超图(有六篇论文)可能包括显示每个数学家对四篇论文有贡献的超边。对两组超图的比较将表明,第一个数据集中的论文作者不同,但在第二个数据集中是相同的。
数学|图论新维度:数据驱动的数学理论,揭秘复杂联系的新工具
文章插图

这种高阶方法在应用研究中已经被证明是有用的。例如,20世纪90年代,生态学家展示了向黄石国家公园重新引进狼群时,生物多样性和食物链结构的变化过程。在最近的一篇论文中,美国西北太平洋国家实验室的数学家milie Purvine和她的同事分析了一个病毒感染的生物反应数据库,使用超图来确定所涉及的最关键基因。在论文中,他们还展示了这些相互作用是如何被图论提供的通常成对分析遗漏的。