概率|研究人员利用人工智能实时发现隐藏在海量数据中的异常现象

识别国家电网的故障就像在一个巨大的干草堆里找一根针。分布在美国各地的数十万个相互关联的传感器实时捕捉电流、电压和其他关键信息的数据,往往每秒钟进行多次记录。麻省理工学院IBM沃森人工智能实验室的研究人员已经设计出一种计算效率高的方法,可以实时自动确定这些数据流中的异常情况。
【 概率|研究人员利用人工智能实时发现隐藏在海量数据中的异常现象】他们证明了他们的人工智能方法,学会了对电网的互联性进行建模,在检测这些故障方面比其他一些流行的技术要好得多。由于他们开发的机器学习模型不需要关于电网异常的注释数据来进行训练,它将更容易应用于高质量、有标记的数据集往往难以获得的现实世界。该模型也很灵活,可以应用于其他有大量互联传感器收集和报告数据的情况,如交通监控系统。例如,它可以识别交通瓶颈或揭示交通堵塞是如何串联的。
概率|研究人员利用人工智能实时发现隐藏在海量数据中的异常现象
文章插图
研究人员首先将异常现象定义为发生概率较低的事件,如电压的突然飙升。他们将电网数据视为概率分布,因此,如果他们能估计出概率密度,就能确定数据集中的低密度值。那些最不可能发生的数据点对应于异常点。
估算这些概率不是一件容易的事,特别是由于每个样本捕获了多个时间序列,而每个时间序列是一组随时间记录的多维度数据点。另外,捕获所有这些数据的传感器是有条件的,这意味着它们是以某种配置连接的,一个传感器有时会影响其他传感器。
为了学习数据的复杂条件概率分布,研究人员使用了一种特殊类型的深度学习模型,称为归一化流,它在估计样本的概率密度方面特别有效。他们使用一种被称为贝叶斯网络的图来增强该归一化流模型,该模型可以学习不同传感器之间复杂的因果关系结构。种图结构使研究人员能够看到数据中的模式并更准确地估计异常情况。