异构表格数据的挑战,深度神经网络如何解?

机器之心报道
编辑:小舟、蛋酱
来自图宾根大学等机构的研究者进行了首个深入研究基于表格数据的深度学习方法的工作 , 为该领域内的研究者和从业者提供了一份宝贵的指南 。
异构表格数据是最常用的数据形式 , 对于众多关键和计算要求高的应用程序至关重要 。 深度神经网络在同构数据集上往往性能优异 , 然而涉及建模表格数据(推理或生成)方面的应用仍然极具挑战性 。
近日 , 来自图宾根大学等机构的研究者进行了一项表格数据SOTA深度学习方法的调查研究 。 该研究首先将这些方法分为三组:数据转换、专用架构和正则化模型 , 然后全面概述了每个组中的主要方法 。
论文地址:https://arxiv.org/abs/2110.01889
通过解释表格数据上的深度学习模型 , 该研究对生成表格数据的深度学习方法展开了详细的讨论 。 主要贡献包括对领域内的主要研究流派和现有方法进行分类 , 同时突出相关挑战和开放型研究问题 。 这是领域内首个深入研究基于表格数据的深度学习方法的工作 , 可作为表格数据深度学习研究者和从业者的宝贵指南 。
深度神经网络的成功是借助大量计算和存储资源和可用的大型标记数据集(Schmidhuber , 2015;Goodfellowetal. , 2016) , 特别是基于卷积、循环深度学习机制(HochreiterandSchmidhuber , 1997)或transformer网络(Vaswani等 , 2017) 。
尽管深度学习方法在同类数据(例如图像、音频和文本数据)上的分类或数据生成任务上均表现出色 , 但表格数据仍然对这些模型构成挑战(ArikandPfister , 2019;Popovetal. , 2019);Shwartz-ZivandArmon , 2021) 。 Kadra等(2021)将表格数据集命名为深度神经网络模型最后一个「未征服的城堡(unconqueredcastle)」 。
与图像或语言数据相比 , 表格数据是异构的 , 导致其具有密集的数值特征和稀疏的分类特征 。 此外 , 这些特征之间的相关性也比图像或语音数据中的空间或语义关系弱 。 变量可以相关也可以独立 , 特征也没有位置信息 。 因此 , 在不依赖空间信息的情况下发现和利用相关性(Somepallietal. , 2021)是很有必要的 。
异构表格数据的挑战,深度神经网络如何解?】异构数据是最常用的数据形式(Shwartz-ZivandArmon , 2021) , 它在许多关键应用中无处不在 , 例如基于患者病史的医学诊断(Ulmeretal. , 2020;Somanietal. , 2021;Borisovetal. , 2021) , 金融应用的预测分析(Clementsetal. , 2020)、点击率(CTR))预测(Guoetal. , 2017)、用户推荐系统(Zhangetal. , 2019)、客户流失预测(Ahmedetal. , 2017;Tangetal. , 2020)、网络安全(BuczakandGuven , 2015)、欺诈检测(Cartellaetal. , 2021)、身份保护(Liuetal. , 2021a)、心理学(UrbanandGates , 2021)、延迟估计(Shomanetal. , 2020)、异常检测(Pangetal. , 2021)等等 。 在所有这些应用程序中 , 预测性能和稳健性的提升可能对最终用户和提供此类解决方案的公司都有相当大的好处 。 但其中需要处理许多与数据相关的陷阱 , 例如噪音、不精确、不同的属性类型和值范围 , 或者值的不可用 。
同时 , 深度神经网络与传统机器学习方法相比具有多种优势 。 它们非常灵活(Sahooetal. , 2017) , 并允许进行高效的迭代训练 。 深度神经网络对AutoML尤其有价值(Heetal. , 2021;Artzietal. , 2021;Shietal. , 2021;Fakooretal. , 2020;Gijsbersetal. , 2019;Yinetal. , 2020) 。 使用深度神经网络可以生成表格数据 , 例如 , 可以帮助缓解类不平衡问题(Wangetal. , 2019c) 。 最后 , 神经网络可以用于多模态学习问题 , 其中表格数据可以是许多输入模态之一(Baltru?aitisetal. , 2018;Lichtenwalteretal. , 2021;Shietal. , 2021;P?lsterletal. , 2021;Soaresetal. , 2021) , 用于表格数据蒸馏(MedvedevandD'yakonov , 2020;Lietal. , 2020a) , 用于联邦学习(Roschewitzetal. , 2021)以及更多场景 。