数据集|NeurIPS 2021杰出论文等奖项公布,斯坦福大学3篇入选,成最大赢家( 三 )


在实证方面,作者首次表明 LDA 可以轻松地在数十万个文档的文本语料库上进行训练,使其成为解决“大数据”问题的实用技术。
这个想法在机器学习社区产生了很大的影响,因为它是更广泛模型类别的一般随机梯度变分推理过程的基础。这篇论文之后,就没有充分的理由再使用完整的批次训练程序进行变分推理了。
数据集和基准测试最佳论文奖今年 NeurIPS 推出了新的数据集和基准测试(Datasets & Benchmarks)赛道,表彰在数据领域的工作。
该领域的2篇最佳论文奖分别是:
Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research
论文地址:
https://openreview.net/forum?id=zNQBIBKJRkd
数据集|NeurIPS 2021杰出论文等奖项公布,斯坦福大学3篇入选,成最大赢家
文章插图
这篇论文作者来自加州大学洛杉矶分校和谷歌。
本文分析了数千篇论文并研究了不同机器学习子社区中数据集使用的演变,以及数据集采用和创建之间的相互作用。
作者发现,在大多数社区中,随着时间的推移,使用不同数据集的人更少了,而且人们使用的数据集基本都来自少数精英机构。
这种变化是有问题的,因为基准变得不那么具有普遍性,这些数据集来源中存在的偏见可能会被放大,并且研究界更难接受新的数据集。
这对整个机器学习社区来说是一个重要的“警钟”,让他们更加批判性地思考哪些数据集用于基准测试,并更加重视创建新的、更多样化的数据集。
ATOM3D: Tasks on Molecules in Three Dimensions
论文地址:
https://openreview.net/forum?id=FkDZLpK1Ml2
数据集|NeurIPS 2021杰出论文等奖项公布,斯坦福大学3篇入选,成最大赢家
文章插图
这篇文章作者来自于斯坦福大学和芝加哥大学。
本文介绍了一组基准数据集,其中包含小分子和/或生物聚合物的3D表示,用于解决单分子结构预测和生物分子之间的相互作用,以及分子功能和设计与工程任务问题。
这篇文章将3D模型的实现与具有1D或2D表示的SOTA模型进行基准测试,并显示出比低维对应物更好的性能。这项工作提供了有关如何为给定任务选择和设计模型的重要见解。
这项工作不仅提供了基准数据集,还提供了基线模型和开源工具来利用这些数据集和模型,大大降低了机器学习人员进入计算生物学和分子设计的门槛。
原文地址:
https://blog.neurips.cc/2021/11/30/announcing-the-neurips-2021-award-recipients/
— 完 —
量子位 QbitAI · 头条号签约