具有弱标记数据声音的大规模视听学习( 二 )


然后我们训练一个4个隐藏层的深度全连接神经网络(DNN)来识别声音事件 。 每层的单元数分别为2048、2048、1024、1024、C , 其中C为类数 。 第一个和第二个隐藏层之后是一个dropout层 , dropout率为0.3 。 除最后一层使用sigmoid激活外 , 所有层都使用整流线性单元(ReLU)激活 。 与音频模型类似 , 网络使用二元交叉熵损失函数进行训练 。
实验
1.Audioset数据集
Audioset是最大的声音事件数据集 。 该数据集提供了527个声音事件的YouTube视频 。 每个视频剪辑的长度大约为10秒 , 由人类注释 , 带有多个标签 , 表示视频剪辑中存在的声音事件 。 每个视频剪辑的平均标签数为2.7 。 该数据集被弱标记 , 因为每个视频剪辑的标签表示声音事件的存在或不存在 , 但不包含任何时间信息 。 训练集中声音事件类的分布严重不平衡 , 从代表最多的类Music的大约100万个视频到代表最少的类Screech的大约120个视频 。
2.融合方法的比较
表2总结了结果 。 音频模型达到38.35mAP和97.12mAUC , 而视觉模型达到25.73mAP和91.30mAUC 。 由于任务的性质 , 预计音频模型优于视觉模型 。
表2:结合视听模型的不同融合方法的mAP和mAUC比较
具有弱标记数据声音的大规模视听学习
文章图片
音频和视觉输出的平均融合达到42.84mAP , 比音频模型绝对提升4.49mAP(相对:11.7%) , 比视觉模型绝对提升17.11mAP(相对:66.5%) 。 回归融合模型比平均融合略有改进:提高了0.26mAP 。 MLP融合模型比平均融合有相当大的改进:提高了2.76mAP 。 我们的注意力融合模型实现了46.16mAP , 相对于音频模型 , 绝对提升了7.81mAP(相对:20.4%) 。 它还优于所有基线融合方法:比平均融合提高3.32mAP(相对:7.7%) 。
3.与最先进技术的比较
表3显示了与Audioset上最先进模型的比较 。 我们的音频模型略好于Audioset上的最新性能 。 然而 , 这是通过多个模型的集成输出获得的 , 最佳的单个模型性能(与之相比更公平)为38.0 。 据我们所知 , 王等人的工作是唯一在Audioset上报告了声音事件的视觉和视听模型的先前工作 。 我们的视觉模型比他们提高了6.93mAP(相对:36.8%) 。 更重要的是 , 与他们的工作相比 , 我们的视听模型提高了4.35mAP(相对:10.4%) , 并在Audioset上设置了新的最新技术 。
表3:用于AudioSet上最先进的音频、视觉和视听声音识别模型的mAP和mAUC
具有弱标记数据声音的大规模视听学习
文章图片
讨论