算法|算法推歌20年:从Pandora、Spotify到QQ音乐、网易云音乐( 二 )



与The Echo Nest早先的设计相似 , Spotify的推荐系统主要采用协同过滤、自然语言处理、音频分析三种推荐模型 。

协同过滤模型主要分析用户间的关联 , 在其中 , Spotify的曲库与用户构成了一个庞大的二维矩阵 , 通过对这个矩阵的拆解 , 得到相似的用户向量和歌曲向量 , 以向用户推荐其他有着相似口味的用户喜爱的歌曲 。
【算法|算法推歌20年:从Pandora、Spotify到QQ音乐、网易云音乐】自然语言处理模型则是从人们对歌曲的评价中来提炼每首歌曲被提及时常用的形容表达、句子、名词等“关键词” , 并给这些关键词设定不同的权重 , 以量化在人们眼中哪些歌曲是相似的 。
由于新歌的播放数据和用户评价都较少 , 协同过滤模型和自然语言处理模型难以起到很好的效果 。 为此 , Spotify在推荐系统中加入了音频分析模型 。 其通过分析原始音轨文件来进行分类过滤 , 在卷积神经网络的帮助下 , 歌曲时间内的特征统计量(拍子记号、音调、调式、速度等)得以形象化 , 并被用来分析歌曲间本质上的相似性 。

要实现对用户的个性化推荐 , 除了对内容的精准描述外 , 精准的用户画像也同样重要 。
2018年 , Spotify申请的一项专利被视为其推荐系统2.0版本到来的标志 。 据悉 , 这项专利是一项音频信号处理技术 , 能够对用户的语音内容和背景噪音进行处理 , 以得到用户的情绪状态数据 。 再加上对年龄、性别、地区等传统数据的综合分析 , Spotify将为用户提供更为精准的推荐内容 , “把推荐技术提升到一个新的水平” 。
与Spotify和Pandora试图去深刻理解用户不同 , 刚刚上线的“Super Sonic”并没有在用户画像上下功夫——这款仅针对Plex付费用户推出的功能 , 只是为了推荐用户可能喜欢的歌曲 。 “Super Sonic”将一首歌曲的“声音”从旋律、节拍等50多个维度进行分解 , 根据分析结果 , 歌曲们被放进了一个以歌曲特性为坐标轴的N维空间中 , 并用不同的点表示 。 在N维空间中 , 两个点越接近 , 它们代表的歌曲就越“相似” 。
50维空间中的计算需要极大的计算量 , 这或许是在安装“Super Sonic”时需要耗费数小时甚至数天时间的原因 。

尽管运作系统十分庞大 , 但“Super Sonic”并未带来多少新意 。 对歌曲本身进行分析 , 这与Spotify的音频分析模型的想法不谋而合;而通过寻找两个相近的“点”来召回歌曲 , 则是协同过滤模型中常用的求解思路 。

不过 , 与各位“前辈”相比 , “Super Sonic”也有着自己的亮点——它完全摆脱了对元数据的依赖 。 尽管Spotify的音频分析模型也只对歌曲本身进行分析 , 但最终被端上用户餐桌的 , 是由多个模型共同决定的内容 。 直观来看 , “Super Sonic”这种“不加以辨别”的推荐方式 , 意味着独立音乐人有更多被听见的可能 , 也给听众带来了更多新的探索 。
国内平台是怎么做算法推歌的?众所周知 , 用户对音乐的反馈越多 , 个性化推荐的内容越精准 。 其实这是一种双向互动的过程——推荐系统学习到用户喜好 , 用户也借助算法工具实现了对自己潜在音乐喜好的探索 。
在这种推荐系统与用户的双向互动中 , “标签”是推荐歌曲最重要的依据 。 无论是Pandora“音乐基因组计划”还是Spotify的三种算法模型 , 核心目的都在于给一首歌曲贴上足量且准确的“标签” 。

在标签的解读上 , QQ音乐的推荐系统给出了一些新的思路:在标签系统中加入了视觉元素 , 从音视频和艺人的角度对歌曲进行拆解;流派方面 , QQ音乐综合国情 , 开发出了诸多中国独有的“标签” 。 例如例如通行的“电音”“说唱”等流派划分外 , 还加入了“国风”、“城市民谣”、“大众流行”等中国特有的“标签” , 以照顾到不同受众的口味与感受 。