从爱迪生发明留声机开始|音频格式——mp3到底丢失了什么( 三 ) 从爱迪生发明留声机开始

文章图片

文章图片
时间掩蔽temporalmasking
但这还不够。
当我们听到一个噪音戛然而止的之后，实际上会有一个100-200ms的逐渐减弱的掩蔽效果。在噪音完全停止后的这段时间里，比他更小的声音会被掩蔽，我们是完全听不见的，就像我们的耳朵需要200ms的时间回复知觉一样。
不光如此，噪音还会掩蔽在它之前的声音，虽然只有50ms ，但对于感官来说已经是相当长的一段时间了，这意味着我们的大脑需要50ms的缓冲才能报告到意识里。
而这个前后过程，就叫作时间掩蔽。

文章图片
MP3压缩算法的核心，就是利用一个精心迭代了许多年的人体听觉心理学模型，把音乐里的每一个瞬间对应在MP3文件格式里的每一帧（FRAME），检查这个帧内，上述两种掩蔽作用所发生的频率和时间段，把那些被掩盖的，我们听不到的音频信息统统丢掉。
这个过程并不单纯是精确地，机械式地判断，它的底色其实是感官上的把控。
在MP3算法测试初期，测试人员需要在海量的歌曲中找出MP3压缩算法的问题。它们要在各种歌曲的MP3和无损版本之间对比，而且每听一首歌他们都要评级，一共有四个等级，分别是：听不出区别、有一点区别、有点难听和非常难听。特别是最后两个选项，可以说是非常主观的判断了。
这意味着MP3算法的发明和改进，实际上把人的主观评判作为考量的目标之一。我们不能说这种算法是完全主观的，它也不是绝对客观的，所以它的效果也不可能在所有歌曲中都是平均的。
Vega和音频编码标准之战
说到这，就不得不提MP3发明过程中的一个小故事。在MP3压缩算法测试的最后阶段曾遇到过一个大难题，当时Brandenburg和他的同事们觉得自己的算法已经非常牛逼了，几乎在所有的双盲测试中都很难听出区别。
有天他无意中看到杂志上说大家喜欢用SuzanneVega的歌曲Tom'sDiner来测试自己的音箱，而他正好在弗劳恩霍夫实验室（Fraunhofer）看到了这张CD,于是他就把这首歌上传到了电脑上。
这首歌非常简单，是一个纯人声，没有伴奏的歌曲。但当他通过MP3的压缩算法处理这首歌之后，却得到这样一个效果。
在MP3较低的比特率下， Vega的声音变得沙哑，不自然。于是在之后的一年时间里，研发团队又对MP3算法做了几千次的微小调整， Brandenburg说自己至少听了三千遍这首歌，可能比地球上任何人听得次数都多。
最后他们成功压缩了这首Tom'sDiner ，也通过这首歌，真正完善了MP3的压缩算法。
许多年之后， Brandenburg真的遇到了Vega ，而且还现场听她唱了那首Tom'sDiner 。尽管已经听了无数遍，但他说，这首歌依然很好听。

文章图片
Brandenburg终于在1989年发表了他的论文。下一步就是将这项技术推向世界。也就是在90年代初，业界突然出现好几种新兴技术，它们正在寻找一种新的音频编码标准来使用，这其中包括我们熟悉的“CD-ROM”和“DVD” 。
于是他和他的团队向动态影像专家组（MPEG）提交了参赛作品，他们要和另外13个团队竞争新的音频编码标准。而最大的竞争对手来自一个名为MUSICAM的组织，这个组织的背后是飞利浦，当时飞利浦手握CD光盘的专利，可以说是如日中天。