音频数据的建模全流程代码示例:通过讲话人的声音进行年龄预测( 二 )
这时是之前的快速傅立叶变换的小型改编版本 , 即短时傅立叶变换(STFT) , 这种方式是以滑动窗口的方式计算多个小时间窗口(因此称为“短时傅立叶”)的FFT 。
importlibrosa.display#Computeshort-timeFourierTransformx_stft=np.abs(librosa.stft(y))#ApplylogarithmicdB-scaletospectrogramandsetmaximumto0dBx_stft=librosa.amplitude_to_db(x_stft,ref=np.max)#PlotSTFTspectrogramplt.figure(figsize=(12,4))librosa.display.specshow(x_stft,sr=sr,x_axis="time",y_axis="log")plt.colorbar(format="%+2.0fdB")plt.show();
文章图片
与所有频谱图一样 , 颜色代表在给定时间点给定频率的量(响度/音量) 。 +0dB是最响亮的 , -80dB接近静音 。 在水平x轴上我们可以看到时间 , 而在垂直y轴上我们可以看到不同的频率 。
作为STFT的替代方案 , 还可以计算基于mel标度的梅尔频谱图 。 这个尺度解释了我们人类感知声音音高的方式 。 计算mel标度 , 以便人类将由mel标度中的delta隔开的两对频率感知为具有相同的感知差异 。
梅尔谱图的计算与STFT非常相似 , 主要区别在于y轴使用不同的刻度 。
#Computethemelspectrogramx_mel=librosa.feature.melspectrogram(y=y,sr=sr)#ApplylogarithmicdB-scaletospectrogramandsetmaximumto0dBx_mel=librosa.power_to_db(x_mel,ref=np.max)#Plotmelspectrogramplt.figure(figsize=(12,4))librosa.display.specshow(x_mel,sr=sr,x_axis="time",y_axis="mel")plt.colorbar(format="%+2.0fdB")plt.show();
文章图片
与STFT的区别可能不太明显 , 但如果仔细观察 , 就会发现在STFT图中 , 从0到512Hz的频率在y轴上占用的空间比在mel图中要大得多.
梅尔频率倒谱系数(MFCC)是上面梅尔频谱图的替代表示 。 MFCC相对于梅尔谱图的优势在于特征数量相当少(即独特的水平线标度) , 通常约为20 。
由于梅尔频谱图更接近我们人类感知音高的方式 , 并且MFCC只有少数几个分量特征 , 所以大多数机器学习从业者更喜欢使用MFCC以“图像方式”表示音频数据 。 但是对于某些问题 , STFT、mel或波形表示可能会更好 。
让我们继续计算mfcC并绘制它们 。
#Extract'n_mfcc'numbersofMFCCscomponents(here20)x_mfccs=librosa.feature.mfcc(y,sr=sr,n_mfcc=20)#PlotMFCCsplt.figure(figsize=(12,4))librosa.display.specshow(x_mfccs,sr=sr,x_axis="time")plt.colorbar()plt.show();
文章图片
现在我们更好地理解了音频数据的样子 , 让我们可视化更多示例 。
文章图片
在这四个示例中 , 我们可以收集到有关此音频数据集的更多问题:
大多数录音在录音的开头和结尾都有一段较长的静默期(示例1和示例2) 。 这是我们在“修剪”时应该注意的事情 。 在某些情况下 , 由于按下和释放录制按钮 , 这些静音期会被“点击”中断(参见示例2) 。 一些录音没有这样的静音阶段 , 即一条直线(示例3和4) 。 在收听这些录音时 , 有大量背景噪音 。为了更好地理解这在频域中是如何表示的 , 让我们看一下相应的STFT频谱图 。
文章图片
- OPPO Watch 2 冰川湖蓝图赏:新增滑雪模式,身披冰墩墩外套的蓝表带
- realme真我宣布将于2月28日在西班牙巴塞罗那举办的MWC2022上正式发布real...|realme新一代闪充科技将于2月28日发布
- 随着明天三星官方全球发布会的临近|三星galaxytabs8系列平板规格曝光
- 美团|美团不给外卖骑手缴纳社保,虽然并不违反相关法律,但是开了一个不好的头
- 门店|咖啡市场的B面:一位头部品牌员工的自述
- 选项|案例研究:实用的书签
- 电池容量|OPPO Watch 2 冰川湖蓝图赏:新增滑雪模式,身披冰墩墩外套的蓝表带
- 拖鞋|苹果不分左右的耳机、Google 的 VR 拖鞋,面向未来的专利被做出来了
- 爆火的元宇宙会是36氪「数字时氪」微信社群活动 | htc
- 叮咚|互联网买菜的“下半场”