作者|韦世玮
编辑|石亚琼
**
36氪获悉,近日智能声音前端处理技术与产品供应商「黄鹂智声」获得千万级人民币天使轮融资,由汇芯投资领投,深创投索斯福、源政投资跟投。这轮资金将主要用于核心技术和C端产品的研发,以面向更多应用场景,扩大市场推广。
黄鹂智声成立于2019年,聚焦于声音前端处理技术和相关产品的研发、应用和服务,通过深度学习、听觉场景分析等技术的融合,在各类噪声环境下实现声音的清晰拾取,可广泛应用于口语考试训练、直播录课、在线会议、呼叫中心、商旅通话、物流快递等场景。
实际上,黄鹂智声核心技术团队早在2005年就开始研发智能语音识别系统,为国际一线大厂提供语音拨号服务,随后团队从2007年起逐渐开拓口语测评赛道,成为国内最早一批为教育行业提供口语测评服务的厂商。
不过,团队在开发过程中发现,学生们进行口语测试时的座位是相邻的,即便是戴上耳机大声说话,也很难保证自己的声音不会被旁边的人声淹没,这就导致最终录音素材全是嘈杂的人声,不管是机器还是人工都很难做出评判。
这也是声音领域典型的“鸡尾酒会问题(cocktail party problem)”。简单来说,当许多人在同一场合下说话时,人类往往能忽略背景的其他噪音,将注意力集中于某个人的声音。但对机器来说,它很难区分环境中重叠和相互干扰的声波,难以针对某个声音信号进行有效的采集和区分处理。
因此,团队决定进一步研发声音前端处理技术,以解决强噪声环境下的语音通信和声音智能处理问题。历经十余年的技术积淀,团队成立了黄鹂智声,开拓智能声音前端处理市场。
一、降噪耳麦为首推产品,走信号处理+深度学习的技术路径
目前,公司已相继推出G200b头戴式话筒灭噪蓝牙耳麦、G100u头戴式话筒灭噪有线耳麦、C100m耳挂式话筒灭噪有线麦克风、ENC-BOX自适应通话灭噪盒等多形态降噪耳麦及降噪盒产品。其中,G200b的环境降噪(ENC)深度超50dB,降噪后的语音质量仍十分清晰,同时该款耳麦连续听音乐时长超40h、通话时长超25h,充电10分钟可通话3h,续航优势明显。
值得注意的是,黄鹂智声的降噪技术与人们使用TWS耳机听歌、看电影时感受的“听筒端ANC主动降噪”完全不同,公司主打的是“麦克风端的ENC通话降噪”,该技术主要针对麦克风,通过算法、声学和硬件的整体配合,让麦克风只拾取使用者的声音,让通话的对方听的清清楚楚。
黄鹂智声CEO刘志告诉36氪,ENC降噪具有三大挑战:一是降噪深度与声音失真度往往成反比,如何同时保证强降噪和低失真是最大的挑战;二是噪声种类繁多,当噪声环境发生变化时,降噪都需要一个建模或适应的过程,因此降噪的稳定性和及时性也是一大难点;三是复杂的噪声环境也意味着大运算量的降噪算法和模型,要在小芯片平台上实现低功耗和高性能,才能推动降噪应用更广泛的落地。
在声音前端信号处理领域,传统的方案主要是利用噪声预测和滤波的方法将噪声信号过滤,留下部分相对清晰的语音信号,但这一方案的降噪效果非常有限,因为其主要是基于稳态噪声(如飞机、列车的发动机噪声)的假设,而忽略了真实环境中存在的大量非稳态噪声(如鞭炮声、音乐声、交通环境声等)。
为了突破传统技术的瓶颈,如今已衍生出不同的技术流派,其中基于深度学习的AI流派是目前主流的技术路径之一,其主要利用深度学习建模区分人声和非人声,再从复杂的非稳态噪声中分离与提取出清晰人声,不过这一方法也面临算法和模型复杂度高、可解释性弱的问题。
- 本文转自:36氪现在再来看|快狗打车们正驶入平台经济死胡同
- 电子商务|36氪独家|SaaS平台「税纪云」获千万美元级融资,专业税务人赋能税务数字化
- 本文转自:36氪文 | 姚兰与“自由”相匹配的产品|运动生活品牌「fajo花椒星球」:不想对标别人,而希望别人对标自己
- OPPO|OPPO Enco X2官宣!除了首发第二代同轴双单元,还有世界大师操刀
- 天玑9000|一图两芯,更好看or更费电?OPPO Find X5首发天玑9000
- 显卡|i5-12400F+RTX 3060!联想GeekPro 2022台式机首发价6499元
- 小米科技|小米官宣,联名奔驰AMG F1,首发机型确认
- ot极氪中心全球旗舰店正式开业,极氪 001 累计交付量突破 10000 台
- AMD|独显直连+双A平台,ROG幻14 2022款首发,到手9499元起!
- 华为鸿蒙系统|鸿蒙系统3.0将在下个月开启内测,Mate 50系列可能首发搭载正式版