智能化视频开发神器来了,AV Pipeline Kit 架构解析( 二 )


智能化视频集成开发神器来了,AV Pipeline Kit 架构解析
根据技术专家介绍,首先在模型方面 ,AV Pipeline 利用卷积神经网络的非线性拟合能力,去近似自然场景中高分辨率图像到低分辨率图像的复杂的退化过程,实现更为真实的超分效果。其次,在数据工程上,除超分素材里庞杂的真实采集的数据外,AV Pipeline 也会构造接近真实场景的合成数据,用于模型的优化过程。最后也是非常重要的一点,为了突破手机端侧的性能瓶颈,AV Pipeline 采用了多种模型小型化的方案,包括剪枝、量化、蒸馏、神经架构搜索等。
AV Pipeline 有 GPU 超分方案和NPU 超分两种方案。GPU 超分方案具有较高的并行效率以及较好的通用性,对于 270P 及以下的视频,可以实现最高 2 倍超分。而 NPU 超分方案则具有更好的超分体验,可以提供 3 倍的超分能力,但是需要专有硬件的支持。这是因为 NPU 提供了直接支持视频格式的接口,可以实现端到端的视频转化,减少了调用开销。
另外,AV Pipeline 针对视频超分提出特有的融合机制,对计算流水进行重排,可以降低超分对内存带宽的需求,提高了推理性能,降低内存读写的功耗。
现在,AV Pipeline 视频超分支持 270P-720P 等多种分辨率,最高可以实现 3 倍效果。根据视频分辨率的不同,AV Pipeline 视频超分插件会灵活采用不同的增强策略,以达到效果和时延功耗的平衡。
声音事件检测:98%识别准确率背后的四大设计亮点
AV Pipeline 另一个重要的插件是声音事件检测,声音事件检测采用主流的深度学习 NN 网络算法模型,重点关注准确率和误闯问题。在设计中,首先,根据声音事件长短不同,AV Pipeline 采用并行计算多个不同卷积,以分析更丰富的特征。
第二,在频谱中很难区分的易混淆声音事件,AV Pipeline 采用注意力机制,对不同声音特征计算贡献度,以区分易混淆的声音类别,并且可用于对误闯声音的抑制。第三,分类后的声音事件,在时间维度(时域上),也使用注意力机制,为贡献度打分。第四,AV Pipeline 设计了融合判决池,得分较高声音事件直接判决,得分较低但不想遗漏的声音事件,采用融合判决池做平滑处理。
AV Pipeline 声音事件检测现在可支持日常使用的 13 种声音,可以用于无障碍功能、健康检测、辅助安全驾驶、安全防盗、事故报警防剐蹭、停车启动安全等更丰富的场景。研发团队针对预置声音类别进行了深度优化、组合验证,当前识别准确率平均在 98% 以上。
最后,AV Pipeline 技术专家透露,AV Pipeline 已经在和视频 App 大厂合作超分商用方案,目前灰度测试阶段。同时,AV Pipeline 也可用于视频编辑软件和直播类应用。接下来,AV Pipeline 会继续完善框架和插件,例如预置视频录制、编辑等业务的 Pipeline,还会新增与人像拍摄美化相关的插件能力。
从 AV Pipeline 在视频领域新的玩法和探索,可以看到华为在持续投入大量核心技术,简化底层开发繁琐流程和难点,用以降低智能化音视频开发的门槛,这是赢得开发者的最好契机。AV Pipeline 的设计与进展,也让业界看到,华为正在探索核心场景和痛点的技术方案,持续加码技术生态实力,未来可期。
————————————————
版权声明:本文为CSDN博主「CSDN资讯」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
【 智能化视频开发神器来了,AV Pipeline Kit 架构解析】原文链接:https://blog.csdn.net/csdnnews/article/details/120433512