智能化视频开发神器来了，AV Pipeline Kit 架构解析( 二 ) 电商主播|日常工作|劳动关系

智能化视频集成开发神器来了，AV Pipeline Kit 架构解析
根据技术专家介绍，首先在模型方面，AV Pipeline 利用卷积神经网络的非线性拟合能力，去近似自然场景中高分辨率图像到低分辨率图像的复杂的退化过程，实现更为真实的超分效果。其次，在数据工程上，除超分素材里庞杂的真实采集的数据外，AV Pipeline 也会构造接近真实场景的合成数据，用于模型的优化过程。最后也是非常重要的一点，为了突破手机端侧的性能瓶颈，AV Pipeline 采用了多种模型小型化的方案，包括剪枝、量化、蒸馏、神经架构搜索等。
AV Pipeline 有 GPU 超分方案和NPU 超分两种方案。GPU 超分方案具有较高的并行效率以及较好的通用性，对于 270P 及以下的视频，可以实现最高 2 倍超分。而 NPU 超分方案则具有更好的超分体验，可以提供 3 倍的超分能力，但是需要专有硬件的支持。这是因为 NPU 提供了直接支持视频格式的接口，可以实现端到端的视频转化，减少了调用开销。
另外，AV Pipeline 针对视频超分提出特有的融合机制，对计算流水进行重排，可以降低超分对内存带宽的需求，提高了推理性能，降低内存读写的功耗。
现在，AV Pipeline 视频超分支持 270P-720P 等多种分辨率，最高可以实现 3 倍效果。根据视频分辨率的不同，AV Pipeline 视频超分插件会灵活采用不同的增强策略，以达到效果和时延功耗的平衡。
声音事件检测：98%识别准确率背后的四大设计亮点
AV Pipeline 另一个重要的插件是声音事件检测，声音事件检测采用主流的深度学习 NN 网络算法模型，重点关注准确率和误闯问题。在设计中，首先，根据声音事件长短不同，AV Pipeline 采用并行计算多个不同卷积，以分析更丰富的特征。
第二，在频谱中很难区分的易混淆声音事件，AV Pipeline 采用注意力机制，对不同声音特征计算贡献度，以区分易混淆的声音类别，并且可用于对误闯声音的抑制。第三，分类后的声音事件，在时间维度（时域上），也使用注意力机制，为贡献度打分。第四，AV Pipeline 设计了融合判决池，得分较高声音事件直接判决，得分较低但不想遗漏的声音事件，采用融合判决池做平滑处理。
AV Pipeline 声音事件检测现在可支持日常使用的 13 种声音，可以用于无障碍功能、健康检测、辅助安全驾驶、安全防盗、事故报警防剐蹭、停车启动安全等更丰富的场景。研发团队针对预置声音类别进行了深度优化、组合验证，当前识别准确率平均在 98% 以上。
最后，AV Pipeline 技术专家透露，AV Pipeline 已经在和视频 App 大厂合作超分商用方案，目前灰度测试阶段。同时，AV Pipeline 也可用于视频编辑软件和直播类应用。接下来，AV Pipeline 会继续完善框架和插件，例如预置视频录制、编辑等业务的 Pipeline，还会新增与人像拍摄美化相关的插件能力。
从 AV Pipeline 在视频领域新的玩法和探索，可以看到华为在持续投入大量核心技术，简化底层开发繁琐流程和难点，用以降低智能化音视频开发的门槛，这是赢得开发者的最好契机。AV Pipeline 的设计与进展，也让业界看到，华为正在探索核心场景和痛点的技术方案，持续加码技术生态实力，未来可期。
————————————————
版权声明：本文为CSDN博主「CSDN资讯」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
【智能化视频开发神器来了，AV Pipeline Kit 架构解析】原文链接：https://blog.csdn.net/csdnnews/article/details/120433512