地平线开源基于全球最大多领域中文语音识别数据集WenetSpeech的流式模型

发布时间：2022-07-09 02:04:05 语音杂谈

本文介绍了地平线开源基于全球最大多领域中文语音识别数据集WenetSpeech的流式模型，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

摘要：

日前，地平线语音组开源了基于全球最大多领域中文语音识别数据集 WenetSpeech的流式模型。依托于地平线强大的艾迪开发平台，该模型拥有夯实的云端训练赋能，识别效果更优，使用效果更鲁棒，并可以同时支持流式和非流式语音识别场景和任务。

模型开放地址：

https://gzcb.cc/GitHub

WenetSpeech数据集的诞生

在深度学习的推动下，语音识别技术和应用均取得了突飞猛进的发展，搭载语音识别技术的相关产品和服务，已经广泛应用到我们生活的各个方面。然而语音识别的问题依旧存在，例如噪声场景下识别错误率高、识别精度易受方言口音影响等，而大规模多领域的语音数据集能够较好地解决这一困扰。

2021年10月，为了解决开源中文语音数据集数据量少、场景单一、缺乏挑战性、不能反映研究模型在大数据量和复杂场景下的泛化能力的问题，西北工业大学音频语音和语言处理研究组(ASLP Lab)、出门问问、希尔贝壳联合发布10000小时多领域中文语音识别数据集WenetSpeech。

WenetSpeech除了含有10000+小时的高质量标注数据之外，还包括2400+小时弱标注数据和22400+小时的总音频，覆盖各种互联网音视频、噪声背景条件、讲话方式，来源领域包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等10大场景。WenetSpeech将开源中文语音识别训练数据规模提升到一个新的高度，但扩展和完善的空间尚在。

WenetSpeech数据集针对流式模型的优化与提升

虽然WenetSpeech将开源中文语音识别训练数据规模提升到一个新的高度，但仍存优化、提升的空间，以下两点尤为突出：

痛点1 - 缺乏基础设施保障，对开发者不友好

WenetSpeech数据集曾经尝试过通过线下单机进行训练，但遇到了算力不足的问题。算力是大参数量模型训练的基础保障，一般采用分布式训练的方法。在训练时，数据被分派给众多训练机器，再通过反馈及标志变量重新组合在一起，从而创建完整的训练模型，对GPU集群性能、网络传输带宽等有非常高的要求。痛点2 - 未支持流式模型我们生活中常见的场景90%以上都为流式语音识别（实时），如手机上的语音搜索、语音输入法、家居中的智能音箱、汽车中的智能座舱等。之前，WenetSpeech数据集虽然也开放了预训练模型，但该模型为非流式（实时）模型。非流式（实时）模型只有在用户说完所有的话后，才能开始做语音识别，因此不能获得实时的语音识别结果，延迟极高，使用场景高度受限。地平线语音组对WenetSpeech数据集的优化围绕WenetSpeech数据集的痛点，地平线语音组利用品牌及平台优势，进行了针对性的部署。地平线语音组致力于基于智能座舱和AIoT场景的多模态语音交互技术研发和落地。在车载领域，该组基于地平线车载的征程系列芯片，已落地多款前装智能座舱交互系统，如长安、奇瑞、五菱等厂商的多款车型。在 AIoT 领域，其信号处理模组、语音唤醒、云端语音识别服务等技术已落地多款 AIoT 设备，如小米智能音箱、小雅智能音箱、步步高学习机、图灵玩具机器人、峰米投影仪等。地平线语音组在端到端语音识别、多模态语音识别、前端信号处理等领域都处于领先地位。动作1 - 地平线强大基础设施赋能WenetSpeech流式模型的训练及开发地平线拥有大算力计算平台征程与旭日，分别适用于自动驾驶及AIoT场景。同时拥有全面、开放的AI工具链体系，为开发者提供了便捷、易用的平台系统，从开放易用的AI芯片开发软件栈以及丰富场景算法仓库天工开物，到基于seL4安全微内核架构的实时车载操作系统TogetherOS，再到云端数据训练平台艾迪。此次流式模型的分布式训练，主要倚赖于艾迪。地平线艾迪是面向AI软件产品开发及迭代需求打造的一站式工具平台，能够在线管理数百台服务器协同工作，为AI开发者提供海量数据存储、处理能力，半自动化/自动化标注能力，大规模分布式训练及模型管理能力和自动化分析、处理产品问题等能力。其特点包括：

高效的数据挖掘：精准定位关键产品问题，保障极致用户体验。同时，锚定对模型最有价值的数据，大幅减小待处理数据规模，节约百倍成本，聚焦AI性能提升。
迭代流程自动化：数据驱动系统自动运转，大幅减少人工介入；通过统一流程迭代范式，构建模型生产自动流水线，能使AI自我进化，持续提升产品竞争力。
降低研发成本：存储、计算业务联合优化，资源集中管理、调度，用得越多、省得越多。

动作2 - WenetSpeech流式模型构建地平线开源的新流式模型（地平线新模型，如下图）采用 U2++ 流式结构，并训练 50 个 epoch。相比于之前开源的非流式模型（原有模型，训练26个 epoch），此模型具备双向的Attention Decoder, 能同时学习语音序列的前向和后向信息，学习能力更强，效果更优更鲁棒。地平线新模型能同时支持流式和非流式场景，并且取得相比原有模型更优更稳定的识别结果。

模型/测试集	测试方法	Dev	Test_Net	Test_Meeting
原有模型	非流式	8.69	9.7	15.59
流式（chunk16）	不支持
地平线新模型	非流式	8.36	9.97	15.47
流式（chunk16）	8.60	11.08	16.32

地平线始终致力于实现行业、生态的共赢，此次开放的流式（实时）模型，极大地拓展了该模型的使用场景，对于语音的相关研究人员、广大的开发者和从业者都有非常积极的意义。地平线已经在云端ASR服务中上线了基于WeNet的端到端语音识别系统。和原有的传统语音识别系统相比，端到端系统错误率相对下降20%以上，识别速度提高1倍，内存占用仅为原来的1/10，系统性提升显著；同时端到端系统的训练流程大幅度简化，研发效率也得到巨大提升。未来展望展望1 - 利用地平线基础设施充分赋能WenetSpeech数据集的场景应用目前，地平线语音组在积极探索端到端系统在面向车载的征程系列芯片，面向 AIoT 的旭日系列芯片的应用和落地，并取得阶段性成果。未来，地平线还将探索进一步向智能汽车、AIoT 行业开放基于地平线芯片的语音交互能力和解决方案。展望2 - 持续赋能，全面开源基于“全维利他”的开放生态战略，地平线致力于将自身自主创新的技术、突破性产品与解决方案转化为更多智能汽车产业生态合作伙伴的商业价值，使技术的源头活水能够扩散、渗透至整个产业，灌溉AI产业生态的“千亩良田”。地平线将以技术开放、高效支撑、共同开发、灵活服务为合作宗旨，与产业链上下游所有合作伙伴、开发者建立开放共赢的合作关系，驱动全新商业价值。我们期待与所有行业机构、开发者一起，共建、共创人工智能的全新篇章！