Editsprings@163.com (周一至周日,9:00-23:00) | (周一至周日,9:00-23:00)

论文翻译ConvolutionalRecurrentNeuralNetworksforSmallFootprintKeywordSpotting人肉计算机,EditSprings,艾德思

网络 | 2019/01/02 09:20:21  | 149 次浏览



摘要:关键词定位(KWS)是人机技术接口的重要组成部分,在低误报(FA)速率下最大化检测精度,同时最小化占用空间,延迟和复杂性是KWS的目标.为实现这些目标,我们研究卷积循环神经网络CRNNs.被大量一流语音识别系统的启发,我们结合卷积层和循环层的优势,利用局部结构和远程背景.我们分析了架构参数,提出训练策略去提高性能,只有大约230K参数时,我们的CRNN模型达到了可接受的低延迟,在5dB信噪比,下获得了准确率.

关键词:关键词定位,语音检测,卷积神经网络,循环神经网络.

1.介绍

        在人类彼此互动最常用见方法的推动下,会话式人机交互技术在许多应用中变得越来越流行.高性能语音到文本转换和文本到语音转换构成了这种接口的两个重要方面,由于大多数计算算法是为文本输入和输出开放的.对话接口的另一个重要方面是关键词定位,也称为唤醒词检测,以便能够根据用户提供的语音输入在不同的计算状态间进行转换,KWS系统旨在从连续的音频流中检测特定关键字.由于他们的输出决定了设备的不同状态,因此在非常低的误报率(FA)的同时获得非常高的检测精度对于实现令人满意的用户体验至关重要.典型应用存在于有背景音频,混响失真干扰的环境中,以及播放声音的设备,在设备中KWS被嵌入着.一个KWS系统应该在多种情况中表现出强劲性能.未来,这个计算复杂度和模型尺寸是被KWS系统重点关心的,因为他们一般嵌入在消费设备中,该设备的内存和计算资源是有限的,例如小型手机或者小型家庭传感器.

        已经有数百万设备中嵌入着KWS系统,KWS的传统应用是基于具有序列搜索算法的隐马尔可夫模型的{1}.随着深度学习的进步和可用数据的增长,由于其卓越的性能,一流的KWS已经被基于深度学习的方式所取代{2}.基于深度学习的KWS系统通常用深度卷积神经网络(DNNs)结合压缩技术{3,4}或者多种训练方法{5,6}.DNNs一个潜在的缺点是,它忽略了输入的结构和上下文,并且音频输入可以在时域或频域具有强依赖性.为了通过共享权重利用这种本地链接模式,CRNNs被探索{7,8}.CRNNs一个潜在的缺点是他们不能在没有宽滤波器或很大深度的情况下在整个帧上建模上下文.具有CTC loss的RNNs也被研究用于KWS,不像前面提到的具有cross-entropy(交叉熵CE)DNN和CNN模型{2-6}.然而,鉴于此类系统应用的雄心勃勃,在低误报率的情况下获得一个高的准确率是困难的.和DNNs相似,RNNs的一个潜在的限制是对输入特征进行建模,而不学习时间和频率步骤之间的结构,最近,{11}提出一种带有CTC loss的CRNN算法.然而,尽管模型尺寸大,类似于RNN,但是不能获得的FA率下的高精度.

        在这篇文章中,我们专注于开发一个产品级的KWS系统,利用带有CE loss的CRNNs,它具有小的模型空间,应用于一个独立的关键词,我们的目的是去结合CNNs和RNNs长处,随着训练期间应用其他策略去提高整体绩效,同时保持小尺寸.本文的剩余部分如下:第二章我们描述了小型KWS的端到端的结构和训练方式,在第三章,我们解释了实验和相应的结果.在第四章中,我们得出我们的结论.

2.小型关键词定位

端到端的结构

我们专注于一个规范的CRNNs结构,被成功的大规模语音识别系统的启发{12-14},为了使这些架构适用于小型KWS,模型尺寸需要缩小两到三个数量级.我们将分析不同参数的对性能的影响,同时缩小模型的大小.

图1显示了具有相应参数的CRNN结构,原始时域输入被转换为每通道能量归一化(PCEN)mel谱图{8},用于简洁的表示和有效的训练.我们尝试的其他输入表示对于具有相当大小的模型体系结构产生了更差的性能.2D的通道能量归一化特征作为卷积层的输入,它在时间和频率上采用二维滤波,卷积层的输出被馈送到双向循环层,这可能包括门控循环单元(GRUs){15}或长短期记忆(LSTM)单元并处理整帧.循环层的输出被输入全链接层(FC).最后,在两个神经元上应用softmax解码,去获取一个相应的标量分数.我们在所有层中使用整流线性单元作为激活函数.

                         

端到端训练

 

在语音识别中,具有循环层的大规模架构通常使用CTC loss的变体去解码最可能的输出标签.除了由于目标的条件独立性假设导致的建模限制之外,CTC损失具有高计算复杂度并且通常仅在模型容量足够大以有效地从大数据集中学习时才产生良好性能.由于我们专注于小型架构,因此在训练期间优化的损失函数被选择为估计和目标二进制标签的CE损失,指示帧是否对应于关键字.

不像CTC,我们采用CE loss去训练,所以训练样本的精准对齐是非常重要的.我们用Deep Speech 2 {14},一个大规模语音识别模型去获取每个时间实例的关键字字符Ck(1

4结论

我们研究了小型KWS系统的CRNN.我们提出了模型大小和性能之间的权衡,并展示了给出权衡的参数的最佳选择.该模型的容量限制具有各种含义.仅通过增加正样本的数量会限制性能增益,然而,hard negative mining 改善了性能.应仔细选择训练集以反映应用环境,例如噪声水平或远场条件.总体而言,在0.5 FA /小时(从用户的角度来看这是一个可接受的值),我们的模型分别在5 dB,10 dB和20 dB 信噪比值的测试集中达到%,%和%的准确度.我们的数值性能结果似乎比文献中的其他KWS模型更好.然而,由于数据集和实际关键字(即推理任务)的不同,直接比较没有意义.鉴于KWS任务中的人员表现非常出色,我们仍然认为在绩效方面还有进一步改进的空间.

 

 

更多科研论文服务,动动手指,请戳 论文润色投稿期刊推荐论文翻译润色论文指导及修改论文预审

语言不过关被拒?美国EditSprings--专业英语论文润色翻译修改服务专家帮您!

上一篇:【严正申明】关于我公司网站被恶意抄袭严正声明

下一篇:孔雀开锦屏双鱼跳龙门,EditSprings,艾德思

特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。

凡注明来源为“EditSprings”的论文,如需转载,请注明来源EditSprings并附上论文链接。

最热论文