首页>学术资源 > 学术资讯 > 论文翻译ConvolutionalNeuralNetworksforSmallfootprintKeywordSpotting人肉计算机,EditSprings,艾德思

论文翻译ConvolutionalNeuralNetworksforSmallfootprintKeywordSpotting人肉计算机,EditSprings,艾德思

网络 | 2019/01/02 09:20:21 | 250 次浏览

Abstract:我们探索使用CNNs进行小型关键词检测(KWS)任务,CNNs对KWS是有吸引力的,因为其的参数远少于DNN.我们在工作中考虑两种不同的应用,一种是限制KWS系统的乘法次数,另一种是限制参数数量.我们提出新的CNN架构来解决每个应用程序的限制.我们发现,与DNN相比,CNN架构提供的错误拒绝率(FRR)相对提高了27-44％,同时符合每种应用的约束条件.

随着移动设备的快速发展,语音相关技术正变得越来越流行.例如,Google提供了在安卓手机上通过语音[1]进行搜索的功能,同时Google Now,Apple的Siri,微软的Cortana和亚马逊的Alexa等个人助理都利用语音识别来与这些系统进行交互 .谷歌已经实现了一种完全免提的语音识别体验,称为"Ok Google'[2],它持续监听特定关键词以启动语音输入.该关键字检测(KWS)系统在移动设备上运行,因此必须具有较小的内存占用和较低的计算能力.

Google [2]目前的KWS系统使用深度神经网络(DNN),该网络经过训练可以预测子关键字目标. DNN已被证明优于关键字/填充隐藏马尔可夫模型系统,这是一种常用的关键字检测技术.此外,DNN在设备上运行很有吸引力,因为通过改变网络中的参数数量可以轻松调整模型的大小.

但是,我们认为改变神经网络架构可能会为我们的KWS任务进一步提供改进.具体而言,卷积神经网络(CNN)[3]在过去几年中已经成为声学建模的主流,在各种小型和大型词汇任务中超过DNNs[4,5,6].

由于各种原因,与DNN相比,CNN具有吸引力.首先,DNN忽略输入拓扑,因为输入可用任何(固定)顺序呈现,而不会影响网络的性能[3].然而,语音的频谱表示在时间和频率上具有很强的相关性,并且通过在输入空间的局部区域上共享的权重来建模与CNN的局部相关性已被证明在其他领域中是有益的[7].其次,DNN没有明确设计用于模拟语音信号的平移方差,这可能由于不同的说话风格而存在[3].更具体地说,不同的说话风格导致共振峰在频域中移位.这些说话风格要求我们应用各种说话者自适应技术来减少特征变化.虽然足够大的DNN确实可以捕获平移不变性,但这需要具有大量训练示例的大型网络.另一方面,CNN通过平均不同本地时域和频域中的隐藏单元的输出来获得具有更少参数的平移不变性.

考虑到CNN在改善性能和缩小模型尺寸方面对DNN的优势,我们有动力去研究CNN的KWS [4,5,6].在本文中,我们将讨论用于KWS的两个CNN应用程序.首先,我们考虑必须限制KWS系统的总体计算量问题,即参数和乘法.有了这个限制,这里不能用典型的体系结构,这些结构仅适用于CNN和在频域池化[8].因此,我们引入了一种新的CNN架构,该架构不会在频域池化,而是用卷积核在频域步进,以遵守计算约束问题.其次,我们考虑限制KWS系统的参数总数.对于这个问题,我们表明可通过在时域和频域池化来提高性能,这是第一次表明不使用多个卷积块对语音有效[5,9].

我们在由14个不同短语组成的KWS任务上评估我们提出的CNN架构.通过在每小时1次误报警(FA)的操作阈值处查看错误拒绝(FR)率来测量性能.在我们限制乘法的任务中,我们发现在卷积核频域上步进的CNN超过了DNN,FR有超过27％的相对改善.此外,在限制参数的任务中,我们发现时域池化的CNN超过了DNN,有超过41％的FR改善,比传统仅在频域上池化的CNN提高了6％[8].

本文的其余部分如下安排.在第2节中,我们概述了本文中使用的KWS系统.第3节介绍了我们在限制计算和参数时探索不同CNN架构.实验步骤在第4节中,而比较CNN和DNN的结果在第5节中.最后,第6节总结了文章并讨论了未来的工作.

2.Keyword Spotting Task

图1为一个DNN KWS 系统{2}的框图.理论上说,我们的系统由三部分组成.首先,在特征提取模块中,每25ms计算40维log-mel filterbank特征,帧移位为10ms.接下来,在每一帧,我们向左堆叠23帧,向右堆叠8帧,并将其输入DNN.

基准DNN架构由3个隐藏层组成,其中128个隐藏单元/层和softmax层.每个隐藏层使用非线性的ReLU.softmax输出层包含一个输出目标,用于检测关键字短语中的每个单词,以及一个额外的输出目标,该目标表示不属于关键字中任何单词的帧(在图1中表示为'填充符 ').用分布式异步梯度下降优化交叉熵标准去训练网络权重[10].最后,在后验处理模块中,来自DNN的单个帧后验分数被组合成对应于关键字的单个分数.有关这三个模块的更多详细信息,请参阅[2].

3.CNN Architectures

在本节中,我们将CNN架构描述为第2节中描述的DNN的替代方案.特征提取和后处理阶段与第2节保持相同.

CNN 描述

典型的CNN架构如图2所示.首先,给出输入信号V∈Rt×f,其中t和f分别是时域和频域的输入特征维度.权重矩阵W∈R(m×r)×n与全输入V卷积.卷积核大小为m×r,其中m <= t且r <= f.这种权重共享有助于模拟输入信号的局部相关性.权重矩阵具有n个隐藏单元(即特征图).卷积核可以在时域上以非零量s和在频域上以p步进.从而,总体卷积运算产生大小为(t-m + 1)/s ×(f-r + 1)/v的n个特征图.

在卷积之后,最大池化层有助于消除由于说话风格/信道失真等存在的时频空间的可变性.给定池化尺寸为p×q,池化执行下采样操作以减少时频空间.出于本文的目的,我们考虑非重叠池,因为它没有显示对语音有帮助[8].池化后,时频空间具有维度(t-m + 1)/ ×(f -r + 1)/.

. 典型卷积框架

经过大量测试并证明在许多LVCSR任务中运行良好的典型卷积体系结构[6,11]是使用两个卷积层.假设输入到CNN的log-mel是t×f = 32×40,那么通常第一层频域上卷积核尺寸为r = 8.该架构对卷积核的大小不太敏感,尽管常见的做法是选择时域卷积核尺寸达到总输入大小的2/3,即m = 20.卷积运算在时域和频域上的步进s = 1和v = 1.接下来,仅执行频率上的非重叠最大池化,其中池化层的q = 3.第二个卷积层在频域具有r = 4的卷积核,且不执行最大值池化.

例如,在我们的任务中,如果我们想将参数数量保持在250K以下,那么一个典型的CNN架构如表1所示.在本文中,我们将此架构称为cnn-trad-fpool3.该体系结构具有2个卷积,一个linear low-rank和一个DNN层.在第5节中,我们将展示与DNN相比这种架构对KWS的好处,特别频域池化.

然而,这种架构的一个主要问题是卷积层中的大量乘法,由于三维输入涵盖时间,频率和特征图数,因此在第二层中乘法计算急剧增长.对于功率受限的小型KWS任务,这种架构是不可行的,其乘法是有限的.此外,即使我们的应用程序受到参数而非多个乘法限制,其他时域池化的体系结构可能更适合KWS.下面我们介绍替代的CNN架构,以解决限制参数或乘法的任务.

Limiting Multiplies

我们的第一个问题是找到一个合适的CNN架构,我们将乘法次数限制为500K.在尝试了几种体系结构之后,一种限制乘法数量的解决方案是使用一个卷积层而不是两个卷积层,并且卷积核在时域上包含整个时域.然后将该卷积层的输出传递到线性low-rank,然后传递到2个DNN层.表2显示了只有一个卷积层的CNN架构,我们将其称为cnn-one-fpool3.为简单起见,我们从表中省略了s = 1和v = 1.注意,通过使用一个卷积层,与cnn-trad-fpool3相比,第一个卷积层之后的乘法数减少了10倍.

频域池化(q = 3)需要卷积核步进v = 1,这也增加了乘法数.因此,我们比较了不在频域池化的架构,而是在频域步进卷积核.表3示出了当我们具有r = 8卷积核并且v = 4的步进(即,50％重叠)的CNN结构,以及v=8步进(无重叠)时.我们将这些分别称为cnn-one-fstride4和cnn-one-fstride8.为简单起见,我们省略了线性和DNN层,因为它们与表2相同.表3显示,如果我们通过v> 1步进,我们就可以减少乘法,因此可以增加隐藏层数量n比表2中的cnn-one-fpool3架构大3-4倍.

3.4. Limiting Parameters

上一节中介绍的模型的一个问题是,当保持乘法固定时,模型的参数数量仍远小于250K.然而,增加CNN参数通常会导致进一步的改进[6].在其他应用中,我们希望设计一个模型,其中我们保持参数的数量固定,但允许乘法变化.在本节中,我们将探讨与cnn-trad-fpool3不同的CNN架构,其中我们将模型大小限制为250K,但不限制乘法.

提高CNN性能的一种方式是增加特征图的数量.如果我们想要增加特征图但保持参数不变,我们必须在时间和频率上探索采样.鉴于我们已经在cnn-trad-fpool3中在频域进行池化,在本节中我们将探索时域方向的下采样. 以前已经探索过在时域的常规池化用于声学建模[4,8],但没有获得希望.我们的基本原理是声学建模,我们想要分类的子字单元(即依赖于上下文的状态)在非常短的持续时间(即10-30ms)内发生.因此,时域池化是有害的.但是,在KWS中,关键字单元出现的时间要长得多(即50-100ms).因此,我们探索是否可以通过步进或池化在时域对信号进行二次采样,进而改进cnn-trad-fpool3.应该注意的是,在使用多个卷积子网络时,时域池化会有所帮助[5,9].然而,这种方式增加了参数的数量,并且对于我们的KWS任务来说计算成本很高.据我们所知,这是对具有较长声学单元的传统时域下采样的第一次探索.

. Striding in Time

首先,我们比较了使用s> 1的时域卷积核步进大小的架构.表4显示了我们改变时域卷积核步进的不同CNN架构.我们将这些体系结构称为cnn-tstride2,cnn-tstride4和cnn-tstride8.为简单起见,我们省略了DNN层,并且某些变量对于所有实验都保持不变,即频域步进v = 1和时域池化p = 1.需要注意的是,随着我们增加时域卷积核的步进,我们可以增加特征图的数量n使得参数的总数保持不变.我们希望时域的下采样不会降低性能,而增加特征图数量将提高性能.

3.4.2. Pooling in Time

时域卷积核步进的替代方案是以非重叠量在时域池化.表5显示了我们改变时域池化值p的配置.我们将这些架构称为cnn-tpool2和cnn-tpool4.为简单起见,我们省略了对于所有实验保持不变的某些变量,即时域和频域步进s = 1和v = 1.请注意,通过时域池化,我们可以增加特征图的数量n以保持参数的总数不变.

4. Experimental Details

为了将所提出的CNN方式与基准DNN KWS系统进行比较,我们选择了14个短语并收集了包含这些短语中的每一个的大约10K-15K的话语.我们还收集了一组更大的约396K语言,其中不包含任何关键词,因此被用作"负面'训练数据.然后,话语随机分配训练,development和评估集,比例分别为80:5:15.

接下来,我们创建了嘈杂的训练和评估集,通过在干扰数据集之间随机抽取[-5dB,+ 10dB]之间的SNR,人为地添加汽车和自助餐厅噪声.模型在嘈杂的条件下进行训练,并在干净和嘈杂的条件下进行评估. 通过绘制接收器操作曲线(ROC)来测量KWS性能,该曲线计算每个误报(FA)速率的错误拒绝(FR)率.每FA率中FR越低越好.选择KWS系统阈值以对应于该组上每小时语音1FA.

5. Results

. Poolingin Frequency

首先,我们分析如第节所述的典型CNN架构怎样与KWS的DNN进行比较.虽然CNN和DNN(250K)的参数数量相同,但CNN的乘法数量为9M.为了理解KWS任务的频率池化的行为,我们比较了当我们没有池化p = 1时的CNN性能,以及池化p = 2和p = 3的池,保持所有三个实验的参数数量不变. 图3a和3b显示,对于干净和有噪声的语音,随着我们将池化大小从p = 1增加到p = 2,CNN性能提高,并且在p = 3后似乎饱和.这与声音模型观察到的结果一致[8].更重要的是,性能最佳的CNN(cnn-trad-fpool3)在1 FA / hr的工作点干净和嘈杂条件下,与DNN相比,显示出超过41％的相对改善.鉴于这些有希望的结果,我们接下来在比较乘法和参数时比较CNN和DNN的性能.

5.2. Limiting Multiplies

在本节中,我们比较了节中描述的各种CNN架构,当时我们将多层的数量限制为500K.图4a和4b示出了干净和有噪声的语音的结果.性能最佳的系统是cnn-one-fstride4,我们步进频域卷积核以50％重叠,但不在频域池化.这比具有非重叠卷积核步进的cnn-one-fstride8提供了更好的性能.此外,如果提供的改进超过了在频域池化的cnn-one-fpool3.虽然在频域池化是有帮助的,如第节所示,它的计算成本很高,因此我们必须大幅减少特征图以限制计算.因此,如果我们处于乘法有限的情况下,优选的CNN架构以重叠方法步进卷积核. 性能最佳的系统cnn-one-fstride4在1 FA / hr的工作点上超过DNN,在干净情况下相对改善了27％和在嘈杂情况下相对改善了29％.

5.3. Limiting Parameters

在本节中,我们将我们匹配乘法数的CNN架构与节中性能最佳的系统进行比较,即cnn-trad-fpool3.图5a和5b显示了当我们在频域步进卷积核时不同架构的性能,如节所述.所有步进时域卷积核的体系结构的性能都比cnn-trad-fpool3略差,后者没有步进时域卷积核.

相比之下,图6a和6b比较了我们池化时域卷积层时的性能.系统cnn-tpool2,其时域池化p = 2,是性能最佳的系统.这些结果表明,时域池化,由此得出在下采样之前对相邻帧之间的关系建模,比先验地选择要卷积哪些相邻帧时域步进更有效.此外,在预测长关键字单元时,时域池化在干净语音方面比cnn-trad-fpool3提供了6％的相对提高,但在噪声方面与cnn-trad-fpool3具有相似的性能.此外,cnn-tpool2在干净语音方面相对于DNN的相对改善率为44％,在噪声方面相对改善率为41％.据我们所知,这是第一次在没有子网络的情况下时域池化对语音任务有帮助.

6. Conclusions

在本文中,我们将探索用于KWS任务的CNN.当我们限制乘法或参数的数量时,我们将CNN与DNN进行比较.在限制乘法运算时,我们发现在频域移动卷积核在干净和嘈杂的条件下相对于DNN的性能相对提高了27％以上.在限制参数时,我们发现在干净和嘈杂的条件下,时域池化结果对DNN的相对改进超过41％.

更多科研论文服务，动动手指，请戳论文润色、投稿期刊推荐、论文翻译润色、论文指导及修改、论文预审！

语言不过关被拒？美国EditSprings--专业英语论文润色翻译修改服务专家帮您！