如论文 CONVOLUTIONAL, LONG SHORT-TERM MEMORY, FULLY CONNECTED DEEP NEURAL NETWORKS(Tara N. Sainath 15)摘要 所述:
CNNs are good at reducing frequency variations, LSTMs are good at temporal modeling, and DNNs are appropriate for mapping features to a more separable space.
CLDNN = CNN + LSTM + DNN,根据以往经验是CNN+DNN 优于 DNN(Tara N. Sainath 13年有两篇CNN+DNN ASR的文章),Deep LSTM ≈ CNN + DNN,所以CLDNN也算是一个“自然”的探索。
15年之前CNN-ASR一般最多做两层,如 Deep convolutional neural networks for LVCSR。
近年语音届眼红CNN在计算机视觉ImageNet的刷榜,开始逐渐把AlexNet、VGGNet、Inception-X这些几十层的CNN + Resnet 用在 ASR 中,典型的如微软的 ACHIEVING HUMAN PARITY IN CONVERSATIONAL SPEECH RECOGNITION。
CNN 相比 DNN 存在计算量过大的问题,所以太深的 CNN 在要求实时解码的ASR场景并不实用;CLDNN = 2 layer CNN + 1 layer LSTM + 2 layer DNN 计算量并不算太大,做到实时解码并不难,业界有些公司上线过 CLDNN 的 ASR 系统。
热心网民 3小时前 0条评论关注了这个问题很久,念念不忘想等大神来回答~最后还是我先来献丑抛砖好了
CLDNN这个概念我初次接触是在
CONVOLUTIONAL, LONG SHORT-TERM MEMORY,FULLY CONNECTED DEEP NEURAL NETWORKS END-TO-END SPOOFING DETECTION WITH RAW WAVEFORM CLDNNS
简单来讲,CNN可以减小频率的偏移变化,LSTM则很适合对时序语音进行建模,DNN就可以对特征进行非线性映射到一个抽象空间进行有效分离。
而上面这个截图在CNN上多加了对输入特征的时域卷积,实现了时域频域卷积进一步减小方差的变化,再下来是时域上的关联和特征的映射。如果是做说话人识别,结合深度说话人特征就可以输出说话人ID。无论是DNN还是LSTM,在某一个效果上确实表现很好,但不能说在语音处理上都面面俱到。总体上来看,所以是比单一模型使用要好,每种NN都有各自的优势,把优势串接起来用就是CLDNN。
Leon晋 3小时前 0条评论- 上一个:Scala 的语言设计出什么缺陷?
- 下一个:原本深圳公安局长李铭任南方科技大学党委书记会对南方科技大学有什么影响?