当前位置:首页 > 文化 > 文化知道 > CLDNN 模型是同种什么的思考？为什么它的效果要优化 DNN？

CLDNN 模型是同种什么的思考？为什么它的效果要优化 DNN？

发布日期：2018-06-02 来源：财富国际在线阅读：

CLDNN 模型是同种什么的思考？为什么它的效果要优化 DNN？ Leon晋 3小时前 37 dnn 本题已收录至百晓知道圆桌：人工智能 · 语言智能，更多「人工智能」相关话题欢迎关注讨论

0 赞 0 踩

其他回答

如论文 CONVOLUTIONAL, LONG SHORT-TERM MEMORY, FULLY CONNECTED DEEP NEURAL NETWORKS（Tara N. Sainath 15）摘要所述： UJK财富国际

CNNs are good at reducing frequency variations, LSTMs are good at temporal modeling, and DNNs are appropriate for mapping features to a more separable space.

CLDNN = CNN + LSTM + DNN，根据以往经验是CNN+DNN 优于 DNN（Tara N. Sainath 13年有两篇CNN+DNN ASR的文章），Deep LSTM ≈ CNN + DNN，所以CLDNN也算是一个“自然”的探索。UJK财富国际

15年之前CNN-ASR一般最多做两层，如 Deep convolutional neural networks for LVCSR。UJK财富国际

近年语音届眼红CNN在计算机视觉ImageNet的刷榜，开始逐渐把AlexNet、VGGNet、Inception-X这些几十层的CNN + Resnet 用在 ASR 中，典型的如微软的 ACHIEVING HUMAN PARITY IN CONVERSATIONAL SPEECH RECOGNITION。UJK财富国际

CNN 相比 DNN 存在计算量过大的问题，所以太深的 CNN 在要求实时解码的ASR场景并不实用；CLDNN = 2 layer CNN + 1 layer LSTM + 2 layer DNN 计算量并不算太大，做到实时解码并不难，业界有些公司上线过 CLDNN 的 ASR 系统。UJK财富国际

热心网民 3小时前 0条评论

0 赞 0 踩

关注了这个问题很久，念念不忘想等大神来回答~最后还是我先来献丑抛砖好了UJK财富国际

CLDNN这个概念我初次接触是在UJK财富国际

CONVOLUTIONAL, LONG SHORT-TERM MEMORY,FULLY CONNECTED DEEP NEURAL NETWORKS END-TO-END SPOOFING DETECTION WITH RAW WAVEFORM CLDNNS

简单来讲，CNN可以减小频率的偏移变化，LSTM则很适合对时序语音进行建模，DNN就可以对特征进行非线性映射到一个抽象空间进行有效分离。 UJK财富国际

而上面这个截图在CNN上多加了对输入特征的时域卷积，实现了时域频域卷积进一步减小方差的变化，再下来是时域上的关联和特征的映射。如果是做说话人识别，结合深度说话人特征就可以输出说话人ID。无论是DNN还是LSTM，在某一个效果上确实表现很好，但不能说在语音处理上都面面俱到。总体上来看，所以是比单一模型使用要好，每种NN都有各自的优势，把优势串接起来用就是CLDNN。UJK财富国际

Leon晋 3小时前 0条评论

0 赞 0 踩

关键词 :

上一个：Scala 的语言设计出什么缺陷？
下一个：原本深圳公安局长李铭任南方科技大学党委书记会对南方科技大学有什么影响？

相关资讯

图文资讯

点击排行

关于我们联系我们招聘信息免责申明广告服务网站地图百度地图 TAG标签