CLDNN 模型是同种什么的思考?为什么它的效果要优化 DNN?

发布日期:2018-06-02 来源:财富国际在线 阅读:
CLDNN 模型是同种什么的思考?为什么它的效果要优化 DNN? Leon晋 3小时前 37 dnn 本题已收录至百晓知道圆桌:人工智能 · 语言智能,更多「人工智能」相关话题欢迎关注讨论
0 0
其他回答

如论文 CONVOLUTIONAL, LONG SHORT-TERM MEMORY, FULLY CONNECTED DEEP NEURAL NETWORKS(Tara N. Sainath 15)摘要 所述: UJK财富国际

CNNs are good at reducing frequency variations, LSTMs are good at temporal modeling, and DNNs are appropriate for mapping features to a more separable space.

CLDNN = CNN + LSTM + DNN,根据以往经验是CNN+DNN 优于 DNN(Tara N. Sainath 13年有两篇CNN+DNN ASR的文章),Deep LSTM ≈ CNN + DNN,所以CLDNN也算是一个“自然”的探索。UJK财富国际

15年之前CNN-ASR一般最多做两层,如 Deep convolutional neural networks for LVCSR。UJK财富国际

近年语音届眼红CNN在计算机视觉ImageNet的刷榜,开始逐渐把AlexNet、VGGNet、Inception-X这些几十层的CNN + Resnet 用在 ASR 中,典型的如微软的 ACHIEVING HUMAN PARITY IN CONVERSATIONAL SPEECH RECOGNITION。UJK财富国际

CNN 相比 DNN 存在计算量过大的问题,所以太深的 CNN 在要求实时解码的ASR场景并不实用;CLDNN = 2 layer CNN + 1 layer LSTM + 2 layer DNN 计算量并不算太大,做到实时解码并不难,业界有些公司上线过 CLDNN 的 ASR 系统。UJK财富国际

热心网民 3小时前 0条评论
0 0

关注了这个问题很久,念念不忘想等大神来回答~最后还是我先来献丑抛砖好了UJK财富国际

CLDNN这个概念我初次接触是在UJK财富国际

CONVOLUTIONAL, LONG SHORT-TERM MEMORY,FULLY CONNECTED DEEP NEURAL NETWORKS END-TO-END SPOOFING DETECTION WITH RAW WAVEFORM CLDNNS

简单来讲,CNN可以减小频率的偏移变化,LSTM则很适合对时序语音进行建模,DNN就可以对特征进行非线性映射到一个抽象空间进行有效分离。 UJK财富国际

而上面这个截图在CNN上多加了对输入特征的时域卷积,实现了时域频域卷积进一步减小方差的变化,再下来是时域上的关联和特征的映射。如果是做说话人识别,结合深度说话人特征就可以输出说话人ID。无论是DNN还是LSTM,在某一个效果上确实表现很好,但不能说在语音处理上都面面俱到。总体上来看,所以是比单一模型使用要好,每种NN都有各自的优势,把优势串接起来用就是CLDNN。UJK财富国际

Leon晋 3小时前 0条评论
0 0

关于我们 联系我们招聘信息免责申明广告服务 网站地图 百度地图 TAG标签

Copyright@2018-2022 Cfgjzx.Com 财富国际在线 版权所有 All Rights Reserved   
财富国际提供:最新财富资讯、房产资讯、股票资讯、区块链、投资理财、保险导购、健康产品、公私募基金,易经等资讯及服务.