您好,欢迎来到锐游网。
搜索
您的当前位置:首页INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING

INVESTIGATING LOCAL AND GLOBAL INFORMATION FOR AUTOMATED AUDIO CAPTIONING WITH TRANSFER LEARNING

来源:锐游网

Abstract & Introduction & Related Work

  • 研究任务
    自动音频字幕
  • 已有方法和相关工作
  • 面临挑战
  • 创新思路
  • 实验结论
    发现局部信息和抽象表征的学习对AAC来说比全局信息和时间关系的学习更为关键

提出下面两种语音主题模型:

  1. 局部音频主题。(a) 声音事件,可由发声对象实体(“一个男性”)、发出声音的动词(“说话”)、声音的物理属性(“大声”)来描述
  2. 全局音频主题。(a) 声音场景,如准确的场景位置描述(“市中心”),和抽象的描述(“在远处”)。(b) 高层抽象,包括内容推断(“在一个会议上”),和情感表达(“恼人”)

TRANSFER LEARNING FOR AAC

我们在AT和ASC任务上实验了一个CNN和一个CRNN预训练编码器网络。我们打算探索抽象嵌入(CNN)或时间信息(CRNN)是否对AAC性能有更大的影响

AT 提供详细的音频事件信息,而ASC旨在 描绘出环境的特征

AAC Model Architecture

Audio encoder

十层CNN来做audio tagging
五层CRNN来做声音事件检测

Text decoder

隐藏状态h,WE表示word embedding

EXPERIMENTAL SETUP

Datasets

  1. AudioSet
  2. DCASE
  3. Clotho
  4. Audiocaps

System configuration

RESULTS AND DISCUSSION

CONCLUSION

据观察,局部信息(AT)和抽象嵌入(CNN10)对ACC更为关键。我们希望在未来的工作中探索多任务训练等方法,以更好地解决字幕中的不同主题。主题融合也可以从粗放型转向精细型,例如,分别对声音事件的不同特征、关系、确切的和抽象的声学场景进行建模,同时对高级知识注入抽象

Remark

一个简单清晰又work的框架,用了迁移学习,总体还不错

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- ryyc.cn 版权所有

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务