Institutional Repository, Institute of Psychology, Chinese Academy of Sciences
融合注意力机制与双向长短时记忆网络的基于语音分析的抑郁识别方法 | |
其他题名 | Depression Recognition Method Based on Acoustic Signal Analysis Integrating Attention Mechanism and Bi-LSTM |
赵张1,2,3,4; 汪静莹1,2,3,4; 耿馨佚1,2,3,4; 朱廷劭5![]() | |
第一作者 | 赵张 |
通讯作者邮箱 | [email protected] ; [email protected] |
心理所单位排序 | 5 |
摘要 | 为有效地通过语音识别抑郁状态,在将语音进行滤波、降采样等预处理后通过短时傅里叶变换成时频图,输入本文提出的DD-AudioNet(一种融合注意力机制与双向长短时记忆网络的卷积神经网络)进行训练,提取神经网络的瓶颈层向量作为深度学习特征,共128个,再加上声学、频域、停顿、Mel频率倒谱系数和色度5类常用特征共计563个,基于特征选择方法Lasso选择了26个.用迁移学习方法CORAL拉近训练集和测试集的特征分布,最后通过逻辑回归、随机森林和XgBoost分别进行分类辨识.实验结果表明,本文通过高维度特征定义与选择,设计的DD-AudioNet提取的深度学习特征可有效提升基于语音的抑郁状态辨识能力. |
其他摘要 | In order to effectively classify depressed patients via audio,after preprocessing the audio signal is transformed into spectrogram by short time Fourier transform,then input to proposed DD-AudioNet(an attention based Bi-I_STM convolutional neural network),and extracted 128 deep features from the bottleneck layer through deep neural network. Besides,five types of features are extracted: Acoustical,spectrogram,silent,chroma,MFCC. A total of 563 features in 6 categories and 26 features are selected by Lasso. The transfer learning method C()RAI_ is used to align the feature distribution of the training set and the testing set. Finally,comparing with the classic classification algorithm:Random forest,Xghoost and logistic regression. The experimental results show that proposed deep features can get higher accuracy compared with some traditional features. |
关键词 | 抑郁症 语音处理 注意力机制 双向长短时记忆网络 迁移学习 |
2021 | |
语种 | 中文 |
DOI | 10.15943/j.cnki.fdxb-jns.2021.06.001 |
发表期刊 | 复旦学报(自然科学版)
![]() |
ISSN | 0427-7104 |
卷号 | 60期号:06页码:733-739 |
期刊论文类型 | 实证研究 |
收录类别 | CSCD |
CSCD记录号 | CSCD:CSCD |
引用统计 | |
文献类型 | 期刊论文 |
条目标识符 | http://ir.psych.ac.cn/handle/311026/41471 |
专题 | 中国科学院心理研究所 |
通讯作者 | 朱廷劭; 王守岩 |
作者单位 | 1.复旦大学类脑智能科学与技术研究院 2.复旦大学计算神经科学与类脑智能教育部重点实验室 3.复旦大学上海智能机器人工程技术研究中心 4.复旦大学智能机器人教育部工程研究中心 5.中国科学院心理研究所 |
通讯作者单位 | 中国科学院心理研究所 |
推荐引用方式 GB/T 7714 | 赵张,汪静莹,耿馨佚,等. 融合注意力机制与双向长短时记忆网络的基于语音分析的抑郁识别方法[J]. 复旦学报(自然科学版),2021,60(06):733-739. |
APA | 赵张,汪静莹,耿馨佚,朱廷劭,&王守岩.(2021).融合注意力机制与双向长短时记忆网络的基于语音分析的抑郁识别方法.复旦学报(自然科学版),60(06),733-739. |
MLA | 赵张,et al."融合注意力机制与双向长短时记忆网络的基于语音分析的抑郁识别方法".复旦学报(自然科学版) 60.06(2021):733-739. |
条目包含的文件 | ||||||
文件名称/大小 | 文献类型 | 版本类型 | 开放类型 | 使用许可 | ||
融合注意力机制与双向长短时...基于语音(405KB) | 期刊论文 | 出版稿 | 限制开放 | CC BY-NC-SA | 浏览 请求全文 |
个性服务 |
推荐该条目 |
保存到收藏夹 |
查看访问统计 |
导出为Endnote文件 |
谷歌学术 |
谷歌学术中相似的文章 |
[赵张]的文章 |
[汪静莹]的文章 |
[耿馨佚]的文章 |
百度学术 |
百度学术中相似的文章 |
[赵张]的文章 |
[汪静莹]的文章 |
[耿馨佚]的文章 |
必应学术 |
必应学术中相似的文章 |
[赵张]的文章 |
[汪静莹]的文章 |
[耿馨佚]的文章 |
相关权益政策 |
暂无数据 |
收藏/分享 |
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论