摘要
本发明公开了一种用于抑郁症检测的音视频融合多模态评估方法,涉及智能技术和图像检测技术领域。本发明即为多模态抑郁症评估框架实现评估的方法,能够有效提取面部表情和语音数据中的深层特征,并通过优化的跨模态交互机制实现多模态信息的高效融合,且本发明提出的框架不仅能够捕捉面部微表情的时空动态变化,还能提取语音信号中的情感特征,从而提升抑郁症检测的准确性和鲁棒性,并通过自适应多得分融合模块(AMFM),本发明能够根据不同模态的重要性动态调整权重,实现更精确的抑郁症严重程度评估,有效解决现有方法在模态特异性建模和信息互补性利用不足的问题。
技术关键词
音视频交互
音频特征
多模态
多层感知机
全局平均池化
查询特征
交叉注意力机制
编码器
时间序列信息
通道注意力机制
图像检测技术
面部微表情
鲁棒性
模块