摘要
本申请涉及情感识别技术领域,其公开了一种基于视听觉协同的情感识别方法及系统,其获取原始视频流和原始音频流,并为视觉模态和听觉模态引入显式的不确定性量化机制,在提取特征的同时,并行地生成评估其可靠性的不确定性序列。进而,以此不确定性序列为核心引导信号,对跨模态交叉注意力融合过程进行动态调制。该机制使得模型能够自适应地抑制不可靠模态的贡献,侧重于高质量信号的交互,从而有效抑制噪声传播,实现鲁棒的多模态信息互补,最终提升情感识别的准确性。
技术关键词
听觉
情感识别方法
序列
注意力
视频流
时序
中间层
多层感知机
视觉特征编码
多模态数据采集
情感识别系统
情感识别技术
音频
矩阵乘法运算
LSTM模型
跨模态
系统为您推荐了相关专利信息
数据可视化
场景化数据
可视化大屏
银行设备
人脸
推理方法
批量
神经网络模型
人工智能对话系统
动态
数据处理方法
多尺度
分层
图像语义分割
蛛网结构