基于视觉语言预训练和多模态协同融合的情感识别方法

AITNT
正文
推荐专利
基于视觉语言预训练和多模态协同融合的情感识别方法
申请号:CN202411001937
申请日期:2024-07-25
公开号:CN119026071B
公开日期:2025-04-25
类型:发明专利
摘要
本发明公开了基于视觉语言预训练和多模态协同融合的情感识别方法,属于多模态情感识别技术领域;本发明先通过视觉语言预训练范式使用大规模视觉‑文本对数据集对视觉编码器进行预训练,以提高其视觉特征提取能力;再对视频提取图像帧、骨骼节点、音频,分别输送进各个模态的编码器中,提取多个模态的特征;将骨骼节点特征和视频帧提取的特征通过交叉注意力机制进行融合,以通过人的动作姿态等信息进一步强化视觉特征;最后通过可学习的查询向量和交叉注意力机制,将视觉特征和音频特征融合进查询向量中;预测阶段使用学习得到的查询向量特征进行情感分类。
技术关键词
情感识别方法 交叉注意力机制 Sigmoid函数 短时傅里叶变换 音频特征 视频 节点特征 多模态情感识别 情感类别 均匀采样方法 视觉特征提取 图像 文本编码器 数据 多层感知机
系统为您推荐了相关专利信息
1
一种基于物理信息嵌入的轴承故障人工智能诊断方法
诊断方法 短时傅里叶变换 一维卷积神经网络 时频分析方法 物理
2
基于先验引导知识蒸馏与风格感知的字体生成方法及系统
字体生成方法 风格 字符 图像 蒸馏
3
视频质量评估方法和计算设备
复杂度 音频特征 视觉特征 多模态特征 像素
4
结合注意力机制与体素特征聚合的三维目标检测方法
三维点云数据 注意力机制 协同注意力 全局平均池化 关键点特征
5
一种电缆局放信号多径干涉识别与补偿方法、设备及介质
高频电流传感器 电缆局放信号 多径干涉 深度学习模型 补偿方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号