基于视觉语言预训练和多模态协同融合的情感识别方法

正文

推荐专利

申请号：CN202411001937

申请日期：2024-07-25

公开号：CN119026071B

公开日期：2025-04-25

类型：发明专利

摘要

本发明公开了基于视觉语言预训练和多模态协同融合的情感识别方法，属于多模态情感识别技术领域；本发明先通过视觉语言预训练范式使用大规模视觉‑文本对数据集对视觉编码器进行预训练，以提高其视觉特征提取能力；再对视频提取图像帧、骨骼节点、音频，分别输送进各个模态的编码器中，提取多个模态的特征；将骨骼节点特征和视频帧提取的特征通过交叉注意力机制进行融合，以通过人的动作姿态等信息进一步强化视觉特征；最后通过可学习的查询向量和交叉注意力机制，将视觉特征和音频特征融合进查询向量中；预测阶段使用学习得到的查询向量特征进行情感分类。

技术关键词

情感识别方法交叉注意力机制 Sigmoid函数短时傅里叶变换音频特征视频节点特征多模态情感识别情感类别均匀采样方法视觉特征提取图像文本编码器数据多层感知机

系统为您推荐了相关专利信息

一种基于物理信息嵌入的轴承故障人工智能诊断方法

诊断方法短时傅里叶变换一维卷积神经网络时频分析方法物理

基于先验引导知识蒸馏与风格感知的字体生成方法及系统

字体生成方法风格字符图像蒸馏

视频质量评估方法和计算设备

复杂度音频特征视觉特征多模态特征像素

结合注意力机制与体素特征聚合的三维目标检测方法

三维点云数据注意力机制协同注意力全局平均池化关键点特征

一种电缆局放信号多径干涉识别与补偿方法、设备及介质

高频电流传感器电缆局放信号多径干涉深度学习模型补偿方法

基于视觉语言预训练和多模态协同融合的情感识别方法

站点导航

APP 下载