摘要
本发明涉及人工智能技术领域,具体指一种面向机器人的串行式多模态情绪识别方法,包括:获取音频数据序列和图像数据序列;将音频指令文本和音频数据序列,输入训练好的音频多模态模型,输出音频反馈文本;将音频反馈文本和图像数据序列进行时间戳对齐后,输入训练好的图像多模态模型,输出情绪识别结果和图像反馈文本;在模型训练过程中,预训练阶段对初始音频和图像多模态模型分别进行训练,协同训练阶段基于跨模态双向反馈机制,对预训练后的音频多模态模型和图像多模态模型进行训练,目标训练阶段动态调整正向反馈和反向反馈损失对应权重,对协同训练后的音频多模态模型和图像多模态模型进行训练。本发明提升了情绪识别的处理效率和识别精度。
技术关键词
图像多模态
情绪识别方法
训练集
序列
机器人
文本特征向量
情绪识别系统
模块通信
音频处理单元
基频轮廓
教师
跨模态
矩阵
数据采集模块
表达式
系统为您推荐了相关专利信息
温控方法
模糊控制规则
数据
塑封机
光照补偿算法
复合材料
钛酸钾晶须
人形机器人
高强
连续玻璃纤维