摘要
本发明公开了一种基于多模态模型的情绪动态分解与响应方法,包括:采集并预处理用户的语音数字信号;将语音数字信号输入语音识别模型,输出语音文字;将语音文字输入大语言模型,生成回复文字;将响应情绪标签和回复文字输入语音情绪模型,生成带有情绪的回复语音。本发明解决了现有技术中以文本或简单语音指令为主的人机交互模式对用户情绪感知有限的问题,能够深入理解用户情绪背后的复杂意图和情感需求,有效解决了传统单一模态情绪识别技术的局限性;通过融合多模态信息,充分利用语音、图像等不同模态的优势,有效弥补各自缺陷,在各种复杂环境下都能准确识别用户情绪,大幅提高识别准确率。
技术关键词
序列
标签
语音识别模型
语音数字信号处理
令牌
语义向量
注意力
大语言模型
表情特征提取
特征提取模型
节点
关系
融合多模态信息
梅尔频率倒谱系数
模块
视觉
情绪识别技术
系统为您推荐了相关专利信息
描述符
人工智能引擎
注意力
柯氏音
心血管风险评估
新能源电网
网络拓扑
节点
支持向量机模型
灰狼优化算法
管理方法
语音识别模型
音视频
情绪识别模型
语音特征