摘要
本发明提供一种基于多模态的人机交互方法及其系统,涉及人机交互技术领域,通过接收用户的语音输入、采集环境信息以及捕捉用户的面部表情,并基于这些输入分别获取语音特征、环境特征和面部特征;利用预训练的情感识别模型生成用户的情感特征,同时根据用户的当前操作信息,利用预训练的用户行为模型生成行为特征;在得到这些特征后,本发明通过动态调整各自的第一权重和第二权重,并进行特征加权融合,得到综合特征;基于综合特征生成多个候选响应,并利用预设的评分机制筛选出最终响应并输出,本发明通过综合利用多种数据源,实现了对用户意图和情感状态的全面理解,同时能够动态调整各特征的权重,以生成更加智能、人性化的交互体验。
技术关键词
人机交互方法
语音特征
面部特征
情感特征
情感识别模型
多模态
特征加权融合
评分机制
生成用户
语音信号处理方法
注意力
深度学习架构
情感分析模型
人机交互系统
人机交互技术
数据分析方法
交互历史
图像处理方法
环境传感器
系统为您推荐了相关专利信息
声纹特征
语义特征
双分支网络
语音特征
匹配模块
虚拟教学系统
教学场景
数据处理模块
数据采集模块
注意力