摘要
本发明涉及一种同步语音与手语展示的多模态交互方法及装置,属于语音图像数据处理技术领域,其中,该同步语音与手语展示的多模态交互方法包括:基于手语语义特征向量和语音韵律特征向量之间的语义差异损失确定距离度量,基于距离度量和DTW算法对手语语义特征向量和语音韵律特征向量进行时间同步;将情感特征向量与时间同步后的手语语义特征向量和语音韵律特征向量融合,生成多模态特征序列;基于多模态特征序列生成手语动作、面部表情和唇形,控制数字人进行展示。本发明在保证数字人手语动作与语音输出一致的同时表达了情感信息,提高了用户体验。
技术关键词
手语
语音
多模态特征
交互方法
语义
时间同步
生成对抗网络训练
度量
面部
DTW算法
图像数据处理技术
情感特征
融合注意力机制
序列
反向运动学
正向运动学
样本
元素
存储器
系统为您推荐了相关专利信息
数据分类方法
大语言模型
生成知识图谱
标签
实体
注意力模型
解码器
多层感知机
非暂态计算机可读存储介质
语义
陪护机器人
多任务
生命体征数据
多模态注意力
情感分析模型