摘要
本发明涉及一种基于统一行为矢量映射的多模态融合实时驱动数字人方法,属于人机交互技术领域。该方法包括:1)语音、动作、视觉多模态特征提取,采用语言特性‑情感解耦、阶段性动作建模及宏观‑微表情流分析生成输入特征;2)跨模态协同对齐与冲突修正,通过知识图谱约束时序分解、逐粒度交互融合及情境驱动模态主导策略实现高精度融合;3)构建三维行为矢量空间,利用蜂巢网格投影将多模态特征映射至统一坐标,结合坐标‑动作映射表驱动数字人输出。本发明解决了多模态时序对齐困难、特征异构及冲突失控问题,实现自然化、情感化、场景化的实时交互,显著提升数字人的表现力与适应性。
技术关键词
蜂巢网格
模态特征
多模态
矢量映射方法
三元组知识库
表情特征
跨模态
运动轨迹分析
情感识别方法
语音关键词
语义特征提取
视觉
人机交互技术
门控循环单元
动态
稠密光流
时序
坐标点
系统为您推荐了相关专利信息
基站设备
时间段
注意力
神经网络模型
训练样本数据
预警系统
多模态情绪
语音特征
预警模型
多层感知机