摘要
本发明提出基于深度学习的数字人智能交互方法及系统,方法包括:获取用户交互数据,包括语音流、对应的文本以及文本历史上下文,将所述文本输入BERT‑base预训练模型,输出当前轮语义向量,并根据所述当前轮语义向量确定用户的韵律风格向量;基于所述当前轮语义向量和韵律风格向量,利用神经网络得到当前轮用户风格向量;根据所述当前轮用户风格向量,结合所述当前轮语义向量,构建语义轨迹模型,输出语义意图偏移向量;基于所述当前轮用户风格向量、当前轮语义向量和语义意图偏移向量,利用控制向量生成器生成统一控制信号,以形成数字人交互的最终多模态响应。
技术关键词
语义向量
智能交互方法
风格
语义意图
多模态响应
轨迹模型
文本
控制信号解码
音频播放系统
智能交互系统
语音
门控结构
分析模块
数据获取模块
序列
机制
注意力