摘要
本发明涉及智能交互技术领域,揭露了一种大数据驱动的数字人智能交互方法及系统,所述方法包括:提取用户历史交互视频中的交互音频及视频帧集合,对视频帧集合中的每个视频帧进行图像平滑及图像均衡,得到增强视频帧;识别交互音频对应的交互文本;分别提取增强视频帧、交互文本以及交互音频的特征时序信息,对特征时序信息进行特征交互,得到多模态特征;根据多模态特征计算目标交互文本以及对应的目标交互语音,根据目标交互文本以及目标交互语音生成目标交互表情;根据目标交互文本、目标交互语音及目标交互表情构建目标数字人的交互视频,利用交互视频与用户交互。本发明可以提高数字人智能交互的准确度。
技术关键词
智能交互方法
交互视频
多模态特征
视频帧集合
交互特征
语音
音频
时序
序列识别
图像
大数据
智能交互技术
智能交互系统
滤波
信号
样本
文本识别
系统为您推荐了相关专利信息
交互特征
多模态特征
多头注意力机制
多模态交互
抑郁检测系统
智能重构方法
多模态特征融合
线条特征
关系
存储设备
机器学习技术
煤矿水害
时空序列数据
预测系统
水文参数
多模态数据融合
会诊系统
图谱
多模态特征
融合特征