摘要
本发明涉及人工智能技术领域,具体涉及基于形象克隆的数字人实时对话方法、系统、终端及介质,方法包括将原始用户视频分割为闭嘴静默视频和非静默视频;逐帧截取非静默视频中人脸区域的图像并合成训练视频;基于训练视频对形象克隆模型进行训练;将经大语言模型和语音合成模型生成的回答文本转换为音频数据,结合训练好的形象克隆模型生成与音频数据匹配的人脸图像序列,将人脸图像序列合成到非静默视频,然后推送出去,若非静默视频时长不够,则采用正序倒序循环播放策略,在无对话状态下,将闭嘴静默视频循环推送至前端。本申请通过特定视频预处理流程和播放方式,改善长对话场景的连续性问题,提升数字人在非对话状态下的自然度。
技术关键词
人脸图像序列
对话方法
人脸检测算法
WebRTC技术
视频同步
音频
视频采集模块
文本
模型训练模块
数据
画面
坐标
对话系统
人工智能技术
处理器
语音
系统为您推荐了相关专利信息
话题
大语言模型
多轮对话方法
记忆管理
电子设备
查询场景
智能对话方法
预训练模型
多轮对话
文本