基于形象克隆的数字人实时对话方法、系统、终端及介质

AITNT
正文
推荐专利
基于形象克隆的数字人实时对话方法、系统、终端及介质
申请号:CN202411740911
申请日期:2024-11-29
公开号:CN119781606A
公开日期:2025-04-08
类型:发明专利
摘要
本发明涉及人工智能技术领域,具体涉及基于形象克隆的数字人实时对话方法、系统、终端及介质,方法包括将原始用户视频分割为闭嘴静默视频和非静默视频;逐帧截取非静默视频中人脸区域的图像并合成训练视频;基于训练视频对形象克隆模型进行训练;将经大语言模型和语音合成模型生成的回答文本转换为音频数据,结合训练好的形象克隆模型生成与音频数据匹配的人脸图像序列,将人脸图像序列合成到非静默视频,然后推送出去,若非静默视频时长不够,则采用正序倒序循环播放策略,在无对话状态下,将闭嘴静默视频循环推送至前端。本申请通过特定视频预处理流程和播放方式,改善长对话场景的连续性问题,提升数字人在非对话状态下的自然度。
技术关键词
人脸图像序列 对话方法 人脸检测算法 WebRTC技术 视频同步 音频 视频采集模块 文本 模型训练模块 数据 画面 坐标 对话系统 人工智能技术 处理器 语音
系统为您推荐了相关专利信息
1
一种基于记忆管理的多轮对话方法、装置及电子设备
话题 大语言模型 多轮对话方法 记忆管理 电子设备
2
一种基于AI语言模型的多模态智能对话方法及系统
查询场景 智能对话方法 预训练模型 多轮对话 文本
3
一种智能锁一开多入的人脸识别方法及系统
轨迹 智能锁 人脸识别方法 列表 人脸检测算法
4
一种基于检索增强生成模型的电力客服对话方法及系统
对话方法 客服 意图识别 语句 皮尔逊相关系数
5
一种门户网站页面布局方法、设备及介质
门户网站页面 分区 人脸图像序列 布局方法 热点
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号