基于形象克隆的数字人实时对话方法、系统、终端及介质

正文

推荐专利

申请号：CN202411740911

申请日期：2024-11-29

公开号：CN119781606A

公开日期：2025-04-08

类型：发明专利

摘要

本发明涉及人工智能技术领域，具体涉及基于形象克隆的数字人实时对话方法、系统、终端及介质，方法包括将原始用户视频分割为闭嘴静默视频和非静默视频；逐帧截取非静默视频中人脸区域的图像并合成训练视频；基于训练视频对形象克隆模型进行训练；将经大语言模型和语音合成模型生成的回答文本转换为音频数据，结合训练好的形象克隆模型生成与音频数据匹配的人脸图像序列，将人脸图像序列合成到非静默视频，然后推送出去，若非静默视频时长不够，则采用正序倒序循环播放策略，在无对话状态下，将闭嘴静默视频循环推送至前端。本申请通过特定视频预处理流程和播放方式，改善长对话场景的连续性问题，提升数字人在非对话状态下的自然度。

技术关键词

人脸图像序列对话方法人脸检测算法 WebRTC技术视频同步音频视频采集模块文本模型训练模块数据画面坐标对话系统人工智能技术处理器语音

系统为您推荐了相关专利信息

一种基于记忆管理的多轮对话方法、装置及电子设备

话题大语言模型多轮对话方法记忆管理电子设备

一种基于AI语言模型的多模态智能对话方法及系统

查询场景智能对话方法预训练模型多轮对话文本

一种智能锁一开多入的人脸识别方法及系统

轨迹智能锁人脸识别方法列表人脸检测算法

一种基于检索增强生成模型的电力客服对话方法及系统

对话方法客服意图识别语句皮尔逊相关系数

一种门户网站页面布局方法、设备及介质

门户网站页面分区人脸图像序列布局方法热点

基于形象克隆的数字人实时对话方法、系统、终端及介质

站点导航

APP 下载