语音驱动视频合成方法、设备及存储介质

AITNT
正文
推荐专利
语音驱动视频合成方法、设备及存储介质
申请号:CN202511495294
申请日期:2025-10-20
公开号:CN121037652A
公开日期:2025-11-28
类型:发明专利
摘要
本申请提供一种语音驱动视频合成方法、设备及存储介质,涉及计算机视觉与人工智能技术领域。该方法包括:根据原始说话视频中的多帧原始图像,分别确定多帧人脸区域图像以及对应的面部身份特征图像;采用人脸标准化模型,根据每帧面部身份特征图像,对对应的人脸区域图像进行身份特征和口型动作的解耦处理,输出对应的闭嘴人脸区域图像;采用口型合成模型,根据多帧闭嘴人脸区域图像,以及音频数据,生成多帧说话人脸区域图像;对多帧说话人脸区域图像和多帧原始图像进行融合处理,得到音频数据匹配的目标说话视频。消除原始口型的干扰,说话口型和音频数据的同步质量更高,进而显著提升了目标说话视频中口型与音频数据的同步性。
技术关键词
人脸 图像 视频 样本 身份 真实面部 音频 高清 语音 数据 人工智能技术 计算机视觉 处理器 同步性 可读存储介质 存储器 参数 尺寸
系统为您推荐了相关专利信息
1
一种基于量子进化引导的适老龄化短视频推荐方法
短视频推荐方法 兴趣画像 内容库 注意力机制 深度神经网络学习
2
控制无人机的方法、电子设备、存储介质、车辆和无人机
控制无人机 游戏音乐 指令 通信装置 图像采集装置
3
基于扩散模型的医学图像生成方法
医学图像生成方法 肿瘤 编码器结构 解码器结构 新颖方法
4
轨道交通车站乘客异常行为识别方法及系统
识别方法 姿态估计 车站监控 热力图 非暂态计算机可读存储介质
5
一种智能监控语音中继/桥接传输通讯报警系统
通讯报警系统 监控主机 语音 隐私保护模块 云端服务器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号