视觉配音方法、装置、设备及介质

正文

推荐专利

视觉配音方法、装置、设备及介质

申请号：CN202510974500

申请日期：2025-07-15

公开号：CN120912731A

公开日期：2025-11-07

类型：发明专利

摘要

本公开实施例涉及一种视觉配音方法、装置、设备及介质，该方法包括：获取目标音频以及第一视频；获取第一帧图像中目标对象的头部姿态信息和面部信息，以及第一帧图像中目标区域的区域信息；第一帧图像是第一视频中的帧图像；目标区域是第一帧图像中除目标对象的嘴部区域之外的区域；基于目标音频、第一帧图像中目标对象的头部姿态信息和面部信息，生成与第一帧图像对应的第二帧图像中目标对象的口型信息；第二帧图像是待生成的第二视频中的帧图像；基于第一帧图像中目标区域的区域信息、第二帧图像中目标对象的口型信息以及目标音频，生成第二视频。本公开实施例可提升口型生成的准确性和自然感，提升第一视频的配音视频的视觉观感。

技术关键词

头部姿态信息图像对象配音方法面部识别模型音频特征交叉注意力机制视频生成对抗网络视觉序列配音装置存储装置计算机程序产品电子设备语义时序

系统为您推荐了相关专利信息

一种基于大模型的道路巡检方法、装置、设备及存储介质

道路巡检方法精密时间协议云端三次样条插值数据

基于机器学习的混凝土承压状态下波速测试系统及方法

波速测试方法测试换能器波形噪声混凝土

一种橡胶件的成品成型度检测方法、系统、设备及介质

橡胶件三维表面轮廓度检测方法疲劳寿命预测光学图像数据

一种基于梯度域转换与深度学习预测牙周健康指标的方法

深度学习预测十字形结构像素条件生成对抗网络图像评估

一种旅行场景下的跨语言沟通方法及装置

旅行产品人工智能服务对象语音计算机程序产品

视觉配音方法、装置、设备及介质

站点导航

APP 下载