视觉配音方法、装置、设备及介质

AITNT
正文
推荐专利
视觉配音方法、装置、设备及介质
申请号:CN202510974500
申请日期:2025-07-15
公开号:CN120912731A
公开日期:2025-11-07
类型:发明专利
摘要
本公开实施例涉及一种视觉配音方法、装置、设备及介质,该方法包括:获取目标音频以及第一视频;获取第一帧图像中目标对象的头部姿态信息和面部信息,以及第一帧图像中目标区域的区域信息;第一帧图像是第一视频中的帧图像;目标区域是第一帧图像中除目标对象的嘴部区域之外的区域;基于目标音频、第一帧图像中目标对象的头部姿态信息和面部信息,生成与第一帧图像对应的第二帧图像中目标对象的口型信息;第二帧图像是待生成的第二视频中的帧图像;基于第一帧图像中目标区域的区域信息、第二帧图像中目标对象的口型信息以及目标音频,生成第二视频。本公开实施例可提升口型生成的准确性和自然感,提升第一视频的配音视频的视觉观感。
技术关键词
头部姿态信息 图像 对象 配音方法 面部识别模型 音频特征 交叉注意力机制 视频 生成对抗网络 视觉 序列 配音装置 存储装置 计算机程序产品 电子设备 语义 时序
系统为您推荐了相关专利信息
1
一种基于大模型的道路巡检方法、装置、设备及存储介质
道路巡检方法 精密时间协议 云端 三次样条插值 数据
2
基于机器学习的混凝土承压状态下波速测试系统及方法
波速测试方法 测试换能器 波形 噪声 混凝土
3
一种橡胶件的成品成型度检测方法、系统、设备及介质
橡胶件 三维表面轮廓 度检测方法 疲劳寿命预测 光学图像数据
4
一种基于梯度域转换与深度学习预测牙周健康指标的方法
深度学习预测 十字形结构 像素 条件生成对抗网络 图像评估
5
一种旅行场景下的跨语言沟通方法及装置
旅行产品 人工智能服务 对象 语音 计算机程序产品
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号