摘要
本申请实施例提供了一种视频生成方法、智能终端、设备及存储介质,该方法应用于智能终端,视频生成方法包括:获取图像采集模块采集的关于目标物体的初始图像,对初始图像进行图像描述生成,得到目标描述文本;获取音频采集模块采集的目标物体对应的叙事性音频,对叙事性音频进行语音识别,得到叙事性文本;将目标描述文本与叙事性文本进行融合,得到辅助生成文本;将初始图像和辅助生成文本发送至服务器,以供服务器将初始图像和辅助生成文本拼接后输入至视频生成模型进行视频生成,得到目标视频;接收服务器发送的目标视频,在显示模块中展示目标视频。本申请实施例能够提高目标视频的质量,提高目标视频的观看体验。
技术关键词
视频生成方法
文本
音频采集模块
图像采集模块
视频生成模型
物体
智能终端
关键帧
服务器
控制模块
图像修复模型
字幕
语音
形状检测
语义
模式匹配
系统为您推荐了相关专利信息
反馈控制单元
光学轮廓仪
光学摄像头
前馈神经网络
半导体晶圆缺陷
预测编码方法
文本
专业数据库
深度学习算法
语音转文字方法