摘要
本发明提供一种多模态文本生成方法,包括:获取目标视频以及与目标视频对齐的目标音频;对目标视频分别进行场景识别和/或人物角色识别,得到目标视频的场景描述信息和/或人物角色描述信息;对目标音频进行语音识别,得到目标音频的人物角色对话文本和/或背景音信息,人物角色对话文本包括多个人物角色的对话字段;将场景描述信息和/或人物角色描述信息与人物角色对话文本和/或背景音信息进行匹配结合,得到目标多模态文本。本发明目标多模态文本可以直观展示各场景和/或各人物角色的描述以及对话字段,降低了复杂对话场景模仿难度,同时,目标多模态文本比纯文本更具象和生动,满足用户对于热点视频模仿的娱乐需求。
技术关键词
文本生成方法
场景
视频
多模态
音频
文本生成装置
相邻两帧图像
字段
关键帧
识别模块
可读存储介质
处理器
语音特征
电子设备
存储器
计算机
热点
系统为您推荐了相关专利信息
多路径
空间插值算法
地图构建方法
采样点
反距离加权插值算法
视频隐写分析方法
注意力机制
浅层特征提取
预测残差
输出特征
驾驶仿真场景
惯性导航数据
车辆定位信息
生成地图数据
车载传感器
视频采集方法
标准化接口
系统资源管理
视频流
布局管理
深度学习预测模型
智能识别方法
多模态
光学遥感影像
雷达遥感影像