多模态文本生成方法、装置、电子设备及存储介质

正文

推荐专利

申请号：CN202410714993

申请日期：2024-08-05

公开号：CN118784896A

公开日期：2024-10-15

类型：发明专利

摘要

本发明提供一种多模态文本生成方法，包括：获取目标视频以及与目标视频对齐的目标音频；对目标视频分别进行场景识别和/或人物角色识别，得到目标视频的场景描述信息和/或人物角色描述信息；对目标音频进行语音识别，得到目标音频的人物角色对话文本和/或背景音信息，人物角色对话文本包括多个人物角色的对话字段；将场景描述信息和/或人物角色描述信息与人物角色对话文本和/或背景音信息进行匹配结合，得到目标多模态文本。本发明目标多模态文本可以直观展示各场景和/或各人物角色的描述以及对话字段，降低了复杂对话场景模仿难度，同时，目标多模态文本比纯文本更具象和生动，满足用户对于热点视频模仿的娱乐需求。

技术关键词

文本生成方法场景视频多模态音频文本生成装置相邻两帧图像字段关键帧识别模块可读存储介质处理器语音特征电子设备存储器计算机热点

系统为您推荐了相关专利信息

一种基于路径簇的信道角度地图构建方法

多路径空间插值算法地图构建方法采样点反距离加权插值算法

基于注意力机制的HEVC变换系数视频隐写分析方法

视频隐写分析方法注意力机制浅层特征提取预测残差输出特征

自动驾驶仿真场景的搭建方法、装置、设备、介质及产品

驾驶仿真场景惯性导航数据车辆定位信息生成地图数据车载传感器

一种基于模块化低耦合的视频采集方法及装置

视频采集方法标准化接口系统资源管理视频流布局管理

一种基于多模态遥感数据的建筑加层智能识别方法及系统

深度学习预测模型智能识别方法多模态光学遥感影像雷达遥感影像

多模态文本生成方法、装置、电子设备及存储介质

站点导航

APP 下载