多模态文本生成方法、装置、电子设备及存储介质

AITNT
正文
推荐专利
多模态文本生成方法、装置、电子设备及存储介质
申请号:CN202410714993
申请日期:2024-08-05
公开号:CN118784896A
公开日期:2024-10-15
类型:发明专利
摘要
本发明提供一种多模态文本生成方法,包括:获取目标视频以及与目标视频对齐的目标音频;对目标视频分别进行场景识别和/或人物角色识别,得到目标视频的场景描述信息和/或人物角色描述信息;对目标音频进行语音识别,得到目标音频的人物角色对话文本和/或背景音信息,人物角色对话文本包括多个人物角色的对话字段;将场景描述信息和/或人物角色描述信息与人物角色对话文本和/或背景音信息进行匹配结合,得到目标多模态文本。本发明目标多模态文本可以直观展示各场景和/或各人物角色的描述以及对话字段,降低了复杂对话场景模仿难度,同时,目标多模态文本比纯文本更具象和生动,满足用户对于热点视频模仿的娱乐需求。
技术关键词
文本生成方法 场景 视频 多模态 音频 文本生成装置 相邻两帧图像 字段 关键帧 识别模块 可读存储介质 处理器 语音特征 电子设备 存储器 计算机 热点
系统为您推荐了相关专利信息
1
一种基于路径簇的信道角度地图构建方法
多路径 空间插值算法 地图构建方法 采样点 反距离加权插值算法
2
基于注意力机制的HEVC变换系数视频隐写分析方法
视频隐写分析方法 注意力机制 浅层特征提取 预测残差 输出特征
3
自动驾驶仿真场景的搭建方法、装置、设备、介质及产品
驾驶仿真场景 惯性导航数据 车辆定位信息 生成地图数据 车载传感器
4
一种基于模块化低耦合的视频采集方法及装置
视频采集方法 标准化接口 系统资源管理 视频流 布局管理
5
一种基于多模态遥感数据的建筑加层智能识别方法及系统
深度学习预测模型 智能识别方法 多模态 光学遥感影像 雷达遥感影像
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号