摘要
本申请提供一种基于多模态模型的信息生成方法及相关设备,所述方法包括:对获取的视频数据进行特征提取,得到视频特征,视频特征包括静态特征和动态特征;根据获取的文本数据在预设数据库可以中确定目标提示语,预设数据库中存储有多个提示语,目标提示语为预设数据库中与文本数据匹配的提示语;基于预先训练的多模态模型将多模态数据映射至一个共享的语义嵌入空间,生成视频内容信息,多模态数据包括视频特征和目标提示语,视频内容信息为基于对话文本形式描述视频数据的信息。实现了不同模态之间在语义层面的深度融合,使得视频特征和文本形式的目标提示语能够直接进行语义关联和交互,提升了生成信息的准确性。
技术关键词
生成视频内容
信息生成方法
多模态
数据
文本
静态特征
模态特征
音频特征
信息生成装置
图像
分辨率
视频编码器
语义层面
可读存储介质
特征提取模块
计算机程序产品
处理器
系统为您推荐了相关专利信息
照片
子系统
通信服务
数据处理业务
HTTP请求
协议转换方法
新能源汽车
协议转换系统
通信接口模块
数据转换模块