摘要
本发明公开了一种内容生成方法、装置、设备、存储介质及产品,该方法包括:将目标图像和目标提示文本输入到训练完成的多模态语言模型中;通过多模态语言模型中的至少两个视觉编码器,对目标图像分别进行视觉编码得到至少两个视觉编码特征,并通过多模态语言模型中的特征融合模块,对至少两个视觉编码特征进行特征融合得到视觉融合特征;通过多模态语言模型中的文本特征网络,对目标提示文本进行文本编码得到文本编码特征;将视觉融合特征和文本编码特征输入到多模态语言模型中的内容输出网络中,得到输出的与多模态数据对应的响应文本内容,提高了多模态语言模型对视觉信息的表达能力,从而提高了多模态语言模型的准确度。
技术关键词
内容生成方法
多模态
文本
编码特征
融合特征
编码模块
层级
视觉特征
网络
拼接单元
内容生成装置
图像
数据输入模块
处理器
可读存储介质
计算机程序产品
系统为您推荐了相关专利信息
AI检测方法
电池模组
动态关联模型
电控单元
故障案例库
腰椎间盘穿刺
手术导航方法
多模态
注意力
图像分割模型
文本
生成语音
生物特征信息
标识符
风险评估方法