摘要
本申请公开了一种内容生成方法、装置、设备、存储介质及程序产品,涉及大语言模型视觉感知技术领域,该方法包括:获取图像数据以及图像数据对应的问题信息;利用目标生成式模型识别问题信息的语义特征,按照语义特征在图像数据中定位问题信息对应的视觉区域;利用目标生成式模型识别视觉区域中的视觉信息,按照视觉信息生成与问题信息相匹配的目标文本内容;其中,目标生成式模型是基于视觉重现和多模态信息训练生成的。通过实施本公开技术方案,能够充分识别图像数据中的视觉特征,提升视觉信息的处理能力,结合语义特征以及视觉信息进行内容生成的推理,实现了多模态数据的有效整合,从而提升了内容生成效果。
技术关键词
内容生成方法
样本
语义特征
视觉特征
语义标签
图像
数据
检测损失
视觉感知技术
内容生成装置
文本
多模态特征
可读存储介质
生成答案
大语言模型
指令
计算机程序产品
系统为您推荐了相关专利信息
视频帧特征
跨模态学习
时序特征
融合特征
定位方法
语音特征
语音情感识别方法
曲线
语音情感识别装置
分类器
水产品药物残留
拉曼光谱数据
机器学习算法
支持向量回归模型
修正算法
长短期记忆网络
分析方法
拉曼光谱数据
编码
拉曼光谱技术