摘要
本发明公开了基于图像输入与大模型组合的资料分析问题生成方法,包括如下步骤:S1、获取原始图像数据,并进行预处理;S2、构建基于Qwen‑VL架构的视觉语言模型,并进行双向对齐生成视觉特征向量;S3、构造提示词模板,并通过交叉注意力机制进行融合,生成结构化文本描述;S4、构建基于Transformer架构的大语言模型,并采用LoRA方法进行监督微调,生成资料分析问题候选序列;S5、进行语义一致性检测与结构规则匹配,剔除不满足语义规范或结构约束的序列;S6、构建图文对齐三元组,并写入JSON格式的数据结构中进行编码存储。本发明能够将图像转化为资料分析问题,显著提升文本生成的质量与效率。
技术关键词
生成方法
文本
资料
图像特征向量
原始图像数据
序列
交叉注意力机制
一致性检测
语义
视觉
矩阵
图像编码
生成上下文感知
图文
多头注意力机制
前馈神经网络
系统为您推荐了相关专利信息
艺术字生成方法
字体
风格
结构特征提取
图像编码器