摘要
本申请提供一种基于辅助Token机制的多模态图表解析模型、推理方法及设备,包括:视觉编码器用于从图表图像中提取多层次视觉特征表示;大语言模型用于基于多层次视觉特征表示和与文本提示形成Token序列,并动态生成辅助Token,将辅助Token插入至Token序列的前端;辅助解码器用于增强辅助Token的数值特征的表达能力,并采用损失优化机制对数值预测进行约束;原始解码器用于按照预设的格式输出结构化图表数据;可靠性校验模块用于基于原始解码器与辅助解码器的数值预测结果进行评估,生成置信度评分,并筛选出高置信度评分的数值预测数据。相较于现有技术,本申请实现了复杂图表自动解析、数值预测优化和结构化输出。
技术关键词
推理方法
数值
解码器
视觉特征
大语言模型
结构化图表
置信度阈值
多层感知机
多层次
多模态融合机制
计算机程序指令
校验模块
文本
支持高分辨率
图像
非线性
序列
系统为您推荐了相关专利信息
大语言模型
问答方法
意图识别模型
关键词
问答装置
模型获取方法
文本
信息识别方法
位置识别
信息识别装置
大数据画像
多源异构数据
随机森林
样本
防控方法
漏洞修复方法
图谱
补丁
大语言模型
神经主题模型