基于辅助Token机制的多模态图表解析模型、推理方法及设备

正文

推荐专利

申请号：CN202510629484

申请日期：2025-05-16

公开号：CN120564212A

公开日期：2025-08-29

类型：发明专利

摘要

本申请提供一种基于辅助Token机制的多模态图表解析模型、推理方法及设备，包括：视觉编码器用于从图表图像中提取多层次视觉特征表示；大语言模型用于基于多层次视觉特征表示和与文本提示形成Token序列，并动态生成辅助Token，将辅助Token插入至Token序列的前端；辅助解码器用于增强辅助Token的数值特征的表达能力，并采用损失优化机制对数值预测进行约束；原始解码器用于按照预设的格式输出结构化图表数据；可靠性校验模块用于基于原始解码器与辅助解码器的数值预测结果进行评估，生成置信度评分，并筛选出高置信度评分的数值预测数据。相较于现有技术，本申请实现了复杂图表自动解析、数值预测优化和结构化输出。

技术关键词

推理方法数值解码器视觉特征大语言模型结构化图表置信度阈值多层感知机多层次多模态融合机制计算机程序指令校验模块文本支持高分辨率图像非线性序列

系统为您推荐了相关专利信息

一种基于大语言模型的问答方法、装置、介质及设备

大语言模型问答方法意图识别模型关键词问答装置

模型获取方法、标题信息识别方法、相关装置及相关系统

模型获取方法文本信息识别方法位置识别信息识别装置

一种用于核反应堆中子输运方程的计算方法

中子网格模型方程计算方法特征值

一种网络相关违法行为的防控方法、装置及存储介质

大数据画像多源异构数据随机森林样本防控方法

一种基于知识图谱和大语言模型的漏洞修复方法及系统

漏洞修复方法图谱补丁大语言模型神经主题模型

基于辅助Token机制的多模态图表解析模型、推理方法及设备

站点导航

APP 下载