基于辅助Token机制的多模态图表解析模型、推理方法及设备

AITNT
正文
推荐专利
基于辅助Token机制的多模态图表解析模型、推理方法及设备
申请号:CN202510629484
申请日期:2025-05-16
公开号:CN120564212A
公开日期:2025-08-29
类型:发明专利
摘要
本申请提供一种基于辅助Token机制的多模态图表解析模型、推理方法及设备,包括:视觉编码器用于从图表图像中提取多层次视觉特征表示;大语言模型用于基于多层次视觉特征表示和与文本提示形成Token序列,并动态生成辅助Token,将辅助Token插入至Token序列的前端;辅助解码器用于增强辅助Token的数值特征的表达能力,并采用损失优化机制对数值预测进行约束;原始解码器用于按照预设的格式输出结构化图表数据;可靠性校验模块用于基于原始解码器与辅助解码器的数值预测结果进行评估,生成置信度评分,并筛选出高置信度评分的数值预测数据。相较于现有技术,本申请实现了复杂图表自动解析、数值预测优化和结构化输出。
技术关键词
推理方法 数值 解码器 视觉特征 大语言模型 结构化图表 置信度阈值 多层感知机 多层次 多模态融合机制 计算机程序指令 校验模块 文本 支持高分辨率 图像 非线性 序列
系统为您推荐了相关专利信息
1
一种基于大语言模型的问答方法、装置、介质及设备
大语言模型 问答方法 意图识别模型 关键词 问答装置
2
模型获取方法、标题信息识别方法、相关装置及相关系统
模型获取方法 文本 信息识别方法 位置识别 信息识别装置
3
一种用于核反应堆中子输运方程的计算方法
中子 网格模型 方程 计算方法 特征值
4
一种网络相关违法行为的防控方法、装置及存储介质
大数据画像 多源异构数据 随机森林 样本 防控方法
5
一种基于知识图谱和大语言模型的漏洞修复方法及系统
漏洞修复方法 图谱 补丁 大语言模型 神经主题模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号