摘要
本申请提供了一种基于大语言模型的科技文献表格知识链生成方法,涉及语义处理技术领域,所述方法包括:接收源自科技文献的表格图像、PDF提取区域和结构化源码,结合表格上下文信息生成初始输入信息;调用多模态大语言模型进行表格内容识别和结构化处理;基于初始HTML结构表示与原始表格图像及表格上下文信息执行迭代自校正;基于预设科学实体本体,对高保真HTML结构表示进行语义信息抽取;根据预设逻辑范式和实体抽取结果,组织成知识链。通过本申请可以解决现有技术中由于在处理复杂和非规范化表格时易出现识别错误,且深度逻辑关系挖掘能力不足,导致内容识别精度不足的技术问题,提高了表格内容识别和结构解析的精度。
技术关键词
大语言模型
表格
生成方法
实体
校正
科技
物理布局信息
深度语义分析
逻辑
合并单元格
生成知识
语义层面
文本段落
多模态
图像
组织
精度
系统为您推荐了相关专利信息
文本数据处理方法
大语言模型
字符
风格
文本数据处理装置
报告生成方法
规划
非易失性存储介质
多层次
项目
恒流调光
线性恒流电路
电压反馈电路
调光系统
信号处理模块