摘要
本发明属于信息抽取技术领域,公开了一种基于大语言模型的文本结构化方法及系统。该方法通过对大语言模型的JSON格式分析,进行训练数据处理;对大语言模型进行训练、微调,用vLLM进行训练、微调后的大语言模型的部署;采取CoT提示的方式对部署后的大语言模型进行文本结构化,对出现错误的JSON格式数据,采用JSON解析结果的反思策略,进一步提升大语言模型的结构化输出能力。本发明通过微调与指令结合解决大模型在知识抽取任务中生成JSON字符串不符合要求的问题;大模型按照schema.org要求生成知识图谱规范的JSON,实现端到端的文本结构化,无须进一步的知识加工,节省后续知识加工的工作量。
技术关键词
文本结构化方法
大语言模型
结构化系统
训练数据处理
键值
JSON字符串
信息抽取技术
生成知识图谱
格式化
身份
可读存储介质
策略
多任务
分析模块
指令
系统为您推荐了相关专利信息
故障实体
故障原因分析方法
模型车辆
知识图谱数据
文本
分布式文件系统
关键字
数据库主键
数据处理方式
离线