摘要
本申请涉及人工智能技术领域,具体提供一种数据获取方法、基于大模型的实体识别方法、设备及介质,旨在解决提高文档信息识别准确性的问题。为此目的,本申请提供的方法包括对训练文档图像进行OCR识别,以获取第一文本行的文本行信息,根据该文本行信息获取第一文档信息;对测试文档图像进行OCR识别,以获取第二文本行的文本行信息,根据该文本行信息获取第二文档信息;分别获取与各第二文档信息相似度最高的第一文档信息;根据与各第二文档信息相似度最高的第一文档信息获取文档示例样本;根据文档示例样本,获取大语言模型的指令微调数据。利用上述指令微调数据对大语言模型进行指令微调,可以使大语言模型准确地识别出视觉丰富文档中的实体。
技术关键词
文本行
大语言模型
实体识别方法
样本
图像
指令
数据获取方法
布局
格式
标签
答案
坐标
人工智能技术
处理器通信
可读存储介质
存储器
系统为您推荐了相关专利信息
线状缺陷
边缘轮廓
边缘检测单元
图像增强
校验单元
流形学习方法
有源相控阵雷达
热仿真方法
稳态
网络
模糊测试方法
种子
大语言模型
协议
数据采集策略