数据获取方法、基于大模型的实体识别方法、设备及介质

正文

推荐专利

申请号：CN202410944696

申请日期：2024-07-12

公开号：CN118865421A

公开日期：2024-10-29

类型：发明专利

摘要

本申请涉及人工智能技术领域，具体提供一种数据获取方法、基于大模型的实体识别方法、设备及介质，旨在解决提高文档信息识别准确性的问题。为此目的，本申请提供的方法包括对训练文档图像进行OCR识别，以获取第一文本行的文本行信息，根据该文本行信息获取第一文档信息；对测试文档图像进行OCR识别，以获取第二文本行的文本行信息，根据该文本行信息获取第二文档信息；分别获取与各第二文档信息相似度最高的第一文档信息；根据与各第二文档信息相似度最高的第一文档信息获取文档示例样本；根据文档示例样本，获取大语言模型的指令微调数据。利用上述指令微调数据对大语言模型进行指令微调，可以使大语言模型准确地识别出视觉丰富文档中的实体。

技术关键词

文本行大语言模型实体识别方法样本图像指令数据获取方法布局格式标签答案坐标人工智能技术处理器通信可读存储介质存储器

系统为您推荐了相关专利信息

一种运单轨迹验真模型的训练方法、验真方法及装置

轨迹多层感知机验真方法货车数据

一种线状缺陷检测方法、系统、设备及存储介质

线状缺陷边缘轮廓边缘检测单元图像增强校验单元

基于深度学习的热仿真方法

流形学习方法有源相控阵雷达热仿真方法稳态网络

基于大语言模型的物联网HTTP模糊测试方法

模糊测试方法种子大语言模型协议数据采集策略

无人机运动控制方法、装置、电子设备以及存储介质

运动控制方法图像数据颜色无人机

数据获取方法、基于大模型的实体识别方法、设备及介质

站点导航

APP 下载