一种基于大语言模型的文本数据自动提取方法和设备

正文

推荐专利

申请号：CN202511096892

申请日期：2025-08-06

公开号：CN120911446A

公开日期：2025-11-07

类型：发明专利

摘要

本发明涉及数据信息处理技术领域，具体为一种基于大语言模型的文本数据自动提取方法和设备。所述方法包括获取目标文本，并将其转化为Markdown格式的文本数据集，文本数据集包括文本数据和表格数据；根据大语言模型构建实体提取提示词，利用大语言模型和实体提取提示词从文本数据集中提取包含目标数据的目标实体，并记录目标实体数量；根据大语言模型构建关系抽取提示词，基于目标实体和目标实体数量，利用大语言模型和关系抽取提示词对文本数据集进行关系抽取，得到目标文本数据集；采用最短路径匹配算法对目标文本数据集进行匹配，得到结构化的目标文本数据。以此方式，可以发挥大语言模型成本低、能力强、速度快和泛化性好的优势，提高文本数据的利用效率。

技术关键词

大语言模型文本实体词典数据自动提取方法 BERT模型关系数据信息处理技术样本路径匹配字符索引注意力编码器处理器通信格式表格矩阵

系统为您推荐了相关专利信息

一种咨询服务语料数据资产化方法

数据资产化方法构建知识图谱机器学习算法实体企业

一种基于YOLO与VLM融合的水库安全智能巡检方法及其系统

智能巡检方法水库文本报告坝体

一种空调系统及其控制方法

大语言模型文本意图控制空调设备模板

一种运维试题的自动生成方法、装置、介质及设备

文本实体生成知识自动生成方法运维

一种以症状清晰化为目的的智能问诊对话方法和系统

大语言模型医疗知识图谱计算机可读取存储介质对话方法策略

一种基于大语言模型的文本数据自动提取方法和设备

站点导航

APP 下载