摘要
本发明涉及数据信息处理技术领域,具体为一种基于大语言模型的文本数据自动提取方法和设备。所述方法包括获取目标文本,并将其转化为Markdown格式的文本数据集,文本数据集包括文本数据和表格数据;根据大语言模型构建实体提取提示词,利用大语言模型和实体提取提示词从文本数据集中提取包含目标数据的目标实体,并记录目标实体数量;根据大语言模型构建关系抽取提示词,基于目标实体和目标实体数量,利用大语言模型和关系抽取提示词对文本数据集进行关系抽取,得到目标文本数据集;采用最短路径匹配算法对目标文本数据集进行匹配,得到结构化的目标文本数据。以此方式,可以发挥大语言模型成本低、能力强、速度快和泛化性好的优势,提高文本数据的利用效率。
技术关键词
大语言模型
文本
实体
词典
数据自动提取方法
BERT模型
关系
数据信息处理技术
样本
路径匹配
字符
索引
注意力
编码器
处理器通信
格式
表格
矩阵
系统为您推荐了相关专利信息
数据资产化方法
构建知识图谱
机器学习算法
实体
企业
大语言模型
医疗知识图谱
计算机可读取存储介质
对话方法
策略