一种面向国家数据标准文件智能提取数据元的方法及系统

正文

推荐专利

申请号：CN202510488705

申请日期：2025-04-18

公开号：CN120336507A

公开日期：2025-07-18

类型：发明专利

摘要

本发明涉及人工智能大模型应用技术领域，具体为一种面向国家数据标准文件智能提取数据元的方法及系统，包括以下步骤：读取数据标准文档内容，将读取的文档内容按照预设规则进行文本分块，编写大模型Prompt，编写大模型Prompt，将数据元和正则表达式提取结果持久化存储到数据库中；有益效果为：通过调试大模型prompt对国家标准文件进行深度语义解析，利用文本分段与自然语言处理技术相结合的手段，实现对文件中数据元的精准识别与提取。本发明能够快速、准确地从国家数据标准文件中获取关键数据信息，并将提取的数据元、数据规则信息数据结构标准化，可直接用于后续的数据建模、数据质检，极大地节省了人力和时间成本。

技术关键词

文本分块 OCR文字识别数据库表结构国家标准文件表格信息数据结构图片识别模块存储模块自然语言列表定义接口语义分段人力

系统为您推荐了相关专利信息

基于大语言模型多智能体协作的自动渗透测试方法及装置

大语言模型多智能体协作渗透测试方法渗透测试工具渗透测试装置

图像生成方法、装置、设备、计算机可读存储介质及产品

大语言模型媒体文本图像模板图像生成方法

提示音频的生成方法、装置、设备、介质

自然语言模型情感反馈深度学习模型语音车载终端

一种基于知识增强的文本纠错方法

文本纠错方法语句答案问答模型文本纠错系统

一种基于并行可变窗口卷积神经网络的数据配准方法

数据配准方法卷积模块卷积神经网络结构三元组损失函数并行数据处理

一种面向国家数据标准文件智能提取数据元的方法及系统

站点导航

APP 下载