摘要
本发明涉及人工智能大模型应用技术领域,具体为一种面向国家数据标准文件智能提取数据元的方法及系统,包括以下步骤:读取数据标准文档内容,将读取的文档内容按照预设规则进行文本分块,编写大模型Prompt,编写大模型Prompt,将数据元和正则表达式提取结果持久化存储到数据库中;有益效果为:通过调试大模型prompt对国家标准文件进行深度语义解析,利用文本分段与自然语言处理技术相结合的手段,实现对文件中数据元的精准识别与提取。本发明能够快速、准确地从国家数据标准文件中获取关键数据信息,并将提取的数据元、数据规则信息数据结构标准化,可直接用于后续的数据建模、数据质检,极大地节省了人力和时间成本。
技术关键词
文本
分块
OCR文字识别
数据库表结构
国家标准文件
表格
信息数据结构
图片
识别模块
存储模块
自然语言
列表
定义
接口
语义
分段
人力
系统为您推荐了相关专利信息
大语言模型
多智能体协作
渗透测试方法
渗透测试工具
渗透测试装置
自然语言模型
情感反馈
深度学习模型
语音
车载终端
数据配准方法
卷积模块
卷积神经网络结构
三元组损失函数
并行数据处理