一种基于大模型构建的政务问答数据自动生成方法、装置、设备及介质

正文

推荐专利

申请号：CN202510372116

申请日期：2025-03-27

公开号：CN120162424A

公开日期：2025-06-17

类型：发明专利

摘要

本申请公开了一种基于大模型构建的政务问答数据自动生成方法、装置、设备及介质，涉及计算机技术领域。包括：利用预设爬虫程序获取目标网站公开栏目的网页内容，并对所述网页内容进行解析以得到与所述网页内容对应的原始信息数据；对所述原始信息数据进行数据清洗以及预处理操作，以得到目标信息数据；基于所述目标信息数据通过深度学习模型提取关键信息以生成若干问答对，并对所述问答对进行数据增强与类别平衡处理以得到问答数据集；对所述问答数据集进行整合，并利用整合后的问答数据集对当前政务问答系统模型进行训练优化。由此能够通过自动化、智能化的方式，高效、准确地构建高质量的政务问答数据集。

技术关键词

数据自动生成方法政务爬虫程序深度学习模型问答系统信息提取规则自然语言公告栏命名实体识别抓取周期词典专业训练集哈希算法答案格式生成装置语义可读存储介质

系统为您推荐了相关专利信息

一种适用于电鸿物联操作系统的边缘计算与数据优化技术

数据处理方法数据优化技术决策支持系统操作系统数据可视化

能源数据模型管理系统、电子设备以及计算机可读存储介质

子模块管理系统资源能源机器学习算法模型

一种基于深度学习的煤矿采面煤岩识别方法

识别方法煤岩图像深度学习模型训练煤矿环境非暂态计算机可读存储介质

一种基于工程监理平台的图像数据治理方法和系统

深度学习模型数据治理系统原始图像数据数据治理方法工程监理

一种基于深度学习的服务器故障预测系统

故障预测系统数据收集模块深度学习模型深度学习技术服务器故障管理

一种基于大模型构建的政务问答数据自动生成方法、装置、设备及介质

站点导航

APP 下载