摘要
本申请公开了一种基于大模型构建的政务问答数据自动生成方法、装置、设备及介质,涉及计算机技术领域。包括:利用预设爬虫程序获取目标网站公开栏目的网页内容,并对所述网页内容进行解析以得到与所述网页内容对应的原始信息数据;对所述原始信息数据进行数据清洗以及预处理操作,以得到目标信息数据;基于所述目标信息数据通过深度学习模型提取关键信息以生成若干问答对,并对所述问答对进行数据增强与类别平衡处理以得到问答数据集;对所述问答数据集进行整合,并利用整合后的问答数据集对当前政务问答系统模型进行训练优化。由此能够通过自动化、智能化的方式,高效、准确地构建高质量的政务问答数据集。
技术关键词
数据自动生成方法
政务
爬虫程序
深度学习模型
问答系统
信息提取规则
自然语言
公告栏
命名实体识别
抓取周期
词典
专业
训练集
哈希算法
答案
格式
生成装置
语义
可读存储介质
系统为您推荐了相关专利信息
数据处理方法
数据优化技术
决策支持系统
操作系统
数据可视化
识别方法
煤岩图像
深度学习模型训练
煤矿环境
非暂态计算机可读存储介质
深度学习模型
数据治理系统
原始图像数据
数据治理方法
工程监理
故障预测系统
数据收集模块
深度学习模型
深度学习技术
服务器故障管理