摘要
本发明公开了一种面向垂直领域的问答对生成及微调数据集构建方法,包括:从官方专利数据库公开的专利文献中下载目标垂直领域的专利数据集合;选取专利文本,逐一提取出技术观点生成“回答”,并为之匹配对应的“问题”,进而生成问答对;对每个问答对进行标注;对每个问答对进行审核,未通过审核的问答对标记为无效数据;通过审核的问答对录入问答对数据集合;对问答对进行数据清洗;构建高质量微调数据集。本发明以专利文本为数据入口,通过赋予唯一溯源码及“人工提取+AI生成+人工审核”的人机协作机制,兼顾了可靠性和成本效率,确保数据可溯源性,显著降低模型幻觉风险,以实现垂直领域智能研发的技术落地。
技术关键词
问答对生成方法
数据集构建方法
问答对数据
开发计算机程序
溯源码
标签
对齐技术
开源工具
文本段落
下载方法
人机协作
观点
数据格式
训练集
标记
摘要
术语
语义
系统为您推荐了相关专利信息
问答对数据
案例库
决策支持模型
决策支持方法
报告
数据集构建方法
人机协同
标签
大语言模型
社交媒体平台