一种面向垂直领域的问答对生成及微调数据集构建方法

AITNT
正文
推荐专利
一种面向垂直领域的问答对生成及微调数据集构建方法
申请号:CN202510490903
申请日期:2025-04-18
公开号:CN120561224A
公开日期:2025-08-29
类型:发明专利
摘要
本发明公开了一种面向垂直领域的问答对生成及微调数据集构建方法,包括:从官方专利数据库公开的专利文献中下载目标垂直领域的专利数据集合;选取专利文本,逐一提取出技术观点生成“回答”,并为之匹配对应的“问题”,进而生成问答对;对每个问答对进行标注;对每个问答对进行审核,未通过审核的问答对标记为无效数据;通过审核的问答对录入问答对数据集合;对问答对进行数据清洗;构建高质量微调数据集。本发明以专利文本为数据入口,通过赋予唯一溯源码及“人工提取+AI生成+人工审核”的人机协作机制,兼顾了可靠性和成本效率,确保数据可溯源性,显著降低模型幻觉风险,以实现垂直领域智能研发的技术落地。
技术关键词
问答对生成方法 数据集构建方法 问答对数据 开发计算机程序 溯源码 标签 对齐技术 开源工具 文本段落 下载方法 人机协作 观点 数据格式 训练集 标记 摘要 术语 语义
系统为您推荐了相关专利信息
1
一种基于元学习的传染病问答方法及系统
问答模型 问答对数据 问答方法 矩阵 实体
2
任务驱动的多智能体应急决策支持方法及装置
问答对数据 案例库 决策支持模型 决策支持方法 报告
3
一种针对Non-IID语言数据的个性化智能客服方法及系统
智能客服方法 客户端 参数 重构矩阵 问答对数据
4
一种基于企业内部管理手册的问答方法
问答对数据 企业内部管理 问答方法 手册 答案
5
一种基于人机协同的中文网络暴力事件数据集构建方法
数据集构建方法 人机协同 标签 大语言模型 社交媒体平台
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号