摘要
本发明公开了一种面向航天控制软件领域问答大模型的微调数据集构造方法,首先将所有原始航天控制软件文档转换为各章节对应的结构化JSON文本,再对结构化JSON文本进行关键词提取;基于得到的关键词,生成与关键词相关且语义清晰的问题集合;接着,针对问题集合,生成各问题的多个候选答案,再对各问题的所有候选答案进行排序,再融合为一个连贯、全面且准确的最终答案;最后,基于各问题及相应的最终答案,构造微调数据集。本发明能够实现航天控制软件领域高质量问答数据集的生成,支撑航天控制软件领域大模型微调训练。
技术关键词
集构造方法
答案
关键词
航天
概率特征值
排序模型
sigmoid函数
样本
自然语言文本
数据
LDA模型
模板
语义
可读存储介质
维基百科
排序方法
处理器
聚类算法
系统为您推荐了相关专利信息
负载均衡方法
信息处理模型
标签
文本
电数字数据处理技术
模型检索方法
创建云主机
网络流量数据
风险
云平台