摘要
本申请公开了一种数据库问答模型训练方法及装置、存储介质、计算机设备,方法包括:将达标结构化查询语言语句、达标执行结果回答和达标自然语言问题进行关联,生成训练用标注数据;收集针对数据库可能提出的模拟衍生问题,得到训练用非标注数据。基于GRPO强化学习框架,以双塔模型所提供的评分奖励函数为基础,利用训练用标注数据对评分奖励函数进行训练,以及对数据库问答模型进行监督微调训练,结合训练用非标注数据、格式奖励、可执行奖励以及评分奖励函数的评分奖励,对进行监督微调训练后的数据库问答模型继续进行训练。通过少量标注数据进行初步训练,再由非标注数据进行后续训练,能够激发模型的推理能力,减少标注成本,提高训练效率。
技术关键词
结构化查询语言语句
自然语言
问答模型训练方法
数据库结构
执行器
强化学习框架
开源数据库
计算机设备
少量标注数据
格式
生成可执行
编码
深度学习模型
机制
处理器
训练装置
语义
模块
系统为您推荐了相关专利信息
权益保护方法
嵌入特征
多模态
分类特征
模态特征
机器人工具快换装置
嵌入式控制系统
工具盘
机械臂
驱动器
路面附着系数
计算机执行指令
障碍物
模式
悬架执行器
辅助系统
知识图谱构建
文档生成模块
定性风险评估
样本
三元组
BP神经网络构建
评价特征
技术创新
评价方法