摘要
本发明涉及人工智能技术领域,具体地说,涉及一种中小学教育辅导大模型的构建方法、系统、设备及介质;该方法首先将Qwen2.5‑3B‑Instruct作为基础模型,并根据获取的教学数据集构建训练数据集;然后根据训练数据集,构建奖励函数得到奖励值,并调用强化学习方法调整模型参数,得到强化后的基础模型;最后根据构建的教师风格数据集、设置的个性化提示词,以监督指令微调的方式微调强化后的基础模型,得到中小学教育辅导大模型,通过双阶段微调,提升了模型的推理能力,在保持较低计算资源需求的同时,提高老人模型面对复杂问题的处理能力并赋予其明确的教师风格。
技术关键词
强化学习方法
线性变换矩阵
基础
教师
风格
微调单元
电子设备上执行
适配器
问答对数据
指令
可读存储介质
生成答案
人工智能技术
计算机
数学
参数
构建系统
教学
系统为您推荐了相关专利信息
条斑紫菜
综合评价方法
支持向量回归模型
测定方法
指标