基于多模态反馈与强化学习的大语言模型优化方法和装置

正文

推荐专利

申请号：CN202510885917

申请日期：2025-06-30

公开号：CN120386849B

公开日期：2025-09-12

类型：发明专利

摘要

本公开的实施例公开了基于多模态反馈与强化学习的大语言模型优化方法和装置。该方法的一具体实施方式包括：获取答复信息集和页面反馈集；去除异常答复信息，得到正常答复信息集；确定每个正常答复信息对应的满意信息；生成第一反馈数据集；筛选出目标答复信息集；对于每个目标答复信息，执行数据生成步骤：将对应初始答复信息作为锚样本，对应答复质量高于锚样本的答复内容作为正样本，对应答复质量低于锚样本的答复内容作为负样本；生成第二反馈数据；对大语言模型进行模型训练。该实施方式通过页面反馈的多模态信息和大语言模型多轮输出的表现情况，可以高效地对大语言模型进行训练，得到输出更为精准的大语言模型。

技术关键词

语义页面停留时长语言模型优化方法样本大语言模型隐性反馈信息序列评论情感倾向划分方法聚类算法因子数据多模态动态答案数值有效性图谱三元组

系统为您推荐了相关专利信息

一种识别设备指纹的系统

信息处理子系统识别设备信息获取子系统接入设备模型构建设备

基于孪生数据多域挖掘的装备部件状态可信感知方法

传感特征卷积模块二维图像数据双向长短期记忆网络装备

一种电力系统暂态稳定预测模型的评估方法、装置和设备

样本评估预测模型电力系统评估装置数据获取模块

一种基于大模型的法律文书自动生成方法和系统

语义向量油墨自动生成方法特征校验文本区域识别

基于三维模型技术的机器人自主定位系统及方法

全局地图编码向量三维模型技术图像编码粗略

基于多模态反馈与强化学习的大语言模型优化方法和装置

站点导航

APP 下载