摘要
本公开的实施例公开了基于多模态反馈与强化学习的大语言模型优化方法和装置。该方法的一具体实施方式包括:获取答复信息集和页面反馈集;去除异常答复信息,得到正常答复信息集;确定每个正常答复信息对应的满意信息;生成第一反馈数据集;筛选出目标答复信息集;对于每个目标答复信息,执行数据生成步骤:将对应初始答复信息作为锚样本,对应答复质量高于锚样本的答复内容作为正样本,对应答复质量低于锚样本的答复内容作为负样本;生成第二反馈数据;对大语言模型进行模型训练。该实施方式通过页面反馈的多模态信息和大语言模型多轮输出的表现情况,可以高效地对大语言模型进行训练,得到输出更为精准的大语言模型。
技术关键词
语义
页面停留时长
语言模型优化方法
样本
大语言模型
隐性反馈信息
序列
评论情感倾向
划分方法
聚类算法
因子
数据
多模态
动态
答案
数值
有效性
图谱
三元组
系统为您推荐了相关专利信息
信息处理子系统
识别设备
信息获取子系统
接入设备
模型构建设备
传感特征
卷积模块
二维图像数据
双向长短期记忆网络
装备
样本
评估预测模型
电力系统
评估装置
数据获取模块
语义向量
油墨
自动生成方法
特征校验
文本区域识别