摘要
本发明涉及人工智能技术领域,尤其是指一种多模态奖励模型的训练方法、系统及基于多模态大模型的问答方法,包括:根据原始文本偏好数据生成文本评估思维链数据集,再利用多模态大模型将文本评估思维链数据集和多模态原始偏好数据集中不同模态的数据进行对齐,构建初始多模态数据集;以初始多模态数据集微调多模态大模型,以激发多模态大模型的跨模态泛化能力,再利用微调后的跨模态判断模型生成全模态偏好数据集。本发明利用全模态偏好数据集训练得到的奖励模型不仅能够对不同模态下的生成结果进行细致、合理的偏好判断,还能生成具备因果逻辑的评估过程。
技术关键词
多模态
文本
数据
样本
模板
跨模态
问答方法
大语言模型
标签
模型训练模块
人工智能技术
训练系统
音频
逻辑
视频
算法
网络
图像
参数
系统为您推荐了相关专利信息
定性定量检测方法
表面活性剂
信号识别算法
参数
生成特征
机载设备
RFID读写天线
传输模块
数据转换模块
主控模块
风险评估模型
高精度时间同步方法
历史运行数据
预警终端
高速数据采集设备
视频切片方法
GOP图像组
视频帧
人工智能视频
电子设备