摘要
本发明属于金融科技与人工智能交叉技术领域,公开了金融数据驱动的多模态大模型强化学习训练方法及装置。本发明利用GRPO实现了多模态模型对股票图具体准确的分析;设计动态奖励函数,通过匹配格式标签、文本语义相似度和分段奖励机制三重反馈优化模型输出,解决了传统方法因模态割裂导致的股票图表解读准确性不足的问题;利用专家知识引导的GRPO策略优化,在训练过程中通过动态调整策略更新的阈值范围,使模型在训练过程中既能充分学习历史数据中的技术形态规律,又能适应市场突发变化特征,从而提升模型在未见数据上的泛化性能。
技术关键词
学习训练方法
金融技术分析
人工智能交叉技术
标签文本
学习训练装置
大语言模型
格式
学习历史数据
语义向量
样本
强化学习模型
更新模型参数
分段
评分机制
策略更新
系统为您推荐了相关专利信息
图像预测方法
肺结节图像
多模态
肺结节良恶性预测
分类特征
同步调相机
故障监测系统
分布式传感器
故障诊断系统
融合神经网络
大语言模型
通信桥接装置
决策系统
决策方法
蒙特卡洛树搜索
注意力
矩阵
多标签文本分类
文本分类技术
处理器