摘要
本发明公开了一种大语言模型动态分级提示压缩方法、系统、装置和存储介质,属于深度学习、强化学习和大语言模型等技术领域。其中方法包括:构建提示压缩的马尔可夫决策过程;训练语言模型对齐目标大模型输出分布;综合设计压缩比、输出对齐和信息保留的奖励函数;根据近端策略优化的强化学习算法和课程学习训练压缩智能体;使用压缩智能体对输入提示进行动态压缩。本发明通过基于强化学习的动态分级提示压缩方法,旨在解决当前提示压缩技术中压缩比与关键信息保留之间难以平衡、方法泛化性不足、缺乏自适应调整机制等问题。
技术关键词
大语言模型
强化学习算法
训练语言模型
策略
动态
训练智能体
处理器
压缩系统
压缩装置
决策
程序
网络
模块
可读存储介质
阶段
度量
语义
文本
存储器
计算机
系统为您推荐了相关专利信息
智能交通预测
动态
基础设施规划
强度
LSTM模型
中文文本纠错
字符
多粒度特征
语言知识库
预训练语言模型
致动装置
驱动信号
摄像头模组
供电装置
电压驱动方式