摘要
本申请涉及人工智能技术领域,提供了一种基于大模型的文案生成方法、装置、设备及介质。该方法使用了强化学习算法对大语言模型构成的文案生成基座模型进行调整训练,以使训练后的基座模型能够生成更为可靠、优质的文案;其中,在使用强化学习算法在对基座模型进行微调训练时,首先基于规则驱动类的第一奖励函数对基座模型进行第一次训练,然后利用奖励模型确定第二奖励函数,并将第一奖励函数和第二奖励函数加权组合得到目标奖励函数,再基于目标奖励函数对基座模型进行第二次训练,从而实现了对基座模型的细粒度优化,使得训练后的基座模型能够生成符合预期的文案,提升了用户体验。
技术关键词
生成文案
强化学习算法
基座
文案生成方法
大语言模型
风格
周期性
指令
可读存储介质
人工智能技术
处理器
资源
模块
生成装置
指标
格式
存储器
计算机
策略
系统为您推荐了相关专利信息
铆接方法
压电薄膜传感器
强化学习算法
深度确定性策略梯度
脉冲电源