摘要
本公开提供了一种大语言模型的微调方法、直播处理方法、装置和设备,涉及深度学习、自然语言处理等技术领域,可应用于直播场景。该微调方法包括:根据直播间的第一样本事件集和预设的决策提示词生成决策提示语句;将所述决策提示语句输入第一大语言模型,通过所述第一大语言模型确定第一决策类型,并通过所述第一大语言模型根据所述第一决策类型和所述第一样本事件集预测直播间的第一直播内容;执行所述第一直播内容,并根据所述直播间在执行所述第一直播内容之后的用户行为数据确定所述第一直播内容的第一奖励值;根据所述第一奖励值,对所述第一大语言模型进行微调得到经微调的第二大语言模型,用于确定直播间的目标直播内容。
技术关键词
大语言模型
决策
语句
样本
子模块
意图
直播工具
微调方法
强化学习模型
编辑
基础
数据
指令执行单元
处理器
在线
计算机程序产品
微调装置
系统为您推荐了相关专利信息
说话人身份
单人
说话人识别方法
语音活动检测
标签
网络模拟方法
动态拓扑结构
动态演化过程
核心
链接预测方法
模型训练模块
决策树模型
数据分析模块
两点间距离
数据处理模块