基于反馈及强化的模型微调方法及系统

正文

推荐专利

基于反馈及强化的模型微调方法及系统

申请号：CN202511063207

申请日期：2025-07-31

公开号：CN120562523B

公开日期：2025-10-31

类型：发明专利

摘要

本申请提供了基于反馈及强化的模型微调方法及系统，涉及自然语言处理技术领域，方法包括：获取语言模型生成的输出文本并进行嵌入编码；识别文本中结构性语义单元，生成结构标记信息；基于结构标记信息构建低层胶囊集合，执行动态路由生成高层语义胶囊集合；依据高层语义胶囊集合与结构标记的映射关系构建结构表达矩阵；将该矩阵输入奖励评分模型生成强化学习回报值，并据此更新语言模型参数。该方法实现了语言模型结构感知能力与策略优化路径的闭环联动，可在无需人工标注的条件下提升文本生成结构性与语义一致性。

技术关键词

语义胶囊微调方法文本矩阵强化学习策略网络模块序列策略更新动态指标锚点微调系统编码生成结构关系标记单元分子通道

系统为您推荐了相关专利信息

雷电附着点仿真与试验结果多维相似性统计评估方法

统计评估方法协方差矩阵仿真模型对象协方差估计

电网电力负荷预测方法、装置和电子设备

方差贡献率 RNN模型隐马尔可夫模型特征值成分分析

一种电池管理方法和车辆

电池管理方法电池健康状态采样率二值化神经网络边缘控制器

基于压缩采样重构特征的调制模式识别方法

调制模式识别方法偏最小二乘回归算法频谱特征矩阵非线性

一种基于同态评价的鲁棒隐私联邦学习方法

联邦学习方法信誉值加密服务器概率密度函数

基于反馈及强化的模型微调方法及系统

站点导航

APP 下载