摘要
本申请提供了基于反馈及强化的模型微调方法及系统,涉及自然语言处理技术领域,方法包括:获取语言模型生成的输出文本并进行嵌入编码;识别文本中结构性语义单元,生成结构标记信息;基于结构标记信息构建低层胶囊集合,执行动态路由生成高层语义胶囊集合;依据高层语义胶囊集合与结构标记的映射关系构建结构表达矩阵;将该矩阵输入奖励评分模型生成强化学习回报值,并据此更新语言模型参数。该方法实现了语言模型结构感知能力与策略优化路径的闭环联动,可在无需人工标注的条件下提升文本生成结构性与语义一致性。
技术关键词
语义
胶囊
微调方法
文本
矩阵
强化学习策略
网络模块
序列
策略更新
动态
指标
锚点
微调系统
编码
生成结构
关系
标记单元
分子
通道
系统为您推荐了相关专利信息
统计评估方法
协方差矩阵
仿真模型
对象
协方差估计
方差贡献率
RNN模型
隐马尔可夫模型
特征值
成分分析
电池管理方法
电池健康状态
采样率
二值化神经网络
边缘控制器
调制模式识别方法
偏最小二乘回归算法
频谱特征
矩阵
非线性