摘要
本公开提供了一种基于大模型的文本生成方法和文本生成模型的训练方法、装置、设备、介质、程序产品,涉及人工智能技术领域,尤其涉及深度学习、自然语言处理和大模型等技术领域。文本生成方法的具体实现方案为:获取针对待处理文本的记忆状态;记忆状态是基于待处理文本的在前文本生成的;以待处理文本的嵌入特征作为初始隐藏状态,采用第一注意力机制对记忆状态和初始隐藏状态进行处理,得到更新后隐藏状态;以及基于更新后隐藏状态,生成针对待处理文本的在后文本。
技术关键词
记忆
文本生成模型
状态更新
嵌入特征
双向注意力机制
编码
文本生成方法
序列
子模块
传播算法
网络
模型训练模块
样本
文本生成装置
指令
处理器
人工智能技术
系统为您推荐了相关专利信息
数据生成方法
序列
长短期记忆网络
变量
数据生成装置
化妆品玻璃瓶
打磨件
动态控制参数
超声空化效应
表面打磨方法
卷积神经网络模型
长短期记忆网络
核心
故障类别
分析方法
时间序列预测方法
正交变换
矩阵
运动向量信息
多模型协同