摘要
本申请涉及数据处理技术领域,尤其涉及一种文本生成序列长度预测模型及其训练方法,通过在开源大语言模型生成token的过程中,引入了一个目标网络结构,嫁接于开源大语言模型的后方,用于在开源大语言模型生成token的同时,预测完成当前对话还需要继续生成的token数量。其中,目标网络结构可以包括可训练请求网络结构、Transformer网络结构和Linear网络结构,通过结合开源大语言模型和目标网络结构,能够在文本生成的同时进行序列长度的预测。
技术关键词
网络结构
大语言模型
序列
文本
开源社区
指令
精度
数据处理技术
处理器
存储器
线性
注意力
编码
电子设备
参数