摘要
本发明实施例公开了一种基于动态温度因子改进的长上下文大模型的文本处理方法、装置、设备、存储及程序,其中,方法包括:获取目标数据集;其中,所述目标数据集包括扩展长度文本数据;将所述目标数据集输入至目标大模型中,以通过所述目标大模型对所述目标数据集进行文本处理,得到模型处理结果;其中,所述目标大模型采用动态温度因子对所述目标大模型的各注意力头进行动态调整。本发明实施例的技术方案能够自适应地调整大模型中各注意力头的注意力权重,增强大模型对长文本和复杂依赖关系的处理能力,从而提升大模型的泛化能力。
技术关键词
文本处理方法
因子
动态
数据
注意力机制
文本处理装置
样本
编码
可读存储介质
变换器
计算机程序产品
传播算法
电子设备
处理器通信
指令
旋转式
系统为您推荐了相关专利信息
智能翻译方法
智能翻译系统
硬件设备
文本
语音识别模型
摘要方法
预训练语言模型
数据
摘要系统
可读存储介质
人工智能助手
浏览器插件
隔离容器
历史访问数据
文档对象模型