摘要
本发明提出一种基于并行解码的大语言模型高效推理方法及系统,属于人工智能技术领域,包括:获取用户问题,并进行预处理;将预处理后的用户问题进行并行解码,并行解码包括答案框架生成阶段、论点扩展阶段和结果整合阶段;并行解码中结合混合精度计算和KV缓存量化技术对大语言模型推理过程进行深度优化,通过对答案框架中每个论点并行进行细节扩展,使得每个部分的内容同时生成,得到扩展内容;利用大模型的并行处理能力同步扩展这些要点内容。此过程不仅加速了信息充实的步骤,还保证了最终答案的完整性;能够在保证生成文本质量和逻辑连贯性的前提下,大幅缩短推理时间,提升大语言模型的实际应用效能。
技术关键词
答案
推理方法
格式
阶段
注意力机制
大语言模型
框架组合
可读存储介质
精度
计算机程序指令
推理系统
存储计算机程序
人工智能技术
策略
解码模块
电子设备
输入模块