一种基于并行解码的大语言模型高效推理方法及系统

正文

推荐专利

申请号：CN202411102651

申请日期：2024-08-13

公开号：CN118627629B

公开日期：2025-01-07

类型：发明专利

摘要

本发明提出一种基于并行解码的大语言模型高效推理方法及系统，属于人工智能技术领域，包括：获取用户问题，并进行预处理；将预处理后的用户问题进行并行解码，并行解码包括答案框架生成阶段、论点扩展阶段和结果整合阶段；并行解码中结合混合精度计算和KV缓存量化技术对大语言模型推理过程进行深度优化，通过对答案框架中每个论点并行进行细节扩展，使得每个部分的内容同时生成，得到扩展内容；利用大模型的并行处理能力同步扩展这些要点内容。此过程不仅加速了信息充实的步骤，还保证了最终答案的完整性；能够在保证生成文本质量和逻辑连贯性的前提下，大幅缩短推理时间，提升大语言模型的实际应用效能。

技术关键词

答案推理方法格式阶段注意力机制大语言模型框架组合可读存储介质精度计算机程序指令推理系统存储计算机程序人工智能技术策略解码模块电子设备输入模块

一种基于并行解码的大语言模型高效推理方法及系统

站点导航

APP 下载