摘要
本发明提供应用于智能对话大模型的推理加速优化方法及系统,属于大模型技术领域,首先获取待推理对话序列及推理环境配置信息,其中待推理对话序列包含用户实时输入文本和历史交互语句链,推理环境配置信息涵盖运算节点负载状态和缓存资源占用信息,接着对两者进行联合流程解构处理,得到推理节点依赖图谱和资源弹性需求清单,再基于上述结果执行推理链路优化处理,生成推理加速执行方案,包含推理节点并行调度规则和资源预分配策略,依据该推理加速执行方案调控推理运算流程,生成加速处理后的对话响应序列,最后将加速处理后的对话响应序列推送至用户交互终端完成智能对话输出,从而有效提升智能对话大模型的推理速度,优化对话交互体验。
技术关键词
节点
语义
环境配置信息
层级
资源预留
资源使用量
序列
图谱
硬件处理单元
标记
交互终端
动态
缓存资源管理
关系
复杂度
核心
边界检测算法
语句
标识
系统为您推荐了相关专利信息
无人机数据采集
生成式对抗网络
数据估计方法
多头注意力机制
路段
无功补偿系统
SVG设备
电网拓扑结构
路径特征
节点