摘要
本发明适用于提示词压缩技术领域,提供了一种用于边缘设备大模型的提示词压缩方法和系统。本发明通过对边缘设备大模型进行性能测试,建立输入长度与处理时间的回归模型,基于预设的预期处理时间,确定最长Prompt长度;将输入Prompt划分为多个关键段落和多个非关键段落,并计算多个非关键段落与多个关键段落的语义关联度;计算多个关键段落的关键总长度,将关键总长度与最长Prompt长度进行比较,对输入Prompt进行多轮Prompt压缩。能够通过关键段落导向的压缩方法,减轻压缩过程的工作量,兼顾推理精度与延迟需求,既能够在语义保留方面表现优秀,又能够限制内存消耗和推理延迟,有效支持后续的推理工作。
技术关键词
语义关联度
注意力
主题
性能测试数据
压缩系统
文本
随机森林
模块
代表
矩阵
表达式
钩子
工作量
内存
噪声
精度
参数
系统为您推荐了相关专利信息
评论情感分析方法
情感分析模型
数据
复杂度
在线
语义分割模型
预警方法
后处理算法
接收分析模块
预警规则
功率区间预测方法
注意力模型
气象
多层感知机
移动平均算法