摘要
本发明公开了一种多维度大模型测试评价方法及系统,属于人工智能测试技术领域,融合基础模型、平台能力与应用性能实现多维度大模型测试评价,包括:基础模型能力评价,包括敏感词库+BERT语义双引擎安全检测和上下文依赖测试链;模型平台能力评价,包括预置LLM智能标注和双人背靠背数据回流;应用性能评价,包括字符扰动鲁棒性测试和LIME可解释性分级评估;通过RESTful异构模型纳管接口实现大模型全栈测试,基于GPU衰减率量化实现国产化兼容性适配验证。本发明解决现有技术对平台工程化能力、安全合规性及国产化支持的评价缺失问题,实现三维能力耦合评测,解决国产化适配难题,填补大模型全栈测试技术空白。
技术关键词
测试评价方法
语义
文本
机器可读程序
人工智能测试
测试评价装置
测试评价系统
鲁棒性
分布式训练
平台
双人
字符
分类准确率
置信度阈值
多轮对话
基础
风险
计算机
数据
异构
系统为您推荐了相关专利信息
三维网格分割
三维网格数据
线提取方法
三角网格数据
平滑边缘
语音特征数据
高维特征向量
AR设备
动作特征
视觉特征
监管方法
药盒
多模态信息融合
深度学习算法
语义
智能闹钟控制方法
音乐播放参数
智能蓝牙耳机
闹铃
音频