一种多维度大模型测试评价方法及系统

正文

推荐专利

一种多维度大模型测试评价方法及系统

申请号：CN202511062330

申请日期：2025-07-31

公开号：CN120561929B

公开日期：2025-11-18

类型：发明专利

摘要

本发明公开了一种多维度大模型测试评价方法及系统，属于人工智能测试技术领域，融合基础模型、平台能力与应用性能实现多维度大模型测试评价，包括：基础模型能力评价，包括敏感词库+BERT语义双引擎安全检测和上下文依赖测试链；模型平台能力评价，包括预置LLM智能标注和双人背靠背数据回流；应用性能评价，包括字符扰动鲁棒性测试和LIME可解释性分级评估；通过RESTful异构模型纳管接口实现大模型全栈测试，基于GPU衰减率量化实现国产化兼容性适配验证。本发明解决现有技术对平台工程化能力、安全合规性及国产化支持的评价缺失问题，实现三维能力耦合评测，解决国产化适配难题，填补大模型全栈测试技术空白。

技术关键词

测试评价方法语义文本机器可读程序人工智能测试测试评价装置测试评价系统鲁棒性分布式训练平台双人字符分类准确率置信度阈值多轮对话基础风险计算机数据异构

系统为您推荐了相关专利信息

基于深度学习的全冠修复预备体边缘线提取方法及系统

三维网格分割三维网格数据线提取方法三角网格数据平滑边缘

一种多语言文字转录方法及系统

语音特征数据高维特征向量 AR设备动作特征视觉特征

一种基于图像识别的药品数量输送监管方法

监管方法药盒多模态信息融合深度学习算法语义

基于蓝牙音频SoC的智能闹钟控制方法、智能蓝牙耳机和存储介质

智能闹钟控制方法音乐播放参数智能蓝牙耳机闹铃音频

对话模型训练方法、医疗随访对话方法和装置

模型训练方法矩阵注意力对话方法多轮对话

一种多维度大模型测试评价方法及系统

站点导航

APP 下载