摘要
本发明公开了一种评估大型语言模型在建筑领域应用效果的方法及系统,涉及计算机技术领域,包括以下步骤:S1,构建建筑学知识体系,并整理所述建筑学知识体系的试题集;S2,从所述试题集中抽取测试集,对具有代表性的大语言模型进行稳定性和有效率的初步测试,确定合适的测试集大小;S3,利用所述S2中确定的大小重新抽取测试集,分别用AO与COT方法对各个待测大语言模型进行提问,通过计算这两种方法正确率的均值差异,用配对样本t检验对均值差异进行统计验证得到大型语言模型在建筑领域应用效果的客观结论。本发明可定量分析大语言模型(LLM)在复杂建筑任务中的准确性和稳定性,客观判断LLM对建筑领域的整体优化效果,提升其在建筑领域的应用效果。
技术关键词
大语言模型
建筑
正确率
有效率
提问方法
处理器
样本
计算机设备
可读存储介质
模块
答案
程序
系统为您推荐了相关专利信息
语音特征信息
语音识别方法
文本
计算机执行指令
金融
漏洞检测方法
大语言模型
前馈神经网络
注意力机制
矩阵
文本数据处理方法
知识库系统
层级
大语言模型
问答系统