摘要
本发明属于人工智能技术领域,涉及一种评估大型语言模型的写作能力的方法及系统,所述方法包括以下步骤:1)根据写作任务类型构建对应的评估树结构;2)动态确定所述评估树结构的所有叶子节点和子节点的权重;3)针对所述评估树结构的所有叶子节点或子节点,由负责对应特征的评分专家进行评分;4)采用深度优先遍历加权求和,逐层聚合所述评估树结构的叶子节点和子节点的评分至根节点,获取最终的评价分数。其是透明、可解释且支持动态权重分配的评测方法,解决了现有技术中评估维度片面、评分逻辑不透明、基准覆盖不足及鲁棒性差的问题,为大型语言模型写作能力的全面评测提供了系统化解决方案。
技术关键词
节点
深度优先遍历
格式
动态权重分配
排版
评测方法
人工智能技术
逻辑
处理器
分段
诗歌
可读存储介质
程序
模块
鲁棒性
代表
文章
做法
报告