摘要
本申请公开了一种医疗领域大模型回答质量测评方法及相关装置,涉及人工智能技术领域,考虑到待测评的医疗领域大模型回答对应的问题的专业性较强,以及表达多样性,首先基于该问题的参考回答提炼出来该问题的测评依据;在测评时,通过将待测评的医疗领域大模型回答、问题以及问题的测评依据输入到测评大模型中,即可得到测评结果。由于为测评大模型提供了测评依据,不需要测评大模型具有较强的医学能力,只要有基本的语义理解能力和逻辑能力即可判断出待测评的医疗领域大模型回答中是否解答了问题的核心部分,以及有没有细节的医学错误,因此,该方案能够实现对医疗领域大模型回答质量进行自动的、准确的测评。
技术关键词
测评方法
计算机可读指令
电子设备
模版
样本
测评装置
存储计算机程序
人工智能技术
计算机程序产品
标签
处理器
可读存储介质
医学
存储器
语义
逻辑
策略
核心