摘要
本发明公开了一种面向正负样本不平衡的医疗知识库语义匹配方法及装置,包括:获取医疗场景对话中的搜索词和客户问句并结合医疗知识库中的匹配问句构建得到训练数据;分别提取训练数据中的样本对的主题和意图并得到主题与意图一致性分类结果;根据训练数据中的样本对的相似性标签、主题与意图一致性分类结果以及第一相似度向量构建基于主题意图一致性约束的焦点损失函数,基于学生模型和教师模型构建蒸馏损失函数,基于焦点损失函数和蒸馏损失函数构建总损失函数,利用总损失函数完成从教师模型到学生模型的知识蒸馏,得到经训练的学生模型;利用该经训练的学生模型进行语义匹配。本发明解决医疗对话数据的分布失衡导致模型预测准确率低的问题。
技术关键词
语义匹配方法
焦点损失函数
样本
意图
主题
学生
蒸馏
医疗场景
教师
客户
搜索词
数据
DBSCAN聚类算法
标签
投影特征
编码器
处理器
大语言模型
多层感知机
系统为您推荐了相关专利信息
全基因组芯片
马尾松
全基因组关联分析
种质资源鉴定
标记
轴承故障诊断方法
预测类别
样本
采集现场
轴承故障诊断系统
风光
微型燃气轮机
预测误差
电热锅炉
精准调度方法
攻击检测方法
大语言模型
恶意实体
评分机制
多模型协同