摘要
本发明涉及数据处理领域,具体是一种医疗问答大模型的语料库构建方法及系统,基于现有语料库构建三元组知识图谱,然后将网络中多个信息发布方的历史语料与三元组知识图谱进行匹配,从而确定多个信息发布方在历史信息发布过程中的可靠性,进而将可信的信息发布方筛选出。接着利用三元组知识图谱来对信息发布方发布的历史语料进行可信校验,如果发布的历史语料符合三元组知识图谱中的规律,则直接收录至当前语料库中。如果不符合,则放入扩展库中进行交叉验证或者人工校验。本申请可以利用网络语料对语料库进行扩充,在扩充时,利用现有语料库的三元组知识图谱来对信息发布方以及语料进行可靠性校验,保证了扩充语料的可靠性。
技术关键词
语料库构建方法
三元组
发布者
实体
模板
信息发布方
标签
关系
语料库构建系统
知识图谱构建
聚类
数据
匹配模块
表达式
数学
对象
网络
系统为您推荐了相关专利信息
评审系统
智能评审方法
关键词提取技术
实体识别技术
文本挖掘技术
实体
知识图谱数据
链路预测方法
门控神经网络
三元组
融合知识图谱
推理方法
序列标注模型
搜索算法
实体