摘要
本发明涉及文本匹配辅助标注领域,具体来说是一种基于语义理解的端到端文本匹配辅助标注方法,包括S1.基于语义理解的PDF关键信息抽取;S2.基于非监督算法的多专家模型推荐,结合非监督学习算法和预训练语言模型,将多个专家模型的输出融合为一个集成模型进行大规模综合打分,对于每条文档数据,选取最终得分最高的若干条检索数据作为推荐,最终由人类专家进行标注。本发明同现有技术相比,其优点在于:提高文本匹配和标注的效率、准确性和实用价值,提高系统的易用性和一体性,减少人力标注成本,提高关键信息定位和抽取能力,极大减少文字转换的资源开销,并降低文字抽取结果的噪音。
技术关键词
辅助标注方法
文本
关键词
预训练语言模型
非监督
训练词向量模型
语义
学习算法
实体
列表
一体性
标签
页面
数据
人类
样本
答案
人力
系统为您推荐了相关专利信息
语句优化方法
大语言模型
文本
元素
SQL优化技术
业务流程信息
大语言模型
信息提取方法
信息提取系统
文本