摘要
本发明公开了一种基于增强对比学习与多任务优化的短文本匹配方法,属于自然语言处理技术领域。该方法通过融合通用领域与医学领域文本构建多源数据集,采用生成式语言模型生成高质量难负例形成训练三元组,并引入基于医学形近字字典的字符级噪声增强机制模拟OCR错误;以ALBERT为编码器,联合优化有监督对比学习与掩码语言建模任务,通过动态梯度平衡实现多任务协同训练,最终获得具有强语义判别能力和噪声鲁棒性的短文本匹配模型。在心血管领域含50%OCR噪声的测试集上,本方法准确率达到94.3%,较传统BERT‑base模型提升12.2个百分点。
技术关键词
形近字字典
三元组
多任务协同训练
文本
多任务联合训练
语义
样本
局部敏感哈希
医学
损失函数优化
噪声鲁棒性
光学字符识别
锚点
编码器
数据
自然语言
系统为您推荐了相关专利信息
文本编码器
预测特征
查询特征
多模态
生成图像特征