一种基于增强对比学习与多任务优化的短文本匹配方法

正文

推荐专利

申请号：CN202511098604

申请日期：2025-08-06

公开号：CN120911474A

公开日期：2025-11-07

类型：发明专利

摘要

本发明公开了一种基于增强对比学习与多任务优化的短文本匹配方法，属于自然语言处理技术领域。该方法通过融合通用领域与医学领域文本构建多源数据集，采用生成式语言模型生成高质量难负例形成训练三元组，并引入基于医学形近字字典的字符级噪声增强机制模拟OCR错误；以ALBERT为编码器，联合优化有监督对比学习与掩码语言建模任务，通过动态梯度平衡实现多任务协同训练，最终获得具有强语义判别能力和噪声鲁棒性的短文本匹配模型。在心血管领域含50%OCR噪声的测试集上，本方法准确率达到94.3%，较传统BERT‑base模型提升12.2个百分点。

技术关键词

形近字字典三元组多任务协同训练文本多任务联合训练语义样本局部敏感哈希医学损失函数优化噪声鲁棒性光学字符识别锚点编码器数据自然语言

系统为您推荐了相关专利信息

访客提醒方法、多模态融合大模型的微调方法及相关装置

多模态访客提醒方法文本微调方法指令

基于医学图像的分析方法、装置、电子设备和存储介质

感兴趣文本特征数据库医学编码模块

基于稳态分布与聚类的无监督跨模态哈希检索方法

编码稳态集群矩阵跨模态

一种基于大模型的电网知识管理方法及系统

知识管理方法实体三元组关系序列

使用多模态大型语言模型进行分类

文本编码器预测特征查询特征多模态生成图像特征

一种基于增强对比学习与多任务优化的短文本匹配方法

站点导航

APP 下载