摘要
本发明公开了一种基于损失阈值和动态权重的自适应医学文本分类方法,对预先获取的医疗文本进行预处理,然后使用分词器进行文本分词,生成对应的字符序列并进行语义特征编码;基于样本损失分布确定易或难样本阈值,并在后续每轮训练中依据该阈值对样本进行易或难标记与动态权重更新;将医疗文本的语义嵌入与首次被判定为易样本的轮次及最终权重信息融合,以融合特征在特征空间中进行三类数据分层划分,自适应动态再训练预训练语言模型,使模型先在简单难度数据集上进行训练,并根据验证集性能增益动态引入中等及困难难度样本,直至模型在完整的数据集上性能收敛。本发明能提升医学文本分类任务的收敛速度、分类精度和鲁棒性。
技术关键词
文本分类方法
预训练语言模型
样本
预训练模型
动态
语义特征
数据
医学
字符
融合特征
序列
标记
分词
鲁棒性
分层
训练集
编码
指标
系统为您推荐了相关专利信息
动态知识图谱
多模态数据融合
神经网络推理
子模块
实体链接技术
控制机器人动作
机器人控制方法
手势
电子皮肤
神经网络模型
传输优化方法
数据传输策略
计算机可执行指令
动态
构建数据融合模型
多线程调度方法
移动机器人控制
运输设备
动态地
终点