一种基于主动学习与预训练大模型的体检文本标注系统及方法

正文

推荐专利

申请号：CN202510187282

申请日期：2025-02-19

公开号：CN120123507A

公开日期：2025-06-10

类型：发明专利

摘要

本发明属于自然语言处理领域，提出了一种基于主动学习的预训练大模型体检文本标注方法及系统。该方法通过以下流程实现：收集整理结构化和非结构化健康体检数据，专家手动预标注少量样本并规范格式；选取适配医学领域任务的预训练大模型；设计领域特异性提示词模板强化模型语义理解；采用监督微调与低秩适应技术进行参数优化；构建主动学习闭环，通过多轮迭代训练选择不确定性样本补充标注，并利用验证集动态优化模型；应用优化后模型对剩余数据进行智能标注。本方案解决了传统手工标注效率低、规则方法泛化能力差、机器学习模型算力需求高以及大模型领域适配不足的关键问题，能有效提升体检报告中病理特征、临床指标等医学实体的自动化提取精度。

技术关键词

文本标注系统文本标注方法主动学习策略样本更新模型参数矩阵格式标签检查点技术模型库标注平台优化器微调方法梯度下降法健康体检数据模型更新注意力机制

系统为您推荐了相关专利信息

一种肿瘤标志物组合检测方法

候选肿瘤标志物组合检测方法样本指标机器学习算法

一种基于可视化解题视频的生成方法、装置及电子设备

字幕语音生成方法视频样本

一种车端图像脱敏方法、系统、存储介质和车载终端

图像脱敏方法语义特征车载终端视频帧解码上采样

基于知识图谱和图神经网络的山洪灾害风险等级预测方法

山洪灾害风险节点特征知识图谱架构构建知识图谱数据

一种小样本条件下电能表运行状态评估方法及系统

电能表运行状态下电能表状态评估方法 LSTM模型电能表状态

一种基于主动学习与预训练大模型的体检文本标注系统及方法

站点导航

APP 下载