一种医疗数据自然语言处理的分词方法及系统

AITNT
正文
推荐专利
一种医疗数据自然语言处理的分词方法及系统
申请号:CN202511222597
申请日期:2025-08-29
公开号:CN120930641A
公开日期:2025-11-11
类型:发明专利
摘要
本发明公开了一种医疗数据自然语言处理的分词方法及系统,该方法包括:构建包含基础术语集、组合术语集和缩写映射表的多级医学词典;基于多级医学词典体系,采用正向最大匹配法和逆向最大匹配法对输入文本进行扫描匹配,生成初始候选分词序列;将初始候选分词序列转换为融合字嵌入、词典标记嵌入和位置嵌入的输入特征向量,并将输入特征向量输入至改造后的BERT模型进行处理;对BERT模型输出的标签序列进行解码,以确定最终分词结果。通过结合双向最大匹配法生成初始候选分词序列,将其转换为融合多嵌入的特征向量,输入含术语增强层和条件随机场层的改造后BERT模型处理,经解码优化得最终分词结果,提升医疗文本分词精度与效率。
技术关键词
术语 分词方法 词典 BERT模型 自然语言 条件随机场 序列 语义向量 医学 文本 基础 解码 标签 注意力机制 字符 维特比算法 数据 标记 分词系统
系统为您推荐了相关专利信息
1
一种利用人工语言进行预训练来学习迁移知识的方法及介质
自然语言 预训练语言模型 编码器参数 嵌套结构 数据
2
法医口述记录的信息提炼与结构化处理方法及相关装置
滤波器 文本 大语言模型 计算误差信号 案件
3
一种基于客服问答知识库的智能交互方法及其装置
问答知识库 自然语言文本 智能交互方法 答案 偏好特征
4
一种跨企业发票风险协同识别方法和系统
发票 协同识别方法 风险 加密 节点
5
一种基于数字化智能分析的膳食结构评价方法及系统
膳食结构 评价方法 图像识别模型 数据可视化图表 多模态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号