摘要
本发明公开了一种在医疗文本中提取疾病及其症状和诱因的方法,步骤包括:获取医疗文本;从医疗文本中提取症状群信息及诱因链信息并输出;根据预设的句式规则,对医疗文本中的所有句子进行句式规则匹配,将符合预设的句式规则的句子进行分割,获得包含有效信息的子句群与不包含有效信息的子句群;对包含有效信息的子句群中的子句进行句式规则匹配,对每一个匹配到的子句进行信息提取,提取出症状表现和诱因的目标信息;依据除杂规则从提取的目标信息中选出符合除杂规则的目标信息;根据标记规则为符合除杂规则的目标信息中的每个子句匹配主语;输出主语和符合除杂规则的目标信息。本发明处理复杂文本的适应性强且信息提取的精度高。
技术关键词
文本
疾病
标志
光学字符识别技术
实体
网络爬虫技术
教科书
标记
专业
关键词
关系
医学
语义
逻辑
策略