摘要
本发明属于信息提取技术领域,本发明公开了一种基于多类型病历文本的结构化信息提取方法,主要针对结构化信息提取前的准备阶段,旨在将复杂度过高的病历文本转化为简化文本,以方便后续的信息提取工作,首先对收集到的各种类型病历文本数据进行预处理,形成高维向量,接着,利用高斯混合模型构建异常检测模型,优化模型的准确性和鲁棒性,随后,根据模型输出的复杂度状态信号,对不符合标准的病历文本通过余弦相似度寻找最相似的参考文本以生成简化文本,并进行拼写和语法校验以提升文本质量,从而全面提高医疗数据分析的效率和准确性。
技术关键词
结构化信息提取方法
文本
病历
复杂度
字典
句法结构
BERT模型
高斯混合模型
期望最大化算法
编辑
信息提取技术
协方差矩阵
情感分析技术
动态规划算法
训练集
计算方法
概率密度函数
标注技术
信号
列表