摘要
本发明提供了一种基于二元语言模型的公文密标识别方法及系统,获取目标文本;对目标文本进行分词,获取词集合;判定词集合中的各个词是否为涉及到目标词语;若不是,则对应的词不是密标;判断该词与其前一个词是否有语义关系,如果有则对应的词不是密标,判断该词与其后一个词是否有语义关系,如果有则对应的词不是密标,判断该词与其前一个词的互信息量是否大于等于设定阈值,如果是则对应的词不是密标,判断该词与其后一个词的互信息量是否大于等于预定阈值,如果是对应的词不是密标,若不满足则判定是密标。本发明将密标识别类比为真词错误检测,并借助二元连续模型进行密标判定,以克服现有技术的不足,实现准确、高效的密标识别。
技术关键词
识别方法
分词
文本
语义
词语
关系
错误检测
模块
识别系统
处理器
存储器
计算机
样本
标识
电子设备
指令
数据
矩阵
频率
系统为您推荐了相关专利信息
电话会议系统
语音识别模块
存储通话记录
服务质量报告
服务质量分析
状态识别方法
波形
小波去噪方法
注意力机制
混凝土试样