摘要
本发明属于文档识别技术领域,具体涉及一种文档智能识别方法和计算机设备。本发明在处理正文文本时,在利用文本检测模型识别出正文文本内容以后,增加对语义消歧处理的步骤,具体为,先识别出其中的多义词和/或专有名词,然后采用参数估计法确定该多义词和/或专有名词最有可能的词义,进而在参数估计法无法匹配出较优的结果(即参数估计法估计出的该多义词和/或专有名词属于最可能的词义的概率低于设定概率阈值)后,进一步利用训练好的神经网络来确定该多义词和/或专有名词的词义,消除多义词在不同上下文中的理解偏差,明确专有名词的明确含义,实现了文档关键信息的解析和提取,便于用户对获取的知识的理解,提升了文档识别效果。
技术关键词
智能识别方法
多义词
文本检测模型
参数估计法
图片
表格
文档识别技术
结构化数据格式
计算机设备
合并单元格
条目
实体
神经网络模型
字段
图像
处理器
词语
关系
语义
系统为您推荐了相关专利信息
水稻结实率
无人机多光谱
数字表面模型
水稻冠层
机器学习算法
精准识别方法
融合多肽
活性肽
数据
深度学习模型
数据
汽车
配电网规划技术
机器可读介质
统计算法