摘要
本发明属于文本处理技术领域,具体涉及基于关键词检索DOCX文档内容的方法及系统,包括通过解析DOCX文档的Office Open XML结构,结合样式名称等多维特征,利用标题分类得分模型精准区分标题与正文,有效保留了文档的语义层级结构;其次,引入多级语义扩展机制,融合Sentence‑BERT、HowNet知识库与Word2Vec模型,实现对关键词的同义词、近义词智能扩展,显著提升检索的召回率与语义理解能力。再者,采用BM25模型结合段落长度归一化与结构位置权重计算相关性得分,使检索结果排序更加精准合理。倒排索引的构建结合位置编码与压缩优化策略,兼顾检索效率与存储性能。
技术关键词
关键词
同义词
语义
模式匹配
索引
文本
样式
中文分词工具
停用词表
缓存命中率
摘要
自然语言
多级缓存机制
位置映射
模块
序列
字符
列表
模型树
系统为您推荐了相关专利信息
公证摇号方法
国密算法
摇号系统
种子
伪随机数生成器