基于关键词检索DOCX文档内容的方法及系统

AITNT
正文
推荐专利
基于关键词检索DOCX文档内容的方法及系统
申请号:CN202511574244
申请日期:2025-10-31
公开号:CN121029978A
公开日期:2025-11-28
类型:发明专利
摘要
本发明属于文本处理技术领域,具体涉及基于关键词检索DOCX文档内容的方法及系统,包括通过解析DOCX文档的Office Open XML结构,结合样式名称等多维特征,利用标题分类得分模型精准区分标题与正文,有效保留了文档的语义层级结构;其次,引入多级语义扩展机制,融合Sentence‑BERT、HowNet知识库与Word2Vec模型,实现对关键词的同义词、近义词智能扩展,显著提升检索的召回率与语义理解能力。再者,采用BM25模型结合段落长度归一化与结构位置权重计算相关性得分,使检索结果排序更加精准合理。倒排索引的构建结合位置编码与压缩优化策略,兼顾检索效率与存储性能。
技术关键词
关键词 同义词 语义 模式匹配 索引 文本 样式 中文分词工具 停用词表 缓存命中率 摘要 自然语言 多级缓存机制 位置映射 模块 序列 字符 列表 模型树
系统为您推荐了相关专利信息
1
一种基于国密算法可追溯的公证摇号系统及方法
公证摇号方法 国密算法 摇号系统 种子 伪随机数生成器
2
基于种子点的三维建筑物规则轮廓自动提取方法及设备
实景三维模型 网格 种子 建筑物墙体 索引
3
一种基于深度学习的实体标注与识别方法及装置
CRF模型 文本 BERT模型 识别方法 列表
4
一种基于水稻行识别的稻田导航线提取及跟踪方法
跟踪方法 农业机器人 稻田 语义分割模型 掩模
5
一种推理数据合成方法和系统
大语言模型 微调方法 数学 样本 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号