摘要
本发明提供了一种自然资源大模型问答的语义增强自适应分块方法及系统,旨在解决术语边界识别困难、语义完整性破坏等问题。该方法融合三项核心技术:主题感知粗粒度段落划分、自适应滑动窗口主题层级划分、嵌入感知的上下文自适应文本分割。系统先解析自然资源长文本结构,识别标题与主题层级并对齐关联内容;依据主题感知策略提取段落,按语法规则细分为句子集合;采用改进的滑动窗口机制将句子划分为窗口句块组。核心在于引入动态聚合阈值机制,通过嵌入感知的上下文语义分割技术,计算相邻句块之间的语义关联度,并结合相似度分布变化趋势,动态调整阈值判断是否合并句块,实现语义边界的自适应划定,以生成结构清晰、语义连贯的文本分块。
技术关键词
语义关联度
分块方法
层级
中文语法规则
自然资源
文本
主题
堆栈结构
动态
句法结构
树状结构
语义分割技术
滑动窗口机制
阈值机制
生成结构
策略
语义向量
系统为您推荐了相关专利信息
同义词
编辑距离算法
深度学习模型
商品数据处理
SMOTE算法
新能源场站
共享方法
动态特性参数
换流器
调度系统
混合电池管理系统
多级分层结构
协同管理模块
充放电功率
标记
数据管理方法
物理存储单元
虚拟存储单元
标识
数据管理装置