长文本的延迟分块嵌入处理方法、装置及存储介质

AITNT
正文
推荐专利
长文本的延迟分块嵌入处理方法、装置及存储介质
申请号:CN202510795988
申请日期:2025-06-13
公开号:CN120851007A
公开日期:2025-10-28
类型:发明专利
摘要
本申请公开了一种长文本的延迟分块嵌入处理方法、装置及存储介质,属于文本处理技术领域。方法包括:对目标文本进行嵌入处理,得到目标文本对应的嵌入向量序列;根据分块策略基于目标文本的结构确定对目标文本进行分块的分块位置和分块得到的多个文本块的长度;基于分块位置和多个文本块的长度对嵌入向量序列进行划分,并对划分后得到的多个子嵌入向量序列进行平均池化,得到多个文本块对应的嵌入向量。本申请实施例通过延迟分块的嵌入处理方式能够更好地保留各个文本块的语义信息,减少了传统方法中直接对文本进行分块再进行嵌入而导致的语义丢失问题,从而提高模型在长文本处理任务中的准确性。
技术关键词
分块策略 序列 滑动窗口 非暂态计算机可读存储介质 语义向量 文本处理技术 大语言模型 处理器 标识 标志 存储器 电子设备 答案 模块 分词 程序
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号