摘要
本发明涉及自然语言处理分析领域,提供一种基于大语言模型的主题聚类文本分割方法、设备、介质及程序产品,所述方法包括:对非结构化文本进行段落切分;采用基于提示学习的大模型对切分后的段落进行主题内容抽取;根据抽取的主题内容进行基于主题聚类的文本动态分割。本发明通过提示学习结合大语言模型针对段落级文本进行主题内容提取,确定待分割文本的中心主题,以主题内容为中心,采用聚类方式对句子级文本进行划分,从而形成以主题内容为中心的文本块,能够实现RAG检索阶段文本的分块任务,保证文本分块的语义完整性,提高RAG检索的准确性。
技术关键词
文本分割方法
主题
大语言模型
聚类
计算机程序产品
可读存储介质
处理器通信
存储器
自然语言
分块
模板
指令
动态
电子设备
语义
系统为您推荐了相关专利信息
分布式供能系统
大语言模型
容量配置方法
数值优化算法
数学模型
医疗知识图谱
健康管理系统
大语言模型
数据采集模块
个性化建议