基于大语言模型的主题聚类文本分割方法、设备、介质及程序产品

正文

推荐专利

申请号：CN202411657240

申请日期：2024-11-19

公开号：CN119740577A

公开日期：2025-04-01

类型：发明专利

摘要

本发明涉及自然语言处理分析领域，提供一种基于大语言模型的主题聚类文本分割方法、设备、介质及程序产品，所述方法包括：对非结构化文本进行段落切分；采用基于提示学习的大模型对切分后的段落进行主题内容抽取；根据抽取的主题内容进行基于主题聚类的文本动态分割。本发明通过提示学习结合大语言模型针对段落级文本进行主题内容提取，确定待分割文本的中心主题，以主题内容为中心，采用聚类方式对句子级文本进行划分，从而形成以主题内容为中心的文本块，能够实现RAG检索阶段文本的分块任务，保证文本分块的语义完整性，提高RAG检索的准确性。

技术关键词

文本分割方法主题大语言模型聚类计算机程序产品可读存储介质处理器通信存储器自然语言分块模板指令动态电子设备语义

系统为您推荐了相关专利信息

一种基于大语言模型的用户需求驱动的分布式供能系统容量配置方法

分布式供能系统大语言模型容量配置方法数值优化算法数学模型

流量压抑的评估方法、装置及计算机设备

样本小区数据封箱森林模型

面向LLM推理芯片的NAND FLASH存内计算系统ECC保护力度优化方法

错误敏感度数据大语言模型贪婪算法解码

交互式数字演员视频的生成方法、系统、设备及计算机存储介质

交互视频交互式数字场景生成方法语音

基于人工智能的个性化健康管理系统及方法

医疗知识图谱健康管理系统大语言模型数据采集模块个性化建议

基于大语言模型的主题聚类文本分割方法、设备、介质及程序产品

站点导航

APP 下载