基于大语言模型的主题聚类文本分割方法、设备、介质及程序产品

AITNT
正文
推荐专利
基于大语言模型的主题聚类文本分割方法、设备、介质及程序产品
申请号:CN202411657240
申请日期:2024-11-19
公开号:CN119740577A
公开日期:2025-04-01
类型:发明专利
摘要
本发明涉及自然语言处理分析领域,提供一种基于大语言模型的主题聚类文本分割方法、设备、介质及程序产品,所述方法包括:对非结构化文本进行段落切分;采用基于提示学习的大模型对切分后的段落进行主题内容抽取;根据抽取的主题内容进行基于主题聚类的文本动态分割。本发明通过提示学习结合大语言模型针对段落级文本进行主题内容提取,确定待分割文本的中心主题,以主题内容为中心,采用聚类方式对句子级文本进行划分,从而形成以主题内容为中心的文本块,能够实现RAG检索阶段文本的分块任务,保证文本分块的语义完整性,提高RAG检索的准确性。
技术关键词
文本分割方法 主题 大语言模型 聚类 计算机程序产品 可读存储介质 处理器通信 存储器 自然语言 分块 模板 指令 动态 电子设备 语义
系统为您推荐了相关专利信息
1
一种基于大语言模型的用户需求驱动的分布式供能系统容量配置方法
分布式供能系统 大语言模型 容量配置方法 数值优化算法 数学模型
2
流量压抑的评估方法、装置及计算机设备
样本 小区 数据 封箱 森林模型
3
面向LLM推理芯片的NAND FLASH存内计算系统ECC保护力度优化方法
错误敏感度 数据 大语言模型 贪婪算法 解码
4
交互式数字演员视频的生成方法、系统、设备及计算机存储介质
交互视频 交互式数字 场景 生成方法 语音
5
基于人工智能的个性化健康管理系统及方法
医疗知识图谱 健康管理系统 大语言模型 数据采集模块 个性化建议
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号