一种通用的非结构化数据索引构建方法、装置及介质

正文

推荐专利

申请号：CN202511161206

申请日期：2025-08-19

公开号：CN120653807B

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了一种通用的非结构化数据索引构建方法、装置及介质，适用于图片、视频、文本等多模态数据。该方法包括：针对不同模态数据分别采用适配的深度学习模型进行特征提取；基于自动锚点选择与超平面划分的递归聚类方法，实现多层次聚类簇结构的构建；利用大语言模型为每个聚类簇自动生成语义摘要；通过类别、聚类簇、摘要等信息高效组织索引结构，支持多维度检索；在查询处理时，利用聚类簇内部极少量已有标注，低成本训练判别模型，实现高效的聚类簇筛选与多类别组合查询，无需用户指定正负样本。该方法具备高度自动化、低标注成本、可扩展性强、支持多模态数据、标注继承唯一性等优点，显著提升大规模非结构化数据的索引构建与检索效率。

技术关键词

数据索引构建方法高维特征向量大语言模型样本摘要深度学习模型锚点聚类方法支持多维度检索训练判别模型卷积神经网络提取图片时序神经网络生成自然语言文本语义特征节点

系统为您推荐了相关专利信息

基于生成式协同学习的无监督黑盒成员推理攻击方法及系统

置信度阈值累积分布函数标签大语言模型编码器

一种近红外光谱建模的特征模式生成与协同优化方法

近红外光谱建模协同优化方法模式协同构建方法 Softmax函数

一种基于垂直大语言模型的DFA测试用例生成系统及方法

测试用例生成系统大语言模型生成测试用例生成方法变量

基于多分支自适应深度融合的健康监测系统及装置

模态特征健康监测系统融合特征多模态多分支

一种基于LangChain4j技术实现对企业推荐符合信贷产品方法及系统

金融客户信息管理系统匹配网络模型产品信息处理技术企业

一种通用的非结构化数据索引构建方法、装置及介质

站点导航

APP 下载