摘要
本发明公开了一种通用的非结构化数据索引构建方法、装置及介质,适用于图片、视频、文本等多模态数据。该方法包括:针对不同模态数据分别采用适配的深度学习模型进行特征提取;基于自动锚点选择与超平面划分的递归聚类方法,实现多层次聚类簇结构的构建;利用大语言模型为每个聚类簇自动生成语义摘要;通过类别、聚类簇、摘要等信息高效组织索引结构,支持多维度检索;在查询处理时,利用聚类簇内部极少量已有标注,低成本训练判别模型,实现高效的聚类簇筛选与多类别组合查询,无需用户指定正负样本。该方法具备高度自动化、低标注成本、可扩展性强、支持多模态数据、标注继承唯一性等优点,显著提升大规模非结构化数据的索引构建与检索效率。
技术关键词
数据索引构建方法
高维特征向量
大语言模型
样本
摘要
深度学习模型
锚点
聚类方法
支持多维度检索
训练判别模型
卷积神经网络提取
图片
时序神经网络
生成自然语言
文本
语义特征
节点
系统为您推荐了相关专利信息
置信度阈值
累积分布函数
标签
大语言模型
编码器
近红外光谱建模
协同优化方法
模式
协同构建方法
Softmax函数
测试用例生成系统
大语言模型
生成测试用例
生成方法
变量
金融
客户信息管理系统
匹配网络模型
产品信息处理技术
企业