一种通用的非结构化数据索引构建方法、装置及介质

AITNT
正文
推荐专利
一种通用的非结构化数据索引构建方法、装置及介质
申请号:CN202511161206
申请日期:2025-08-19
公开号:CN120653807B
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开了一种通用的非结构化数据索引构建方法、装置及介质,适用于图片、视频、文本等多模态数据。该方法包括:针对不同模态数据分别采用适配的深度学习模型进行特征提取;基于自动锚点选择与超平面划分的递归聚类方法,实现多层次聚类簇结构的构建;利用大语言模型为每个聚类簇自动生成语义摘要;通过类别、聚类簇、摘要等信息高效组织索引结构,支持多维度检索;在查询处理时,利用聚类簇内部极少量已有标注,低成本训练判别模型,实现高效的聚类簇筛选与多类别组合查询,无需用户指定正负样本。该方法具备高度自动化、低标注成本、可扩展性强、支持多模态数据、标注继承唯一性等优点,显著提升大规模非结构化数据的索引构建与检索效率。
技术关键词
数据索引构建方法 高维特征向量 大语言模型 样本 摘要 深度学习模型 锚点 聚类方法 支持多维度检索 训练判别模型 卷积神经网络提取 图片 时序神经网络 生成自然语言 文本 语义特征 节点
系统为您推荐了相关专利信息
1
基于生成式协同学习的无监督黑盒成员推理攻击方法及系统
置信度阈值 累积分布函数 标签 大语言模型 编码器
2
一种近红外光谱建模的特征模式生成与协同优化方法
近红外光谱建模 协同优化方法 模式 协同构建方法 Softmax函数
3
一种基于垂直大语言模型的DFA测试用例生成系统及方法
测试用例生成系统 大语言模型 生成测试用例 生成方法 变量
4
基于多分支自适应深度融合的健康监测系统及装置
模态特征 健康监测系统 融合特征 多模态 多分支
5
一种基于LangChain4j技术实现对企业推荐符合信贷产品方法及系统
金融 客户信息管理系统 匹配网络模型 产品信息处理技术 企业
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号