摘要
本发明提供一种化合物结构跨模态搜索方法及系统,基于CLIP模型将文本形式或图片形式的化合物结构数据进行向量化,以映射到相同语义空间,通过对预设的化合物向量数据库进行搜索,能够对化合物结构实现跨模态搜索。化合物向量数据库通过构建联合索引和跨模态相似性搜索算法,实现了高效的跨模态搜索功能。联合索引能够同时支持图像、文本向量的存储和检索,提高了搜索的速度和效率。跨模态相似性搜索算法能够综合考虑图像和文本信息的相似性,提高了搜索的准确性。通过构建向量的分片存储,实现了分布式存储向量数据的功能,能够灵活应对后期数据量增大带来的存储和检索的问题,增强了系统的可扩展性。
技术关键词
搜索方法
跨模态
化合物分子结构
文本编码器
图像编码器
自然语言
训练样本集
分片
精简数据量
搜索算法
BERT模型
索引
搜索系统
计算机程序产品
哈希算法
指令
系统为您推荐了相关专利信息
图谱特征
多模态特征
矩阵
实体
知识图谱构建方法
全局视觉特征
识别模型训练方法
噪声鲁棒
文本编码器
综合性
模糊搜索方法
关键词
云服务器
局部敏感哈希
字典
图像编辑方法
映射算法
初始化解码器
假设解码器
图像编码器