摘要
基于多模态大模型思维链的复杂文本图像检索方法和系统,其中方法包括如下步骤:S1、自适应语义拆解;S2、重构与优化;S3、构建匹配概率矩阵;匹配概率矩阵的元素表示候选图像与匹配文本之间匹配程度的概率分数;将匹配文本与候选图像进行组合,并逐对送入预训练视觉语言模型,获得对应的匹配得分;随后使用二元判别评分机制,将匹配得分转化为提示词为“是”的概率分数;S4、根据匹配概率矩阵,计算每张候选图像与原始命题的匹配度,选取匹配度最高的候选图像作为图像检索结果。本发明旨在利用自适应局部解构、全局优化方法与受提示词引导的二元判别评分机制,从复杂文本描述中提取并优化语义特征,以提升图像检索的精准度和泛化能力。
技术关键词
图像检索方法
大语言模型
文本
评分机制
多模态
图像检索系统
全局优化方法
矩阵
输入模块
重构
输入系统
计划
语义特征
视觉
算法
元素
系统为您推荐了相关专利信息
开发方法
多源异构数据
风险评估模型
节点
标识符
数据验证系统
特征描述数据
数据验证方法
多媒体处理单元
验证规则
中文文本
语义向量
音频编码器
文本编码器
预训练语言模型