基于多模态大模型思维链的复杂文本图像检索方法和系统

AITNT
正文
推荐专利
基于多模态大模型思维链的复杂文本图像检索方法和系统
申请号:CN202510592463
申请日期:2025-05-09
公开号:CN120470144A
公开日期:2025-08-12
类型:发明专利
摘要
基于多模态大模型思维链的复杂文本图像检索方法和系统,其中方法包括如下步骤:S1、自适应语义拆解;S2、重构与优化;S3、构建匹配概率矩阵;匹配概率矩阵的元素表示候选图像与匹配文本之间匹配程度的概率分数;将匹配文本与候选图像进行组合,并逐对送入预训练视觉语言模型,获得对应的匹配得分;随后使用二元判别评分机制,将匹配得分转化为提示词为“是”的概率分数;S4、根据匹配概率矩阵,计算每张候选图像与原始命题的匹配度,选取匹配度最高的候选图像作为图像检索结果。本发明旨在利用自适应局部解构、全局优化方法与受提示词引导的二元判别评分机制,从复杂文本描述中提取并优化语义特征,以提升图像检索的精准度和泛化能力。
技术关键词
图像检索方法 大语言模型 文本 评分机制 多模态 图像检索系统 全局优化方法 矩阵 输入模块 重构 输入系统 计划 语义特征 视觉 算法 元素
系统为您推荐了相关专利信息
1
一种工作流构建方法、装置、电子设备及存储介质
工作流 标识 指令 数据 客户端
2
基于多源数据整合的数据开发方法及平台
开发方法 多源异构数据 风险评估模型 节点 标识符
3
医疗科研中多模态数据验证系统及方法
数据验证系统 特征描述数据 数据验证方法 多媒体处理单元 验证规则
4
一种复杂场景下中文文本生成语义级音频方法及系统
中文文本 语义向量 音频编码器 文本编码器 预训练语言模型
5
一种实现自由逻辑的pattern生成和运行方法
测试机 命令 文件运行方法 主控单元 继电器开关
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号