基于多模态大模型思维链的复杂文本图像检索方法和系统

正文

推荐专利

申请号：CN202510592463

申请日期：2025-05-09

公开号：CN120470144A

公开日期：2025-08-12

类型：发明专利

摘要

基于多模态大模型思维链的复杂文本图像检索方法和系统，其中方法包括如下步骤：S1、自适应语义拆解；S2、重构与优化；S3、构建匹配概率矩阵；匹配概率矩阵的元素表示候选图像与匹配文本之间匹配程度的概率分数；将匹配文本与候选图像进行组合，并逐对送入预训练视觉语言模型，获得对应的匹配得分；随后使用二元判别评分机制，将匹配得分转化为提示词为“是”的概率分数；S4、根据匹配概率矩阵，计算每张候选图像与原始命题的匹配度，选取匹配度最高的候选图像作为图像检索结果。本发明旨在利用自适应局部解构、全局优化方法与受提示词引导的二元判别评分机制，从复杂文本描述中提取并优化语义特征，以提升图像检索的精准度和泛化能力。

技术关键词

图像检索方法大语言模型文本评分机制多模态图像检索系统全局优化方法矩阵输入模块重构输入系统计划语义特征视觉算法元素

系统为您推荐了相关专利信息

一种工作流构建方法、装置、电子设备及存储介质

工作流标识指令数据客户端

基于多源数据整合的数据开发方法及平台

开发方法多源异构数据风险评估模型节点标识符

医疗科研中多模态数据验证系统及方法

数据验证系统特征描述数据数据验证方法多媒体处理单元验证规则

一种复杂场景下中文文本生成语义级音频方法及系统

中文文本语义向量音频编码器文本编码器预训练语言模型

一种实现自由逻辑的pattern生成和运行方法

测试机命令文件运行方法主控单元继电器开关

基于多模态大模型思维链的复杂文本图像检索方法和系统

站点导航

APP 下载