一种基于细粒度交互的多模态检索方法及系统

AITNT
正文
推荐专利
一种基于细粒度交互的多模态检索方法及系统
申请号:CN202511020155
申请日期:2025-07-23
公开号:CN120910283A
公开日期:2025-11-07
类型:发明专利
摘要
本申请提供了一种基于细粒度交互的多模态检索方法及系统,该方法包括:通过将文档每一页转换为图像并附加文本摘要,保持了图像和文本的上下文关系,使得文本和图像内容整合在同一个框架下,保证信息在转换过程中的完整性和一致性。解析页面图像,生成每个区域的多维度嵌入,确保每个区域的信息都能被准确提取和处理。通过对每个区域进行细粒度嵌入生成,能够精确地理解图像中不同部分所包含的语义信息,并将其与文本信息进行结合,确保信息的高效匹配。通过多维度嵌入和细粒度交互对齐,将图像和文本的特征映射到同一个隐空间中,从而捕捉到了更细粒度的相关性。该方法能够深入挖掘图像和文本之间的深层联系,提升信息检索和生成的精度和效率。
技术关键词
模态检索方法 文本 页面 令牌 多模态 逻辑 图像嵌入 摘要 跨模态 网络 语义 检索系统 信息检索 矩阵 模块 图文 元素 框架 精度
系统为您推荐了相关专利信息
1
一种电缆接头局部放电在线监测方法及装置
电缆接头局部放电 判定特征 在线监测方法 在线监测装置 传感元件
2
基于深度引导与光流一致性分析的矿区遥感变化检测方法
变化检测方法 深度编码器 图像编码器 特征提取器 深度图
3
基于多模态大语言模型的开放目标检测模型优化方法
大语言模型 模型优化方法 多模态 图片 文本
4
一种基于分级注意力融合的多模态超声预测方法
注意力 融合特征 彩色多普勒 影像 全局信息融合
5
基于无人机的同塔多回输电线路感应电的建模系统
高空输电线路 感应电 建模系统 无人机平台 地面监控
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号