一种基于细粒度交互的多模态检索方法及系统

正文

推荐专利

申请号：CN202511020155

申请日期：2025-07-23

公开号：CN120910283A

公开日期：2025-11-07

类型：发明专利

摘要

本申请提供了一种基于细粒度交互的多模态检索方法及系统，该方法包括：通过将文档每一页转换为图像并附加文本摘要，保持了图像和文本的上下文关系，使得文本和图像内容整合在同一个框架下，保证信息在转换过程中的完整性和一致性。解析页面图像，生成每个区域的多维度嵌入，确保每个区域的信息都能被准确提取和处理。通过对每个区域进行细粒度嵌入生成，能够精确地理解图像中不同部分所包含的语义信息，并将其与文本信息进行结合，确保信息的高效匹配。通过多维度嵌入和细粒度交互对齐，将图像和文本的特征映射到同一个隐空间中，从而捕捉到了更细粒度的相关性。该方法能够深入挖掘图像和文本之间的深层联系，提升信息检索和生成的精度和效率。

技术关键词

模态检索方法文本页面令牌多模态逻辑图像嵌入摘要跨模态网络语义检索系统信息检索矩阵模块图文元素框架精度

系统为您推荐了相关专利信息

一种电缆接头局部放电在线监测方法及装置

电缆接头局部放电判定特征在线监测方法在线监测装置传感元件

基于深度引导与光流一致性分析的矿区遥感变化检测方法

变化检测方法深度编码器图像编码器特征提取器深度图

基于多模态大语言模型的开放目标检测模型优化方法

大语言模型模型优化方法多模态图片文本

一种基于分级注意力融合的多模态超声预测方法

注意力融合特征彩色多普勒影像全局信息融合

基于无人机的同塔多回输电线路感应电的建模系统

高空输电线路感应电建模系统无人机平台地面监控

一种基于细粒度交互的多模态检索方法及系统

站点导航

APP 下载