摘要
本申请提供了一种基于细粒度交互的多模态检索方法及系统,该方法包括:通过将文档每一页转换为图像并附加文本摘要,保持了图像和文本的上下文关系,使得文本和图像内容整合在同一个框架下,保证信息在转换过程中的完整性和一致性。解析页面图像,生成每个区域的多维度嵌入,确保每个区域的信息都能被准确提取和处理。通过对每个区域进行细粒度嵌入生成,能够精确地理解图像中不同部分所包含的语义信息,并将其与文本信息进行结合,确保信息的高效匹配。通过多维度嵌入和细粒度交互对齐,将图像和文本的特征映射到同一个隐空间中,从而捕捉到了更细粒度的相关性。该方法能够深入挖掘图像和文本之间的深层联系,提升信息检索和生成的精度和效率。
技术关键词
模态检索方法
文本
页面
令牌
多模态
逻辑
图像嵌入
摘要
跨模态
网络
语义
检索系统
信息检索
矩阵
模块
图文
元素
框架
精度
系统为您推荐了相关专利信息
电缆接头局部放电
判定特征
在线监测方法
在线监测装置
传感元件
变化检测方法
深度编码器
图像编码器
特征提取器
深度图
高空输电线路
感应电
建模系统
无人机平台
地面监控