基于视觉编码器组合的多模态图片理解方法及装置

AITNT
正文
推荐专利
基于视觉编码器组合的多模态图片理解方法及装置
申请号:CN202511074778
申请日期:2025-08-01
公开号:CN120563872A
公开日期:2025-08-29
类型:发明专利
摘要
本公开实施例公开了一种基于视觉编码器组合的多模态图片理解方法及装置,涉及人工智能技术领域,该方法包括:获得多模态图片包括的图像和文本;将图像输入至视觉编码器组合中,获得每个视觉编码器输出的多个图像特征;基于每个视觉编码器输出的多个图像特征,得到至少一个视觉token;以及,使用文本分词器获取文本包括的至少一个文本token;将至少一个视觉token和至少一个文本token输入至视觉token融合器,得到第一视觉token;将第一视觉token和至少一个文本token合并后输入至大语言模型中,获得文本描述信息。本公开实施例采用视觉编码器组合提取足够全面的视觉特征,同时减少了大语言模型的计算量。
技术关键词
文本 图片 图像 融合器 多模态 注意力 人工智能技术 视觉特征 处理器 聚类 可读存储介质 模块 存储器 电子设备 计算机 线性
系统为您推荐了相关专利信息
1
一种石榴果皮与籽粒分离的智能化控制系统
石榴籽粒 智能化控制系统 石榴果皮 参数自适应控制 隔膜
2
从二维图像中获取缺陷中心坐标的计算方法及其应用
机器人基座 机器人夹爪 坐标系 三维相机 计算方法
3
新闻可信度评估方法、新闻可信度评估装置、存储介质及设备
溯源信息 可信度评估方法 对象 图谱 元素
4
基于多模态半监督语义分割的焊接熔池视觉监测方法
语义分割网络 熔池视觉 监测方法 多模态 标记
5
一种学生课堂行为分析方法、装置、电子设备及存储介质
转换编码器 样本 图像块 预测类别 视觉
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号