摘要
本申请的实施例涉及使用生成式语言模型对图像的语义标记。一种计算系统包括被配置为接收图像的一个或多个处理设备。处理设备还被配置为计算标识图像中包括的关注区域的分割掩模。在特征提取器处,处理设备还被配置为基于图像来计算编码图像特征。处理设备还被配置为接收文本指令。在视觉重采样器处,处理设备还被配置为基于分割掩模、编码图像特征和文本指令来计算掩模查询。在生成式语言模型处,处理设备还被配置为接收包括掩模查询和文本指令的自然语言查询。基于自然语言查询,在生成式语言模型处,处理设备还被配置为生成并输出与关注区域相关联的语义标签。
技术关键词
上下文查询
训练语料库
采样器
自然语言
语义标签
分割掩模
图像
变换器
模式
文本
视觉
掩膜
注意力
基准
指令
编码
标识
符号
系统为您推荐了相关专利信息
生成方法
相似性度量函数
数据组织形式
深度神经网络模型
智能排版
谣言检测方法
神经网络模型
社交媒体平台
数据收集模块
可读存储介质
图形化用户界面
预览功能
计算机视觉技术
关系型数据库
支持跨平台
块对角矩阵
人工智能模型
叠层
矩阵分解技术
分块