摘要
本发明涉及人工智能技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种基于共享索引的视觉令牌生成方法、装置、设备及介质,包括:获取输入图像并经语义编码器与像素编码器提取语义特征和像素特征;计算各特征与其码本的距离并加权求和确定共享索引;利用共享索引从码本中检索量化特征;分别用像素解码器与语义解码器生成重构图像和重构语义特征;基于重构结果联合优化编码器、码本与解码器;以优化后组件对目标任务图像生成统一视觉令牌序列。本发明通过双流特征提取、共享映射量化及联合损失优化,能够在视觉令牌中同时保留全局语义信息与局部像素细节,使模型既具备精准理解能力,又能生成高保真图像,提高理解与生成任务的性能。
技术关键词
像素
索引
解码器
令牌
生成方法
生成重构图像
编码器
视觉
生成程序
高层语义特征
存储结构
数据
输出特征
生成装置
计算机设备
生成对抗网络
系统为您推荐了相关专利信息
智能预警方法
自动化立体库设备
图片
网络结构设计
管理系统
缺陷检测方法
摄像机镜头
混凝土构件表面
RANSAC算法
自动化检测技术
多粒度特征
多层感知器
细粒度特征
样本
聚类方法