一种基于领域Token的视觉任务生成方法

正文

推荐专利

申请号：CN202510746992

申请日期：2025-06-05

公开号：CN120655756A

公开日期：2025-09-16

类型：发明专利

摘要

本发明涉及人工智能图像生成技术领域，具体为一种基于领域Token的视觉任务生成方法。包括：获取目标领域的领域特征信息并生成或确定至少一个领域词元；初始化一待生成图像的初始表示；在自回归生成过程中，根据先前已生成的图像部分对应的图像词元序列和所述至少一个领域词元，利用一个自回归模型预测当前位置的下一个图像词元；重复所述预测步骤直至生成代表完整图像的图像词元序列；以及基于所述代表完整图像的图像词元序列解码生成最终的像素空间图像。本发明通过引入和融合领域词元，能够更精确地控制生成图像的领域特有属性，显著提升特定领域图像的生成保真度和一致性，并提高对生成内容领域风格、元素和结构的可控性。

技术关键词

生成方法视觉图像解码器序列注意力机制人工智能图像解码模块精确地控制生成代表生成技术控制模块随机噪声生成系统像素

系统为您推荐了相关专利信息

用于智能无人售卖柜的交互行为识别方法及系统

智能无人售卖柜图像传感器时间段兴趣点重力传感器

基于双通道光纤传感的精准同步的协同数据信号分析方法

分析方法非线性噪声传感偏振态通道

一种基于双目视觉与模糊评价的施工安全风险预警系统

风险预警系统注意力尺寸 Sigmoid函数图像畸变校正

一种助产士远程监护系统及方法

胎心音信号脉搏波传导时间 LSTM神经网络模型小波阈值去噪算法改进型动态

一种多路阀的仿真建模方法、装置及设备

多路阀仿真建模方法仿真模型压力注意力机制

一种基于领域Token的视觉任务生成方法

站点导航

APP 下载