摘要
本发明涉及一种基于文本信息指导的人脸超分辨率方法,包括以下步骤:步骤一、文本描述生成:通过多模态大语言模型生成文本描述;步骤二、潜在空间编码:将低分辨率人脸图像和文本描述映射到潜在特征空间,利用预训练的编码器对图像进行紧凑表示;步骤三、文本信息融合:通过基于交叉注意力机制的方法,将生成的文本描述嵌入到视觉特征处理过程中,形成文本‑视觉联合表示;步骤四、残差扩散生成模块:在潜在空间中,通过残差连接的马尔可夫链实现低分辨率到高分辨率图像的生成;步骤五、文本感知损失优化:通过最小化潜在空间恢复误差和文本一致性误差,优化生成结果的图像质量和语义一致性。相较于其他生成模型,TFSR具有最少的参数量、最高的采样效率和最佳的FID分数。
技术关键词
人脸超分辨率方法
低分辨率人脸图像
文本
高分辨率人脸图像
交叉注意力机制
大语言模型
视觉特征
面部关键特征
编码器
数据分布
生成高分辨率
编码模块
误差
语义
多模态
系统为您推荐了相关专利信息
文本处理系统
话题
情感评估
节点
实体关系抽取模型
文本生成方法
音频
大语言模型
融合特征
计算机设备
多模态融合技术
智能交互终端
语音转换器
任务调度器
包装器
地理实体
命名识别方法
门控循环单元
前馈神经网络
序列