基于文本信息指导的人脸超分辨率方法、系统、设备及可读存储介质

正文

推荐专利

申请号：CN202510111785

申请日期：2025-01-24

公开号：CN120031718A

公开日期：2025-05-23

类型：发明专利

摘要

本发明涉及一种基于文本信息指导的人脸超分辨率方法，包括以下步骤：步骤一、文本描述生成：通过多模态大语言模型生成文本描述；步骤二、潜在空间编码：将低分辨率人脸图像和文本描述映射到潜在特征空间，利用预训练的编码器对图像进行紧凑表示；步骤三、文本信息融合：通过基于交叉注意力机制的方法，将生成的文本描述嵌入到视觉特征处理过程中，形成文本‑视觉联合表示；步骤四、残差扩散生成模块：在潜在空间中，通过残差连接的马尔可夫链实现低分辨率到高分辨率图像的生成；步骤五、文本感知损失优化：通过最小化潜在空间恢复误差和文本一致性误差，优化生成结果的图像质量和语义一致性。相较于其他生成模型，TFSR具有最少的参数量、最高的采样效率和最佳的FID分数。

技术关键词

人脸超分辨率方法低分辨率人脸图像文本高分辨率人脸图像交叉注意力机制大语言模型视觉特征面部关键特征编码器数据分布生成高分辨率编码模块误差语义多模态

系统为您推荐了相关专利信息

基于拓扑分析的文本处理系统

文本处理系统话题情感评估节点实体关系抽取模型

一种长文本生成方法及系统

文本生成方法生成指令语义节点文本生成系统

文本生成方法、装置、计算机设备及存储介质

文本生成方法音频大语言模型融合特征计算机设备

基于多模态融合技术的农业大模型系统

多模态融合技术智能交互终端语音转换器任务调度器包装器

一种地理实体命名识别方法

地理实体命名识别方法门控循环单元前馈神经网络序列

基于文本信息指导的人脸超分辨率方法、系统、设备及可读存储介质

站点导航

APP 下载