一种基于文本描述的行人检索任务数据集构建方法

正文

推荐专利

申请号：CN202510294112

申请日期：2025-03-13

公开号：CN119807466B

公开日期：2025-05-16

类型：发明专利

摘要

本发明涉及数据生成技术领域，公开了一种基于文本描述的行人检索任务数据集构建方法，包括直接以行人的人物特征，以及行人所处场景的场景特征为占位符，构建基础模板，并对基础模板进行填充后，生成对应的提示词；利用扩散模型，基于提示词，生成图像数据，完全不依赖原始数据，大大降低了隐私风险和规避了合格性问题。同时本发明利用局部编辑模型、全局编辑模型与非刚性编辑模型，直接基于生成的初始图像数据，有选择地对图像数据中对应属性的特征进行编辑，获取编辑图像数据，获取的编辑图像数据分辨率高，且图像生成的泛化性好、自由度高，大大提高了生成的图像数据的多样性，能够更全面的训练行人检索模型，提高模型识别精度。

技术关键词

数据集构建方法编辑图像数据文本人物特征场景特征模板大语言模型人体关键点读取图像数据注意力机制多层感知器多模态人体姿势识别数据生成技术生成图像数据基础

系统为您推荐了相关专利信息

一种交通事故地址解析方法、装置、设备及介质

地址解析方法语义字符 XGBoost算法矩阵

任务文本生成方法和装置、计算设备、存储介质

自然语言模型文本生成方法文本生成装置消息游戏场景

一种处理方法、装置和电子设备

样本答案文本标签计算机指令集

基于视觉分割和多模态大模型的气泡图生成方法

多层感知器生成方法编码特征视觉矩阵

车载语音交互测试方法、装置、设备、存储介质及车辆

意图指令测试方法语义车载语音交互系统测试模块

一种基于文本描述的行人检索任务数据集构建方法

站点导航

APP 下载