摘要
本公开涉及一种图形用户界面GUI数据生成方法及装置、电子设备和存储介质,该方法包括:对GUI图像进行交互元素检测,得到目标交互元素的位置信息;基于目标交互元素的位置信息,对GUI图像中的目标交互元素进行图像分析,生成描述文本;所述描述文本用于描述所述目标交互元素的视觉信息和功能信息;将所述目标交互元素的位置信息与描述文本进行整合,得到GUI数据。本公开实施例能够输出包含视觉信息和功能信息的多模态GUI数据,提高了训练的GUI理解模型在实际交互中的泛化能力和实用性。
技术关键词
元素
文本
图形用户界面
数据生成方法
图像分析
非易失性计算机可读存储介质
视觉
数据生成装置
冗余
电子设备
自然语言
处理器
关系
存储器
模块
桌面
语义