摘要
本发明公开了一种基于多模态大模型的用户界面自动化断言方法、系统及程序产品,应用于UI自动化测试领域。为解决传统断言编写复杂、低效且难以描述视觉预期的问题,本方法包括:获取待测UI的屏幕图像及描述预期状态的文本指令;将图像与文本指令输入至配置为联合处理图文的多模态大模型(MLLM);利用MLLM的图文联合理解能力,分析图像中的实际UI状态是否满足文本指令的预期;基于模型判定结果生成最终断言结果。本发明以MLLM的智能分析替代复杂的断言编码,允许使用自然语言或结构化文本定义预期,显著简化了断言创建,提升了UI测试开发效率与可维护性,并能更灵活准确地验证视觉层面的UI状态。
技术关键词
断言方法
多模态
置信度阈值
图像
屏幕
指令
预定义关键字
自然语言文本
视觉
层级
图文
程序
控件
交互性
语义
标识符
鲁棒性
计算机
系统为您推荐了相关专利信息
量子神经网络
量子态
图文匹配方法
文本
同态加密算法
窄带滤光片
图像传感器
图像处理器
多光谱
窄带滤波
工程量计算方法
数字孪生模型
深度学习模型
路面坑槽识别方法
神经网络单元
评估报告生成方法
文本
word2vec模型
融合词向量
数据可视化图表
解剖特征
注意力
机器人手术
编码特征
边缘增强单元