一种基于多模态大模型的用户界面自动化断言方法、系统及程序产品

正文

推荐专利

申请号：CN202510429490

申请日期：2025-04-07

公开号：CN120371694A

公开日期：2025-07-25

类型：发明专利

摘要

本发明公开了一种基于多模态大模型的用户界面自动化断言方法、系统及程序产品，应用于UI自动化测试领域。为解决传统断言编写复杂、低效且难以描述视觉预期的问题，本方法包括：获取待测UI的屏幕图像及描述预期状态的文本指令；将图像与文本指令输入至配置为联合处理图文的多模态大模型(MLLM)；利用MLLM的图文联合理解能力，分析图像中的实际UI状态是否满足文本指令的预期；基于模型判定结果生成最终断言结果。本发明以MLLM的智能分析替代复杂的断言编码，允许使用自然语言或结构化文本定义预期，显著简化了断言创建，提升了UI测试开发效率与可维护性，并能更灵活准确地验证视觉层面的UI状态。

技术关键词

断言方法多模态置信度阈值图像屏幕指令预定义关键字自然语言文本视觉层级图文程序控件交互性语义标识符鲁棒性计算机

系统为您推荐了相关专利信息

基于量子混合神经网络的同态图文匹配方法和装置

量子神经网络量子态图文匹配方法文本同态加密算法

一种多光谱图像的输出设备和多光谱图像的输出方法

窄带滤光片图像传感器图像处理器多光谱窄带滤波

基于数字孪生模型的路面坑槽修复材料工程量计算方法

工程量计算方法数字孪生模型深度学习模型路面坑槽识别方法神经网络单元

基于大模型技术的风资源评估报告生成方法

评估报告生成方法文本 word2vec模型融合词向量数据可视化图表

一种基于边缘增强采样的机器人手术多源影像融合方法

解剖特征注意力机器人手术编码特征边缘增强单元

一种基于多模态大模型的用户界面自动化断言方法、系统及程序产品

站点导航

APP 下载