摘要
本发明公开了一种基于多模态感知的APP自动化测试方法及Agent系统,涉及图像识别或理解领域,方法包括以下步骤:实时感知层对APP的屏幕界面实时截图;当界面变化时,分三路处理截图:检测控件边界框;对界面元素进行视觉语义编码;同步提取文本内容,生成功能标签。融合三路输出结果,构建UI树。输入任务指令时,动态推理层通过神经‑符号协同机制根据任务指令和UI树生成动作序列,更新动态文档,并保存到实时知识库。执行优化层将动作序列的动作转换为平台专属的操作代码,并执行操作代码,同时自动标注异常路径,并更新规避策略至实时知识库。本发明通过三级架构实现实时感知‑动态推理‑执行闭环,显著提升泛化能力、异常覆盖和执行效率。
技术关键词
自动化测试方法
符号系统
多模态
生成动作
Agent系统
学习器
动态
序列
多功能模块
指令
界面
记忆
控件
校验动作
文本
大语言模型
视觉
层级
标签
系统为您推荐了相关专利信息
多相流流量计
动态补偿系统
融合特征
补偿误差
图像特征数据
动态跟踪装置
导光管
虚拟现实眼镜
压力传感器阵列
动态补偿模块
模态医学影像
多尺度特征
协同注意力
正电子发射断层扫描
计算机断层扫描
无人机集群
看护系统
生命体征监测功能
语音安抚系统
模块化无人机
精细分类方法
卫星遥感影像
归一化植被指数
多模态
图像