摘要
本发明提供一种基于多模态AI的业务界面解析与交互方法及系统,该方法包括:首先,获取目标业务界面的第一界面截图、第一界面结构数据,以及用户的第一自然语言。然后,分别对第一界面截图、第一界面结构数据和第一自然语言进行预处理,得到第二界面截图、第二界面结构数据和第二自然语言。接下来,将第二界面截图、第二界面结构数据和第二自然语言输入多模态大语言模型,得到交互操作结果。最后,根据交互操作结果,在目标业务界面中执行对应的界面操作。该方法能够自动、高效、智能地解析业务界面结构和语义信息,实现用户需求的动态理解和跨平台的自动化交互操作,从而有效地提升业务系统的操作效率和用户使用体验。
技术关键词
界面
自然语言
多模态
大语言模型
层次结构信息
隐私保护模块
数据获取模块
交互方法
样式
视觉特征提取
语义
意图识别
交互系统
图像压缩
动态更新
业务系统
同义词
元素
系统为您推荐了相关专利信息
数据处理模型
建模方法
脚本
GIS数据处理
编程
关键词
接口
单元测试用例
行业术语
DOM树结构
定位误差校正方法
多维特征数据
元学习算法
条件生成对抗网络
编码向量
巡检机器人系统
自主导航系统
多传感器融合
视觉摄像头
超声波传感器