摘要
本发明提供了一种用多模态大模型智能体对具备人机接口的设备进行泛用性的无侵入自动操作的方法,包括:步骤1,信号捕获:边缘设备获取目标设备的输出信号;步骤2,数据上传:边缘计算设备读取其视频流或者将步骤1采集的原始信号转换为可解析的数字信号,然后分割为独立屏幕截图并进行预处理,随后将处理后的截图及识别结果上传至服务器;步骤3,指令生成下发:服务器分析数据后生成后续操作指令,回传至边缘计算设备;步骤4:边缘计算设备将操作指令转化为具体HID信号,发送至目标设备,完成自动化操作闭环。本发明的有益效果是:本发明方法能通过与人类操作员完全相同的方式对目标设备进行自动控制,能应用于任何人类可操作的电子设备。
技术关键词
大语言模型
服务器
人机接口
人机交互接口
独立屏幕
信息记忆模块
信号
指令
坐标
人机交互界面
分辨率
视频流
文本
交互组件
控制面板
对象识别
标签
像素
系统为您推荐了相关专利信息
歧义消除方法
大语言模型
模式匹配
句式结构
交互式用户界面
差分升级方法
固件
还原算法
云端服务器
升级装置
客户端
联邦学习方法
差分隐私
服务器
梯度下降算法
高性能
语义
数据依赖关系
故障注入工具
多头注意力机制