摘要
本发明实施例公开了一种基于大模型实现语音控制终端的方法、装置、设备及介质,涉及人工智能技术领域。所述方法包括:采集用户输入的控制语音数据;通过预设的第一大模型对所述控制语音数据进行识别,得到意图信息;截取终端的显示画面,通过预设的第二大模型基于所述意图信息在所述显示画面中确定目标对象的坐标;生成在所述目标对象的坐标处的遥控器点击信号。本发明通过大模型识别用户的意图,基于用户的意图在终端显示画面中确定点击位置,并模拟遥控器点击操作,从而在终端的任意界面中,实现了基于语音方式的全场景流畅的遥控器操作,提高了用户的使用体验。
技术关键词
语音控制终端
意图
画面
对象
坐标
模拟遥控器
计算机设备
数据
人工智能技术
文本
处理器
服务器
信号
可读存储介质
存储器