摘要
本公开提供了基于大语言模型的语音交互方法及相关装置,涉及语音识别、音频处理、计算机视觉、大语言模型等人工智能技术领域。该方法包括:基于物理环境中采集到的实时音频流,确定物理环境中所包括的用户以及用户在物理环境中所处的第一位置;在针对物理环境呈现的语音交互界面中,与目标指示符相关联地呈现对应于用户的用户指示符,用户指示符与目标指示符的相对位置关系,基于第一位置与目标指示符在物理环境中对应的第二位置的相对位置关系被确定;基于实时音频流中对应于用户的部分,调整用户指示符的视觉呈现属性。由此,能够方便用户更为直观、便利地理解会议中用户之间的交互状态、交互情况,降低了用户的交互复杂度,提升用户体验。
技术关键词
语音交互方法
大语言模型
音频
物理
动态指示符
身份
时差定位算法
界面
声音采集设备
语音交互装置
人工智能技术
关系
计算机程序产品
计算机视觉
处理器通信
定位单元
系统为您推荐了相关专利信息
数字音频接口
功放模块
脉冲宽度调制信号
扬声器模块
芯片
虚拟驱动程序
监控组件
模拟存储器
测试方法
命令
盲人避障
大语言模型
多模态
传感器获取环境
协方差矩阵
大语言模型
生成提示词
列表
计算机可执行指令
数据分类