摘要
本发明涉及语音处理技术领域,可应用于金融科技、医疗健康等业务场景中,公开了一种基于语音识别的光影控制方法、装置、设备及介质,包括:获取语音输入并确定声源方向定位结果,并进行语音识别生成语音文本信息并解析为控制指令,对交互区域的图像信息进行目标检测生成目标定位结果,将声源方向定位结果与目标定位结果进行空间匹配,确定发出控制指令的目标用户,生成光影参数并根据目标用户的位置调整光影参数的空间分布,将调整后的光影参数转换为灯光控制信号,执行灯光控制信号以生成目标光影动画。本发明通过多模态协同实现了基于用户声音和位置的动态交互,能够准确识别并绑定用户控制指令,动态调整光影效果,提升互动性和个性化体验。
技术关键词
灯光控制信号
灯光设备
参数
生成语音
生成控制指令
动画
麦克风阵列采集
图像
运动轨迹数据
灯光控制模块
空间分布信息
多模态协同
实时位置
语音采集模块
麦克风单元
坐标
文本
系统为您推荐了相关专利信息
支持向量机模型
电力交易市场
组合赋权法
能源
指标
算术平均值
指数
计算机程序指令
主题语义
文本段落