摘要
提供了用于生成对语音输入的视觉响应的系统和方法。使用文本至图像生成模型来根据使用唇读分析解释的语音输入向用户呈现信息图像。在汽车场景中,可以响应于语音输入的感知语义上下文将功能信息视觉地传递给驾驶员。驾驶员可以指示或验证来自该系统感知和示出的生成图像的信息,以执行特定功能。
技术关键词
噪声预测器
预定噪声
图像解码器
计算机可执行指令
文本编码器
图像编码器
词语
变量
训练图像数据
图像生成模型
驾驶员辅助
模块
识别面部
图像嵌入
大语言模型
系统为您推荐了相关专利信息
事件抽取方法
问答模型
标签
抽取装置
计算机可执行指令
CPU模块
控制模块
信号判定系统
网络设备
存储器
校准加速度
客车
递归最小二乘法
偏差动力学
计算机可执行指令
智能图像识别方法
食材识别
烹饪食谱
食材图像
人机交互界面