用于生成对语音输入的视觉响应的系统和方法

正文

推荐专利

申请号：CN202510448536

申请日期：2025-04-10

公开号：CN120803247A

公开日期：2025-10-17

类型：发明专利

摘要

提供了用于生成对语音输入的视觉响应的系统和方法。使用文本至图像生成模型来根据使用唇读分析解释的语音输入向用户呈现信息图像。在汽车场景中，可以响应于语音输入的感知语义上下文将功能信息视觉地传递给驾驶员。驾驶员可以指示或验证来自该系统感知和示出的生成图像的信息，以执行特定功能。

技术关键词

噪声预测器预定噪声图像解码器计算机可执行指令文本编码器图像编码器词语变量训练图像数据图像生成模型驾驶员辅助模块识别面部图像嵌入大语言模型

系统为您推荐了相关专利信息

事件抽取方法问答模型标签抽取装置计算机可执行指令

车辆模型测试方法场景测试执行器数据

CPU模块控制模块信号判定系统网络设备存储器

校准加速度客车递归最小二乘法偏差动力学计算机可执行指令

智能图像识别方法食材识别烹饪食谱食材图像人机交互界面