用于生成对语音输入的视觉响应的系统和方法

AITNT
正文
推荐专利
用于生成对语音输入的视觉响应的系统和方法
申请号:CN202510448536
申请日期:2025-04-10
公开号:CN120803247A
公开日期:2025-10-17
类型:发明专利
摘要
提供了用于生成对语音输入的视觉响应的系统和方法。使用文本至图像生成模型来根据使用唇读分析解释的语音输入向用户呈现信息图像。在汽车场景中,可以响应于语音输入的感知语义上下文将功能信息视觉地传递给驾驶员。驾驶员可以指示或验证来自该系统感知和示出的生成图像的信息,以执行特定功能。
技术关键词
噪声预测器 预定噪声 图像解码器 计算机可执行指令 文本编码器 图像编码器 词语 变量 训练图像数据 图像生成模型 驾驶员辅助 模块 识别面部 图像嵌入 大语言模型
系统为您推荐了相关专利信息
1
一种基于大模型知识蒸馏的文档级事件抽取方法及装置
事件抽取方法 问答模型 标签 抽取装置 计算机可执行指令
2
一种车控场景文件的测试方法、装置及相关设备
车辆模型 测试方法 场景 测试执行器 数据
3
可信校验实现方法、系统和网络设备
CPU模块 控制模块 信号判定系统 网络设备 存储器
4
电动客车的质量、车速的估计方法、装置及电子设备
校准加速度 客车 递归最小二乘法 偏差动力学 计算机可执行指令
5
一种基于自动炒菜机的智能图像识别方法及系统
智能图像识别方法 食材识别 烹饪食谱 食材图像 人机交互界面
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号