摘要
本发明涉及人工智能、语音识别与智能终端控制技术领域,提供一种生成式AI驱动的语音点单与咖啡图案生成方法,包括基于触发预设的交互触发条件时,采集原始音频信号进行语音识别获取对应的文本信息进行语义解析,生成结构化语义结果,并根据结构化语义结果生成饮品制作指令和图案生成请求;响应于图案生成请求,通过图像生成模型生成拉花图案;将饮品制作指令和拉花图案下发至咖啡机器人的控制模块,执行饮品制作和图案生成操作,并输出定制饮品。结合多模态感知技术提高语音识别准确性并降低误触发率。通过三层意图映射机制与自然语言处理,转换语义实体为执行参数,并生成符合设备要求的高质量拉花图案。
技术关键词
图案生成方法
饮品制作
图像生成模型
拉花
语义实体
麦克风阵列
咖啡机器人
运动特征
图案生成系统
生成提示词
饮品类
文本
多模态特征
语音识别准确性
信号
系统为您推荐了相关专利信息
图像生成模型
超声平面波成像
叠加算法
生成对抗网络
超声换能器
建筑物变化检测
图像生成模型
遥感图像信息
计算机视觉交叉技术
图像嵌入
关系挖掘方法
图形渲染引擎
商业数据处理技术
节点
生成三维图
多角度
视频生成方法
视频生成装置
图像生成模型
镜头