摘要
本公开实施例公开了一种场景生成与交互方法、装置、电子设备、介质和程序产品,利用单幅图像(提示图像)生成三维场景(第一三维场景图像),并通过调用预先训练好的多模态特征提取模型从提示图像中提取多模态二维特征图(多模态的语义特征),并通过蒸馏与融合算法将多模态二维特征图与三维场景(第一三维场景图像)融合为多模态特征场,最终渲染得到包括多模态二维特征场的目标场景,用户可以通过用户操作指令对所目标场景进行交互操作。如此,实现了在单图像交互式目标场景生成中,实时嵌入多模态的语义特征并保持高质量渲染,基于多模态的语义特征,可以完成用户操作指令解析、任务拆解等,以实现对目标场景的复杂场景查询与可组合编辑。
技术关键词
多模态特征
场景
计算机程序指令
特征提取模型
语义特征
图像深度估计
融合算法
意图
图像特征向量
计算机程序产品
交互方法
文本
插件
序列
蒸馏
可视化方式
系统为您推荐了相关专利信息
会议室
环境照明控制
控制照明设备
视频会议场景
数据分析系统
分布式多智能体
决策
协同调度方法
多智能体系统
强化学习算法
交互式模块
布局优化算法
追踪算法
演化方法
个性化界面
网络安全验证方法
生物特征识别
安保系统
生理特征数据
分布式时间