一种通过利用点云增强3D场景描述的文本生成方法

正文

推荐专利

申请号：CN202510197099

申请日期：2025-02-21

公开号：CN120146055A

公开日期：2025-06-13

类型：发明专利

摘要

本发明公开了一种通过利用点云增强3D场景描述的文本生成方法。首先使用Blender捕捉3D模型的多个视角，并由BLIP2生成对应视角的描述文本；然后通过点云融合进行文本过滤；最后将筛选后的文本与点云数据相结合，利用点云数据的空间结构信息提高生成文本的丰富度，通过大型多模态语言模型生成最终的描述文本。本发明将3D点云数据添加到了文本生成流程中，为文本的生成提供了更加丰富的空间信息和全局信息，有效解决了现有方法中利用2D数据所造成的描述文本质量欠佳、语义信息匮乏的问题。通过优化提示词和数据处理流程，本发明显著提升了生成文本的质量，提供了更为丰富且精准的三维对象文本对。

技术关键词

文本生成方法文本编码器空间结构信息视角投影器 3D点云数据标记代表物体场景多模态生成指令线性图片格式序列

系统为您推荐了相关专利信息

一种用于VR全息剧场的全息成像系统及方法

全息成像方法光学调制器全息成像系统光学调制模块剧场

基于多视角物体轨迹预测的机器人技能迁移方法及系统

多视角编码模块交叉注意力机制迁移方法感知特征

基于嵌入大语言模型的多模态模因有害性检测方法及装置

大语言模型性检测方法视觉特征融合特征多模态

缺陷检测方法、设备及存储介质

训练深度学习模型缺陷检测方法缺陷类别通道注意力机制多视角

多模态协同的视频序列分割方法

视频序列分割方法融合特征融合专家多尺度局部特征矩阵

一种通过利用点云增强3D场景描述的文本生成方法

站点导航

APP 下载