摘要
本发明公开了一种通过利用点云增强3D场景描述的文本生成方法。首先使用Blender捕捉3D模型的多个视角,并由BLIP2生成对应视角的描述文本;然后通过点云融合进行文本过滤;最后将筛选后的文本与点云数据相结合,利用点云数据的空间结构信息提高生成文本的丰富度,通过大型多模态语言模型生成最终的描述文本。本发明将3D点云数据添加到了文本生成流程中,为文本的生成提供了更加丰富的空间信息和全局信息,有效解决了现有方法中利用2D数据所造成的描述文本质量欠佳、语义信息匮乏的问题。通过优化提示词和数据处理流程,本发明显著提升了生成文本的质量,提供了更为丰富且精准的三维对象文本对。
技术关键词
文本生成方法
文本编码器
空间结构信息
视角
投影器
3D点云
数据
标记
代表
物体
场景
多模态
生成指令
线性
图片
格式
序列
系统为您推荐了相关专利信息
全息成像方法
光学调制器
全息成像系统
光学调制模块
剧场
多视角
编码模块
交叉注意力机制
迁移方法
感知特征
大语言模型
性检测方法
视觉特征
融合特征
多模态
训练深度学习模型
缺陷检测方法
缺陷类别
通道注意力机制
多视角
视频序列分割方法
融合特征
融合专家
多尺度局部特征
矩阵