如何在手机上做自己的网站做封面图什么网站

张小明 2026/1/7 22:58:10
如何在手机上做自己的网站,做封面图什么网站,seo的概念,站群网站建设推广点击下方卡片#xff0c;关注“自动驾驶之心”公众号戳我- 领取自动驾驶近30个方向学习路线自动驾驶前沿信息获取→自动驾驶之心知识星球论文作者 | Xiaosong Jia等编辑 | 自动驾驶之心自动驾驶中的4D场景重建是实现环境感知与运动规划的关键环节#xff0c;然而…点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线自动驾驶前沿信息获取→自动驾驶之心知识星球论文作者 | Xiaosong Jia等编辑 | 自动驾驶之心自动驾驶中的4D场景重建是实现环境感知与运动规划的关键环节然而传统视觉几何模型在多相机、低重叠的自动驾驶场景中往往表现不佳。来自上海交大、复旦等机构的研究者提出 DriveVGGT一种专为自动驾驶设计的视觉几何Transformer通过显式引入相机相对位姿先验显著提升了多相机系统的几何预测一致性与推理效率。论文标题DriveVGGT: Visual Geometry Transformer for Autonomous Driving论文链接https://www.arxiv.org/abs/2511.22264更多自动驾驶的行业信息、技术进展欢迎加入自动驾驶之心知识星球获取背景介绍4D重建是一项从视觉传感器预测几何信息的计算机视觉任务。与其他传感器相比基于相机的重建因其低成本而在各个领域尤其是在自动驾驶和机器人学中得到了广泛的研究和应用。通常重建方法有两种类型。第一种是基于迭代的方法例如。这些方法需要选择特定的场景或物体并通过迭代重建来获得优化结果。然而由于泛化能力不足当场景或物体发生变化或修改时基于迭代的方法需要重新训练模型。第二种是前向方法。这些方法可以直接输出预测结果而无需更新任何模型参数。其中的代表性模型 VGGT能够在各种场景中同时预测 4 种几何任务标志着一次重大突破。尽管前向方法已经实现了良好的泛化能力但在将其应用于自动驾驶场景时仍存在一些局限性。首先对于自动驾驶车辆上的摄像头为了在视场角和成本之间取得平衡这些摄像头的视角通常差异很大每个摄像头捕获的图像重叠度很低。因此模型很难识别相似特征并最终预测有效的图像位姿关系。其次虽然在自动驾驶系统中摄像头相对位姿的标定是易于获取的但这些相对位姿无法直接在前向方法中使用。由于前向模型的预测结果与现实世界相对位姿之间存在尺度差异直接聚合会导致几何标记之间的尺度模糊性。同时在大多数先前的前向架构中每个图像标记仅包含一个相机位姿标记这意味着相对位姿无法得到有效表示。为了在多相机系统中充分聚合相机相对位姿我们提出了一种带有相对位姿的多相机视觉几何变换器以实现相对位姿与来自 VGGT 的几何标记之间的有效融合。该模型包含两个部分。首先提出了时序视频注意力模块用于在所有摄像头之间实现摄像头级别的几何聚合。由于每个摄像头的视频具有时序连续性VGGT 可以有效地将单摄像头视频处理成几何标记。每个图像的几何标记由图像位姿标记和深度标记组成将分别用于预测图像位姿和深度。然而图像位姿标记仅表示当前图像与第一帧图像之间的关系。因此为了建立车辆上所有摄像头之间的位姿关系我们提出了多相机一致性注意力模块将相对位姿作为额外的位姿标记注入到每个图像中。具体来说我们提出一种相对位姿嵌入方法来归一化真实世界的相机位姿随后将其对齐到与几何标记相同的维度。为了实现不同摄像头图像之间的交互我们利用窗口注意力机制依次增强相邻的多相机标记。所提出的方法在 nuScenes 数据集上优于其他模型该数据集的车辆上安装了 6 个低重叠度的摄像头。具体而言所提出的方法能够以更低的延迟实现更好的重建结果。综上所述我们的贡献如下我们提出了 DriveVGGT一个用于实现自动驾驶多相机系统 4D 重建的前向框架。与 VGGT 相比DriveVGGT 充分整合了 AD 系统内部的数据先验以及多相机系统的独特设置。因此DriveVGGT 实现了更快的推理速度和更高的预测精度使得各种自动驾驶任务的执行更加高效可靠。我们引入了一个高效的两阶段流程来处理多相机图像。具体来说我们提出了时序视频注意力模块独立处理多相机视频以更好地利用每个单相机序列中的时空连续性。我们提出了多相机一致性注意力模块利用归一化的相对位姿嵌入进行窗口注意力计算在不同摄像头之间建立一致性关系同时限制每个标记仅关注附近的帧。在 nuScenes 数据集上进行的大量实验表明我们提出的 DriveVGGT 具有优越性其在推理速度和预测精度上均优于其他基于 VGGT 的方法。DriveVGGT算法概述整体介绍我们提出 DriveVGGT旨在充分利用相机相对位姿信息以提升几何任务如相机位姿估计和深度估计的模型性能。该模型总体上由三个子模块组成。首先提出 时序视频注意力TVA模块用于从每个相机序列中提取几何特征该序列包含用于指示与每个视频第一帧位置关系的序列位姿标记以及用于指示几何特征的图像标记。然后提出 多相机一致性注意力MCA模块用于实现相邻图像的多相机注意力。为了克服低重叠图像的不稳定性我们将相对位姿注入注意力过程以生成统一的几何表示。最后预测头将上述特征解码为相对位姿、序列位姿和深度的预测结果。时序视频注意力Temporal Video Attention时序视频注意力模块旨在建立每个相机捕获的图像之间的初始几何关系。这些图像属于连续视频流便于前向几何模型如 VGGT输出有效的重建结果。具体而言对于 N 张图像最简单的前向几何变换器形式为上述结果是第张分辨率为的图像f(.)是将这些图片处理为标记的变换器函数。随后在解码器头的帮助下这些标记可以被转换为实际的几何信息为了将相机相对位姿注入前馈重建模型我们引入了 3 个子模块1) 时序视频注意力模块 用于实现每个相机图像之间的视频级注意力并初步输出序列位姿和几何标记2) 相对位姿嵌入模块 用于归一化真实世界的相对位姿并将其映射到与标记相同的维度3) 多相机一致性注意力模块 应用窗口注意力在有限的序列长度内实现所有相机图像之间的交互。最终DriveVGGT 可以输出 4 种几何任务并完成场景重建。在多相机情况下与 VGGT 中的全局注意力不同时序视频注意力仅对同一相机捕获的图像实现注意力。例如对于个同时捕获张图像的相机TVA 模块的功能是该模块仅聚合每个相机的特征TVA 模块的输出为分别表示相机位姿标记仅代表序列位姿预测结果这些结果分别与每个相机的第一张图像对齐。相对位姿嵌入考虑到前馈视觉几何模型提出的最终几何输出存在尺度不确定性对车辆或机器人上所有相机之间的相对位姿进行预处理具有重要意义。首先为了缓解输入和输出之间的尺度差异我们将所有相机之间的平移归一化均值 0标准差 0.1。 遵循 VGGT 的编码器方法我们将内参和外参转换为一个 10 维向量考虑到自动驾驶车辆上相机数量M的相对位姿在任何时刻都是静态的我们只需要处理 M 个相机位姿。然后我们将 PcamPcam 映射到与 TVA 模块标记相同的维度并将其视为表示车辆上所有相机相对位姿关系的几何信息多相机一致性注意力TVA 模块的输出仅实现了同一相机图像之间的注意力。然而此过程存在两个问题。首先每个相机视频的初始图像位姿被设置为相同的位置这意味着需要估计相对位姿以恢复相机在全局世界中的位姿。其次由于各相机之间的注意力隔离每个视频的尺度存在偏差。为了克服上述问题提出了多相机一致性注意力MCA模块以获得统一的重建结果。该模块能够为长序列注意力实现较低的计算复杂度。为了优化来自 TVA 模块的标记在实施注意力之前提出了标记初始化操作该操作将相对位姿标记聚合到来自 TVA 模块的初始标记中。考虑到后续的预测头仅使用来自选定 4 个层的标记我们在 MCA 模块中仅提取和处理选定的标记。对于每一层我们将来自相对位姿嵌入模块的相对位姿标记进行拼接其中表示每个视频的帧索引表示车辆上的第个相机。由于车辆上的相机是固定的每帧的相对相机位姿相同。窗口注意力与基于流的方法不同全局重建优化可以随时无论是过去还是未来实施注意力。就长序列视频重建而言所有图像之间的全局注意力是冗余且低效的。因此我们提出窗口注意力对属于相邻 3 个时间帧的多相机图像实施注意力操作其中Atteni是第 (i-1)、i、(i1) 个标记之间的第 i 次全局注意力。Fi(i,j)Fi(i,j) 是最终优化的第个标记。对于每个相机序列的帧图像上述注意力操作实施次。最后经过上述窗口注意力后所有标记由 3 部分组成相对位姿标记、序列位姿标记和图像几何标记。考虑到相对相机位姿是时不变的MCA 模块最终输出个相对位姿和个序列位姿。因此我们将序列位姿标记聚合为以及相对位姿标记为实验结果分析数据集nuScenes 数据集包含多种驾驶场景。对于每个场景nuScenes 记录了 20 秒的数据包含来自 6 个摄像头、1 个激光雷达、车辆自身位姿、传感器标定等丰富的多模态信息。在我们的实验中我们主要使用来自 6 个摄像头的图像及其相对位姿作为模型输入。与之前在 nuScenes 上的相关工作类似我们使用 700 个驾驶场景进行训练150 个用于验证。对于每个场景我们使用以 2Hz 频率记录的带标注样本进行训练和测试。 同时直接使用稀疏的激光雷达点云生成深度图作为真实值是不可行的。考虑到 nuScenes 数据集的这一不足我们实施了两个有效的步骤来生成用于训练的密集深度图。首先我们聚合多帧激光雷达点云构建包含更多细节的整个场景点云。对于标注的动态物体我们使用它们在每个时间步的 3D 边界框来聚合其点云。其次将点云投影到深度图上后我们利用深度增强算法来提高深度图的有效性。这两个步骤会给深度真值带来一些噪声但它们足以用于训练。实施细节对于模型的输入我们将 nuScenes 的初始图像分辨率从 1600x900 降低到 518x280并在生成真实值时对图像内参进行同样的更改。然后与 VGGT 类似我们对深度图和相机位姿进行尺度归一化以保持尺度一致同时我们额外使用了尺度进行训练。我们在 8 块 NVIDIA H200 GPU 上训练所有模型并在 1 块 NVIDIA H200 GPU 上进行测试。关于训练过程首先我们从场景中随机输入 3-10 帧多相机图像18-60 张图像训练 20 个周期。每个周期训练 1000 次学习率为 2e-4。然后我们冻结聚合器再用 1e-5 的学习率微调 5 个周期。为了公平比较我们使用相同的方法训练其他模型。位姿估计为了将所提方法的位姿估计与其他基于 VGGT 的方法进行比较我们在 nuScenes 数据集上测试了 VGGT、StreamVGGT 和 fastVGGT。为了说明模型在不同数量图像输入下的性能我们设置了三种图像输入15 帧90 张图像、25 帧150 张图像和 35 帧210 张图像。同时我们将相对位姿嵌入整合到 VGGT 和 fastVGGT 中以展示相对位姿在这些模型中的作用。对于我们的方法我们实现了两种基础几何变换器来在 TVA 模块中实现时序视频注意力即 DriveVGGT (VGGT) 和 DriveVGGT (fastVGGT)。结果如表 1 所示。首先DriveVGGT (VGGT) 取得了比其他方法更好的性能尤其是在包含 210 张图像的场景中。同时对于相机位姿嵌入的实现VGGT 和 fastVGGT 出现了性能下降。然而对于 DriveVGGT聚合操作提高了相机位姿估计的准确性这证明了 DriveVGGT 对相对位姿的充分利用。深度估计深度估计的比较如表 2 所示。作为对相机位姿估计的评估我们在 nuScenes 数据集上测试了 VGGT、StreamVGGT、fastVGGT 和 DriveVGGT。在 Abs Rel 指标上DriveVGGT(fastVGGT) 在 35 帧场景中取得了最佳的深度估计性能这表明其处理长序列多相机视频的能力。StreamVGGT 在 15 帧场景中优于其他方法。推理时间估计推理时间的比较如表 3 所示。总体而言与 VGGT 和 fastVGGT 相比所提方法实现了更快的推理速度。DriveVGGT(VGGT) 在 35 帧场景中的推理时间仅为 VGGT 的 50%。同时DriveVGGT(fastVGGT) 的速度低于 DriveVGGT(VGGT)这是由于 fastVGGT 中额外的标记聚合算法导致在处理较少图像时推理时间延迟。可视化为了量化所提方法的综合性能我们比较了 VGGT、fastVGGT 和 DriveVGGT 的可视化结果。为了生成最终的点云我们在图像外参的指导下将深度图投影到全局点。 我们可视化了交通场景中 3 种典型车辆运动状态的重建结果和相机位姿输出。我们使用 30×6 张图像作为模型输入。在第一个场景中重建结果取得了很好的效果。然而与其他方法相比fastVGGT 的相机位姿输出表现出轻微的偏差。在第二个场景中虽然 DriveVGGT 能够从第一张图像到最后一张保持稳定的位姿预测但 VGGT 和 fastVGGT 表现出严重的性能下降尤其是对于远离初始图像的图像。同时严重的位姿偏差导致点云输出模糊不清。消融实验为了验证所提组件的有效性我们通过从 DriveVGGT 中移除所提模块进行了消融研究详细评估见表 4。基线模块仅使用 TVA 模块来实现视频中图像之间的注意力。测试结果表明由于缺乏相对位姿表示基线无法处理多相机系统。添加相对位姿嵌入后模型可以输出多相机系统的正确位姿预测。为了全面评估窗口注意力的功能我们在表 5 中测试了 3 种窗口大小。与大小为 5 和 7 相比大小为 3 可以在性能和效率之间保持平衡。为了评估尺度头的有效性我们使用两种对齐方法最小二乘法和基于尺度的方法将深度预测结果与真实值进行比较。结果如表 6 所示。结果表明尺度预测可以将深度转换为真实世界尺度。随后我们可视化了真实尺度的点云和相机外参。结果表明真实尺度的点云保持了与归一化点云相似的几何一致性。结论在本工作中我们提出了 DriveVGGT一个专门用于多相机几何预测的前馈重建模型。与之前的方法相比DriveVGGT 能够有效利用相对相机位姿来提升几何预测如相机位姿和深度估计的准确性。在 nuScenes 数据集上的综合评估表明与之前的前馈方法相比DriveVGGT 取得了更优的性能同时保持了较低的计算消耗。自动驾驶之心3DGS理论与算法实战课程知识星球交流社区
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

怎么建立一个网站推广怎样才能做一个优质的外贸网站

小熊猫Dev-C完整使用手册:从零基础到项目实战 【免费下载链接】Dev-CPP A greatly improved Dev-Cpp 项目地址: https://gitcode.com/gh_mirrors/dev/Dev-CPP 小熊猫Dev-C作为一款优秀的C集成开发环境,为初学者和专业开发者提供了强大的编程支持。…

张小明 2025/12/28 5:16:22 网站建设

企业网站模板大全app推广策划书模板

腾讯云国际站代理商提供的 MapReduce 即弹性 MapReduce(EMR),本身具备高性能、高弹性等产品优势,再叠加代理商的专属服务加持,能很好适配出海企业的大数据处理需求,具体优势如下:计算性能强劲&a…

张小明 2025/12/27 20:31:07 网站建设

网站悬浮窗广告怎么做网站审核照片幕布

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 构建一个极简的Kotlin项目原型,专门用于快速验证注解处理器兼容性问题。要求:1) 支持通过参数快速切换Kotlin版本(1.5-1.9) 2) 内置3种常见注解处理器(kapt,…

张小明 2025/12/27 11:55:37 网站建设

网站设计博客怎样制作网页二维码

第一章:Open-AutoGLM 自主纠错机制原理Open-AutoGLM 是一种基于生成语言模型的自反馈修正框架,其核心在于通过内部一致性验证与外部知识对齐实现输出的动态优化。该机制允许模型在生成响应后主动评估其逻辑完整性、事实准确性以及语法合规性,…

张小明 2025/12/28 5:16:06 网站建设

如何做招聘网站的评估网上购物网站建设需求

点击下方卡片,关注“自动驾驶之心”公众号戳我-> 领取自动驾驶近30个方向学习路线>>自动驾驶前沿信息获取→自动驾驶之心知识星球作为国际Tier1巨头的博世,今年也被国内智驾的飞速发展卷到了。根据最新的信息,博世汽车电子猛抓预研和…

张小明 2026/1/2 18:59:02 网站建设

网站开发团队如何接活网站广告动态图怎么做

多线程编程:线程取消、清理与信号处理 在多线程编程中,线程的取消、清理以及信号处理是非常重要的概念。下面将详细介绍这些内容,包括线程取消框架、线程清理机制以及多线程应用中的信号处理方法,并给出相应的代码示例。 1. 线程取消框架 线程取消是指一个线程请求另一个…

张小明 2025/12/26 6:32:06 网站建设