Fine-Grained Alignment Supervision Matters in Vision-and-Language Navigation

The Vision-and-Language Navigation (VLN) task involves an agent navigating within 3D indoor environments based on provided instructions. Achieving cross-modal alignment presents one of the most critical challenges in VLN, as the predicted trajectory needs to p... ...

请注册登录后继续浏览