精读笔记

Problem Setting

部署大规模VLA到资源受限边缘设备的内存瓶颈。真正困难不是策略精度，而是模型尺寸（7B+）与端侧内存/算力的冲突。已有PTQ（INT4/INT8）在VLA上仍占数GB内存且性能损失不可忽视，尤其OpenVLA INT4在LIBERO上掉点明显；轻量VLA路线则直接缩小模型容量。关键矛盾是：如何在‘不大幅牺牲能力’的前提下，将VLA的推理内存压到消费级边缘设备（<2GB）可接受的范围。

Motivation

已有路线不够的根本原因在于：PTQ是被动截断已训练好的权重，在视觉-语言-动作这种多模态耦合系统中误差会被动作生成头放大；而小模型路线直接放弃参数量上限。作者核心观察是，1-bit LLM在NLP中已实现原生训练与推理，但向多模态/机器人领域迁移时，视觉编码器的极端量化是最大障碍——视觉侧对低位宽更敏感，且机器人任务对空间定位精度要求极高。关键缺口在于‘如何在量化感知训练中对齐被压缩后的视觉表征与语言空间’。

Core Idea

核心思想是‘分阶段解耦 + 层间蒸馏’。不是一次性把所有组件压到1-bit，而是先建立一个稳定的1-bit LLM + 全精度ViT的VLM基座，确保视觉-语言对齐空间已收敛；随后再单独对ViT做1.58-bit QAT，并用全精度ViT的逐层隐状态进行蒸馏。直觉上，这相当于把‘跨模态对齐’和‘权重量化’两个非凸优化问题解耦，避免早期训练中的量化噪声破坏语言空间。与Prior的本质区别：不是对训练好的VLA做PTQ，也不是换个小模型，而是将‘极端低位宽’作为训练时的 inductive bias 原生注入VLA架构，并通过蒸馏把视觉量化转化为‘学生模仿教师层间流形’的问题。

Method

1. 分阶段训练：Stage I/II按LLaVA范式训练连接器与1-bit LLM，ViT全精度，先固化视觉-语言对齐；Stage III冻结LLM与连接器，仅对ViT做QAT。必要性在于避免视觉与语言侧的量化噪声在训练早期耦合放大。2. 逐层隐状态蒸馏：全精度ViT作为教师，与学生（1.58-bit ViT）每层输出做MSE对齐。必要性在于机器人操作依赖中间层空间特征，仅终端语言建模loss无法约束中间表征的量化漂移。3. 全精度连接器：两层MLP保持FP，作为视觉到语言接口的精度缓冲。4. STE与全精度优化状态：量化用直通估计器，梯度与优化器状态保持全精度，保证三值权重更新的稳定性。

Key Insight / Why It Works

有效的主因是原生QAT+蒸馏避免了PTQ的表征崩塌，而非1-bit本身有更强表达能力。表2显示OpenVLA-OFT INT4虽内存仍大（4.7GB），BitVLA以更少的内存达到相近性能，关键在于QAT允许模型在训练过程中适应三值约束。视觉侧能压到1.58-bit几乎完全依赖逐层蒸馏：表4中去掉L_aux后VQA掉9.1%，说明三值化ViT若无层间引导会迅速丢失视觉细节。一个反直觉的发现是：无机器人预训练的BitVLA（94.8%）超过无预训练的OpenVLA-OFT（91.9%），暗示在机器人下游任务中，原生低比特QAT的2B模型可能优于7B模型的PTQ版本——即压缩/训练方式比绝对参数量更关键。但LIBERO-Long上的差距表明长程推理仍依赖大规模机器人预训练，这不是仅靠基座压缩能解决的。Action chunking与并行解码继承自OpenVLA-OFT，属于工程增益而非BitVLA核心创新。

Relation To Prior Work

与OpenVLA-OFT的关系：直接对标基线，继承其机器人微调技术（OFT、action chunking），但本质差异在于BitVLA解决的是‘部署压缩’而非‘策略优化’。与TinyVLA/NORA的关系：同属高效VLA，但后两者走‘轻量架构’（小模型）路线，BitVLA走‘极低比特’路线，属于不同的高效化谱系。与BitNet b1.58的关系：直接继承1-bit LLM骨干，新增信息是将其与视觉模态结合，并验证ViT可通过蒸馏适配1.58-bit。与LLaVA/QAT的关系：训练范式参考LLaVA，但将QAT推向1.58-bit并在机器人控制下游验证。看似是已有组件重组，实质创新在于验证了这种重组在VLA上的非平凡性——尤其是视觉侧在1.58-bit下仍能满足机器人操作的空间精度需求。

Dataset / Evaluation

仅LIBERO仿真（桌面操作），四维度（空间、物体、目标、长程）共40个任务，各500条示教。任务覆盖范围有限：固定相机、固定桌面、刚性物体，无真实世界或跨本体数据。对核心claim‘边缘设备可部署’的支持是间接的：只报告了理论权重内存（1.4GB），未在真实边缘硬件（如Jetson、MCU、CPU via bitnet.cpp）上验证延迟、功耗或吞吐量。表3的VQA评估仅证明1.58-bit ViT未崩溃，与机器人claim关联较弱。Overall，evaluation验证了‘仿真性能不受显著影响’，但未验证‘真实边缘部署可行性’。

Limitation

方法成立强依赖全精度ViT教师，无法独立进行原生低比特视觉预训练，本质仍是知识蒸馏而非从零构建低比特视觉表征。评估仅限LIBERO，场景过于受限，且文中失败分析显示spatial localization是主要瓶颈，暗示1.58-bit ViT在更复杂的真实视觉场景下可能面临表征精度不足。长程任务明显落后于有大规模机器人预训练的模型，说明复杂规划能力不能靠压缩凭空产生。理论内存优势未在真实硬件上验证，1-bit运算在通用GPU上可能因模拟开销反而更慢。增益部分来自OpenVLA-OFT的action chunking与并行解码，BitVLA自身增量主要在压缩效率。

Takeaway

1. 原生1-bit QAT是端侧VLA的可行路径，PTQ在VLA上效率与效果双输，未来端侧部署应优先考虑训练时量化。
2. 视觉编码器可极端量化，但层间特征蒸馏是刚需，此insight可迁移到任意多模态大模型的视觉侧压缩。
3. 机器人下游任务对基座压缩的容忍度高于预期，2B 1-bit模型在特定操作任务上可挑战7B PTQ模型，提示端侧机器人应追求‘与硬件匹配的低比特原生架构’而非盲目扩大参数量。
4. 下一步真正值得做的：在真实边缘硬件上验证E2E latency与功耗；探索摆脱教师模型的1-bit ViT原生预训练；推进到非结构化真机环境。

一句话总结

BitVLA通过分阶段量化感知训练与视觉编码器逐层蒸馏，首次打通了原生1-bit VLA的训练流程，证明在极小内存下可达到与4-bit PTQ大VLA相当的仿真机器人性能，其核心贡献是推动VLA从‘后量化适配’走向‘原生极低比特设计’，但真实硬件收益与复杂场景泛化仍需验证。