未获取到公开可用关键图
在线论文 PDF(可滚动查看)

精读笔记

Problem Setting

部署大规模VLA到资源受限边缘设备的内存瓶颈。真正困难不是策略精度,而是模型尺寸(7B+)与端侧内存/算力的冲突。已有PTQ(INT4/INT8)在VLA上仍占数GB内存且性能损失不可忽视,尤其OpenVLA INT4在LIBERO上掉点明显;轻量VLA路线则直接缩小模型容量。关键矛盾是:如何在‘不大幅牺牲能力’的前提下,将VLA的推理内存压到消费级边缘设备(<2GB)可接受的范围。

Motivation

已有路线不够的根本原因在于:PTQ是被动截断已训练好的权重,在视觉-语言-动作这种多模态耦合系统中误差会被动作生成头放大;而小模型路线直接放弃参数量上限。作者核心观察是,1-bit LLM在NLP中已实现原生训练与推理,但向多模态/机器人领域迁移时,视觉编码器的极端量化是最大障碍——视觉侧对低位宽更敏感,且机器人任务对空间定位精度要求极高。关键缺口在于‘如何在量化感知训练中对齐被压缩后的视觉表征与语言空间’。

Core Idea

核心思想是‘分阶段解耦 + 层间蒸馏’。不是一次性把所有组件压到1-bit,而是先建立一个稳定的1-bit LLM + 全精度ViT的VLM基座,确保视觉-语言对齐空间已收敛;随后再单独对ViT做1.58-bit QAT,并用全精度ViT的逐层隐状态进行蒸馏。直觉上,这相当于把‘跨模态对齐’和‘权重量化’两个非凸优化问题解耦,避免早期训练中的量化噪声破坏语言空间。与Prior的本质区别:不是对训练好的VLA做PTQ,也不是换个小模型,而是将‘极端低位宽’作为训练时的 inductive bias 原生注入VLA架构,并通过蒸馏把视觉量化转化为‘学生模仿教师层间流形’的问题。

Method

1. 分阶段训练:Stage I/II按LLaVA范式训练连接器与1-bit LLM,ViT全精度,先固化视觉-语言对齐;Stage III冻结LLM与连接器,仅对ViT做QAT。必要性在于避免视觉与语言侧的量化噪声在训练早期耦合放大。2. 逐层隐状态蒸馏:全精度ViT作为教师,与学生(1.58-bit ViT)每层输出做MSE对齐。必要性在于机器人操作依赖中间层空间特征,仅终端语言建模loss无法约束中间表征的量化漂移。3. 全精度连接器:两层MLP保持FP,作为视觉到语言接口的精度缓冲。4. STE与全精度优化状态:量化用直通估计器,梯度与优化器状态保持全精度,保证三值权重更新的稳定性。

Key Insight / Why It Works

有效的主因是原生QAT+蒸馏避免了PTQ的表征崩塌,而非1-bit本身有更强表达能力。表2显示OpenVLA-OFT INT4虽内存仍大(4.7GB),BitVLA以更少的内存达到相近性能,关键在于QAT允许模型在训练过程中适应三值约束。视觉侧能压到1.58-bit几乎完全依赖逐层蒸馏:表4中去掉L_aux后VQA掉9.1%,说明三值化ViT若无层间引导会迅速丢失视觉细节。一个反直觉的发现是:无机器人预训练的BitVLA(94.8%)超过无预训练的OpenVLA-OFT(91.9%),暗示在机器人下游任务中,原生低比特QAT的2B模型可能优于7B模型的PTQ版本——即压缩/训练方式比绝对参数量更关键。但LIBERO-Long上的差距表明长程推理仍依赖大规模机器人预训练,这不是仅靠基座压缩能解决的。Action chunking与并行解码继承自OpenVLA-OFT,属于工程增益而非BitVLA核心创新。

Relation To Prior Work

与OpenVLA-OFT的关系:直接对标基线,继承其机器人微调技术(OFT、action chunking),但本质差异在于BitVLA解决的是‘部署压缩’而非‘策略优化’。与TinyVLA/NORA的关系:同属高效VLA,但后两者走‘轻量架构’(小模型)路线,BitVLA走‘极低比特’路线,属于不同的高效化谱系。与BitNet b1.58的关系:直接继承1-bit LLM骨干,新增信息是将其与视觉模态结合,并验证ViT可通过蒸馏适配1.58-bit。与LLaVA/QAT的关系:训练范式参考LLaVA,但将QAT推向1.58-bit并在机器人控制下游验证。看似是已有组件重组,实质创新在于验证了这种重组在VLA上的非平凡性——尤其是视觉侧在1.58-bit下仍能满足机器人操作的空间精度需求。

Dataset / Evaluation

仅LIBERO仿真(桌面操作),四维度(空间、物体、目标、长程)共40个任务,各500条示教。任务覆盖范围有限:固定相机、固定桌面、刚性物体,无真实世界或跨本体数据。对核心claim‘边缘设备可部署’的支持是间接的:只报告了理论权重内存(1.4GB),未在真实边缘硬件(如Jetson、MCU、CPU via bitnet.cpp)上验证延迟、功耗或吞吐量。表3的VQA评估仅证明1.58-bit ViT未崩溃,与机器人claim关联较弱。Overall,evaluation验证了‘仿真性能不受显著影响’,但未验证‘真实边缘部署可行性’。

Limitation

方法成立强依赖全精度ViT教师,无法独立进行原生低比特视觉预训练,本质仍是知识蒸馏而非从零构建低比特视觉表征。评估仅限LIBERO,场景过于受限,且文中失败分析显示spatial localization是主要瓶颈,暗示1.58-bit ViT在更复杂的真实视觉场景下可能面临表征精度不足。长程任务明显落后于有大规模机器人预训练的模型,说明复杂规划能力不能靠压缩凭空产生。理论内存优势未在真实硬件上验证,1-bit运算在通用GPU上可能因模拟开销反而更慢。增益部分来自OpenVLA-OFT的action chunking与并行解码,BitVLA自身增量主要在压缩效率。

Takeaway

一句话总结

BitVLA通过分阶段量化感知训练与视觉编码器逐层蒸馏,首次打通了原生1-bit VLA的训练流程,证明在极小内存下可达到与4-bit PTQ大VLA相当的仿真机器人性能,其核心贡献是推动VLA从‘后量化适配’走向‘原生极低比特设计’,但真实硬件收益与复杂场景泛化仍需验证。