核心内容摘要
Qwen3-ASR-0.6B模型压缩:轻量化部署实践
端到端自动驾驶框架在泛化能力、训练效率和可解释性方面长期面临挑战。
现有方法虽利用视觉语言模型通过大规模数据集监督学习来提升推理能力但在新场景中往往缺乏鲁棒性而基于强化学习的方法虽增强了适应性却存在数据效率低下和决策过程不透明的问题。
为突破这些局限我们提出COVLM-RL——一种融合关键对象导向推理与视觉语言模型引导强化学习的新型端到端驾驶框架。
具体而言我们设计了一种思维链提示策略使视觉语言模型能够对关键交通要素进行推理并生成高层次语义决策从而将多视角视觉输入有效转化为结构化语义决策先验。
这些先验知识能降低输入维度并将任务相关知识注入强化学习循环从而加速训练并提升策略可解释性。
然而如何将高层次语义指导与连续的低层次控制相结合仍具挑战。
为此我们引入一致性损失函数促使视觉语言模型的语义规划与强化学习智能体的控制输出保持对齐以此增强可解释性与训练稳定性。
在CARLA模拟器中进行的实验表明COVLM-RL在已训练驾驶环境中的成功率提升30%在未遇见过的新环境中成功率提升50%显著体现了其强大的泛化能力。