理想汽车于GTC 2026发布的下一代自动驾驶基础模型,也就是o1,正试着回答一个问题,当辅助驾驶不再仅仅为“眼睛”,而是开始具备“脑子”时,开车这件事会产生怎样的变化?
从看见路到理解世界
过去之时,有辅助驾驶系统,其核心逻辑乃是依靠摄像头以及传感器去识别车道线、车辆还有行人,从本质上来说,这实际上是一项感知任务。然而,理想 - o1所进行的第一步改变,乃是将二维的图像理解予以升级,使之成为三维的空间建模。
此套系统运用3D ViT视觉编码器,与此同时将激光雷达的点云数据当作几何信息提示予以输入。这表明车辆不但能够判定前方存在一个物体,而且还能精准明晰其于三维空间当中的位置、体积以及运动轨迹。举例而言,当面对一个横穿马路的行人时,系统并非仅仅知晓有人,还能够预先判断他在几秒之后将会走到哪条车道之上。
提前预判的能力
驾驶车辆时所面临的难点常常并非是针对当下眼前状况的应对处理,而是在于对紧接着下一秒钟将会出现何种情形的预先判断。举例来说,当旁边车道上的车辆开启了转向灯,其究竟是打算即刻进行车道并入操作,还是正在等待更为适宜的时机呢?
理想 - o1 解决此问题时引入了预测式隐世界模型,它先将当前复杂的交通场景压缩成隐空间的一种表达方式,之后在该空间模拟未来几秒可能出现的变化,这如同让系统在脑海中持续预演后续剧情,且无需真正生成完整视频画面,计算效率更高。
更顺滑的驾驶决策
好多体验过辅助驾驶的人都存有此类感觉:有时车子行驶得蛮稳当,然而刹车或者转向的动作较为突兀,仿若一个个单独指令拼凑而成的。理想 - o1所要做的,是将从理解至执行的链条疏通。
此次所提出的统一行为生成机制,使得模型于理解环境之后,能够直接在一个框架范围之内规划出驾驶运行轨迹。团队特意训练了一个“动作专家”模块用以负责生成轨迹,接着借助并行解码来确保反应速度,最后运用离散扩散的方式针对轨迹展开多轮优化。其最终目的在于让车辆的加减速以及转向变得更加连续,愈发像是一个经验丰富的司机所作出的操作。
在虚拟世界里练车
将过去辅助驾驶模型的训练,主要依靠对人类司机真实驾驶数据进行采集。这一方式的瓶颈极为显著,模型所学到的全部都是样本中所存在的事物,一旦遭遇罕见场景便极易表现出怯场之意。
理想 - o1 将强化学习置于核心位置,它籍由统一的 3D 渲染引擎构建了一个世界模拟器,使得模型能够于虚拟环境中持续试错、反复进行练习,官方公布的数据显示,依靠分布式训练框架,渲染速度提高了近乎两倍,整体训练成本降低了大约 75%,这表明诸多在真实道路上极难碰到的极端情形,如今能够在模拟器里迅速补齐。
大模型如何装进车里
一直以来,在行业里存在着这样一种两难困境,即把大模型放置到车端时,若将模型做大,使能力得到增强,然而芯片算力却无法带动;要是把模型做小,虽能够运行起来,可效果却会大打折扣。
在此次,理想所行走的乃是软硬件协同设计的路径。团队针对接近2000种模型架构配置展开了评估,直接于Orin以及Thor这两款主流芯片平台之上执行验证操作,将原本所需的几个月筛选周期压缩至了几天。此种做法具备的益处是,能够于模型性能与硬件算力之间寻觅到那个平衡点,确保在车辆上使用时既能够运行通畅,又能够保障呈现出良好效果。
自动驾驶只是第一步
根据理想官方给出的定义,-o1并非仅仅是用于服务汽车的基础模型,它与视觉语言模型、强化学习基础设施一道,共同构成了一整套AI框架,此框架在未来能够扩展至机器人领域以及其他物理系统。
顺着这个特定角度去瞧,理想竟然将自动驾驶视作了一处试验场地。它要让车辆从中学会如何明晰地理解三维空间,精准地预判未来可能出现的变化,于仿真环境里实现独自自我进化前行,要是这些相应能力经过验证达到成熟状态,往后完全能够迁移至人形机器人身上,或者是其他那些需要与物理世界进行交互打交道的设备之上。先是借助用车的场景把模型精心训练出来,后续再将其应用到更为广泛的诸多领域之中,这才是他们内心想要讲述的那个更具长远意义的故事呀。
当然了,发布会上所提及的技术,听上去纵使再怎么厉害了,然而最终都是要落实到量产车上,去接受检验的。从模型发布开始,一直到用户切实感受到其中的变化,在这期间,还有持续训练、工程适配以及路况验证等一系列环节,是需要去做的。不过呢,至少在这一回,理想已经将下一阶段辅助驾驶的核心命题,从“开得稳”这个层面,推向到了“想得深”这个层面了。
难道你会认为,一辆具备能够预判、有着可以思考能力的车,会比你更加懂得怎样在道路之上保障你的安全吗?欢迎于评论区域去聊聊你所拥有的看法,点赞并且分享,以此让更多的人能够看到这场技术层面的变革。




还没有评论,来说两句吧...