AI知识网,一站式人工智能学习平台 | 从入门到精通的 AI 知识库 AI知识网,一站式人工智能学习平台 | 从入门到精通的 AI 知识库
  • 主页
  • AI动态
  • PHP
  • QQ:420220301
    Wechat:w420220301
QQ:420220301
Wechat:w420220301
  • 主页
  • AI动态
  • PHP
首页 AI动态 哇塞,今天北京被机器人人人人人塞满了!

哇塞,今天北京被机器人人人人人塞满了!

管理员 2025-08-09 16:46:03

摘要:热闹,简直太热闹了。只因一群机器人“聚集”在了北京,就让现场直接变成人人人人人了:这就是今天刚开幕的世界机器人大会(WRC)的热度,据说今年来了100多个新机器人!人气...

热闹,简直太热闹了。


只因一群机器人“聚集”在了北京,就让现场直接变成人人人人人了:



这就是今天刚开幕的世界机器人大会(WRC)的热度,据说今年来了100多个新机器人!


人气爆棚,人气爆棚。


而在令人目不暇接的机器人展中,我们发现有一个展台围观的观众格外之多,现场是这样的:



在挤进人群后我们看到,嚯~好家伙,原来是一个人形机器人正在打架子鼓呢!


配乐也是很应景,是《北京欢迎你》:



可以看到,这个机器人节奏打得还是相当精准,甚至表演过后还礼貌地作了个揖。


这个人气爆棚的机器人,正是来自智平方的爱宝。


但在我们驻足观察了一会儿之后发现,机器人整活儿,还仅仅只是被观众围观的原因之一。


更重要的一点是,我们在它身上,看到了通用机器人该有的样子。


一个模型搞定多个任务


那么什么是通用机器人?


简单来说,通用机器人的特点就是能力非常广泛,可以胜任多种任务和环境;不再像以往的专用机器人,只能处理例如扫地、焊接这样单一的任务。


目标就是实现类人或类通用智能体的灵活性和适应性,可以根据不同指令、上下文甚至环境变化,自主决策并完成任务。


爱宝就是这样的机器人,因为它只需要一个基座模型,经过快速学习,就能搞定各种各样的任务。


例如在打完架子鼓之后,这不,爱宝在现场又摇身一变,成了软饮吧的主理人,开始给观众做冰淇淋了:



可以看到,爱宝在接到任务之后,先是用左手抓起了纸杯,然后把纸杯放到了冰淇淋出口下方。


右手精准抓到了冰淇淋机器的手柄,在下拉手柄之后,随着冰淇淋的流出,爱宝的左手也是配合着打转,让冰淇淋稳稳地装进杯子里。


最后,爱宝的左手还来了个“下拉上提”(像极了人类操作)的动作,完美收尾~


而且在这个软饮吧中,爱宝不仅能做冰淇淋,像做咖啡、做饮料,都是手拿把掐。


在这一系列操作的背后,不仅仅是单一操作指令这么简单,而是大模型所带来的长程柔性能力的体现。


爱宝在现场还表演了一波“真·搬砖”任务,这一次它的身份是“工厂码垛搬运员工”。



爱宝先是从一边精准拿起了一个箱子,然后拿着它走到了另一边,又精准地放到了目标位置。


如此来来回回,爱宝就完成了多个箱子的搬运;而这个过程中,拿起箱子和目标地方的位置、高度、角度等,每次完成搬运后都是会有变化的。


这就体现了爱宝全域行动、全身协同的工作能力:据了解,爱宝全身拥有34+自由度,可连续工作6小时,单臂负载最高可达10公斤,作业高度最高可达2.4米。


除此之外,在这次WRC中,智平方还首次亮相了一款全新的机器人——全向轮爱宝。


在配备了全向轮后的爱宝,不仅能原地转圈,还能横着走、走“S”形路线,在复杂的工业环境中穿梭自如,轻松完成各种切换操作。



它前后各有一个激光雷达,可以实现360°全方位导航,搭配减震轮,适应多种路面,行驶平稳又可靠。


此外,全向轮爱宝还配有48V 42Ah的大电池,既能自动充电,又支持手动换电,续航灵活,能满足不同使用需求。


总而言之,在智平方的展台中,通过爱宝在现场完成的一系列任务,我们确实是看到了通用机器人的影子。


怎么做到的?


出于好奇,在看过爱宝的“能力秀”之后,我们专门跟智平方的技术人员深入交流了一番,了解到了爱宝背后的“技术秘籍”。


关键就在于它的大脑Alpha Brain里,搭载了智平方在全球范围内首个全栈自研的全域全身视觉-语言-行动大模型——GOVLA(Global & Omni-body Vision-Language-Action Model)。


简单来说,它就是爱宝的“超级大脑”,赋予了机器人前所未有的智能化水平。这个“超级大脑”的亮点,可以概括为四大核心能力:


1、全域感知 (Global Perception)


传统的机器人更像一个“桌面工作者”,只能处理放在它面前、固定范围内的东西。比如,你把食材都摆在桌上,它或许能帮你切菜,但它看不到桌子以外的世界。


而搭载了GOVLA的爱宝,则拥有了360度的全域视野。它能像人一样感知和理解整个空间环境,知道冰箱在哪里、桌子有多远、物体是什么形状。


这意味着,它可以自己去冰箱里取出食材,完成从取物、处理到上菜的全链条服务。这已经不是简单的自动化设备,而是一个具备环境理解能力的“智能管家”。



2、全身协同 (Omni-body Coordination)


过去的机器人大模型,通常只能控制单条机械臂的动作。而GOVLA首次实现了输出对机器人全身的控制指令,包括双臂、灵巧手、甚至是底盘的移动。


这意味着爱宝的动作不再局限于单臂操作,而是可以像人一样,用全身去协调完成复杂任务。比如,它可以一边用身体稳住一个箱子,一边用双手去打开它;或者一边移动,一边执行精细的操作。


这种全身协同的能力,是迈向通用智能机器人的关键一步。


3、长程柔性 (Long-horizon Flexible Tasks)


“长程柔性”指的是机器人能够理解并执行一个由多个步骤组成的复杂、长远的任务。你不需要一步一步地教它,只需要给出一个最终目标,比如“给我做一份健康早餐”或“把这个房间打扫干净”。


GOVLA大模型能够自主地将这个复杂目标拆解成一个个可执行的子任务,并有条不紊地依次完成。


在展会上,爱宝化身“软饮吧台服务员”,从接受点单、取杯、加冰、打饮料到最终递给顾客,整个流程一气呵成,正是这种能力的完美体现。


4、快速学习 (Rapid Learning)


GOVLA大模型让爱宝具备了强大的学习和泛化能力。它不仅能完成预设的任务,还能通过观察和少量数据,快速学会新技能。


展会上,爱宝表演打架子鼓,从《北京欢迎你》到《We will rock you》,这种跨越不同节奏和风格的“才艺秀”,背后就是其强大的快速学习和即时适应能力在支撑。



总结来看,智平方的GOVLA大模型相较于硅谷主流的VLA(视觉-语言-行动)模型,展现出了明显的优势:


  • 从“桌面级”到“全域级”:突破了传统VLA只能在固定台面上操作的局限,将机器人的工作空间扩展到了整个环境。


  • 从“单臂”到“全身”:实现了对机器人全身自由度的协同控制,而不仅仅是单臂操作,动作能力更强、更拟人。


  • “即想即动”的融合架构:通过创新的快慢系统融合设计(FiS-VLA),GOVLA解决了复杂推理(慢思考)与快速行动(快反应)难以兼得的行业难题,让机器人能够做到“想得深、动得快”。


值得一提的是,智平方发布GOVLA的时间,甚至比美国一些明星机器人公司发布类似理念的模型还要早,展现了中国在具身智能核心技术领域的领先身位。


不只是“实验室”大模型


技术再先进,如果不能走出实验室,就无法产生真正的价值。


智平方从一开始就不是只做“实验室大模型”的学院派,而是真正深入产业、解决实际问题的产业派。


他们深知,要训练出更通用、更强大的机器人大模型,就必须让机器人在真实、多样的场景中去“历练”。


目前,搭载GOVLA大模型的爱宝机器人,已经在四大核心场景中与多个行业头部企业合作,开始了商业化落地的征程:


1.工业制造(多家国内外头部车企):在繁忙的汽车生产线上,爱宝机器人已经开始执行上下料、为挡风玻璃贴标签、在车间内转运物料等任务,覆盖了装配、质检、物流等多个关键环节。


2.半导体(晶能微电子):在对精度和稳定性要求极高的半导体工厂,爱宝承担起了产线间的物料转运工作,确保生产流程的高效与稳定。


3.生物科技(华熙生物):在无菌车间这种不适合人类长时间工作的环境中,爱宝可以代替人工,执行物料的智能拆包、转运和视觉检验等高精度操作。


4.公共服务(国内一线城市机场):很快,我们就能在机场看到爱宝的身影。它即将被部署在国内一线城市的机场,为来往的旅客提供信息咨询、路线指引等贴心服务,这将是具身智能在开放、复杂公共环境中应用的一大步。



智平方选择多场景并进的具身智能之道,是一个“反共识”却又充满智慧的战略。


他们认为,让人形机器人走向通用的最佳路径,不是“死磕”一个场景


这背后,是他们对机器人商业化演进的清晰规划:从L0级别的开发者场景,到L2级别的工业服务,再到L2+级别的公共服务,最终迈向L4级别的家庭服务。


今年智平方陆续开始“硬核”交付。从工厂车间到机场大厅,再到未来的千家万户,智平方正通过坚实的场景落地,一步步将通用智能机器人的梦想变为现实。


文章来自于微信公众号“量子位”,作者是“金磊”。



声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。

上一篇:银河通用WRC首发英伟达Thor,银河太空舱世界首创城市级机器人应用
下一篇:无需外部数据!AI自问自答实现推理能力进化
猜你喜欢
  • 阿里巴巴推出DeepPHY:首个专门测试AI视觉模型物理推理能力的综合评估平台
  • Meta首次破解AI推理模型的"幻觉"难题:让机器既会思考又能说真话
  • UNC研究团队推出Bifrost-1:用"补丁级CLIP"让AI既能看又能画,训练成本骤降90%!
  • 人形机器人商业化元年爆发!优必选、智元亿元订单落地,工业场景开启“30%劳动力替代”新纪元
  • ISC.AI 2025北京盛大启幕:全球首秀L4级智能体“纳米AI”,定义智能体时代安全与AI新范式
  • 字节跳动发布全球最快代码生成AI:2146倍速度碾压传统模型的秘密武器
  • 印度学生的数学神器:Physics Wallah团队打造出专门为JEE考试优化的AI数学助手Aryabhata
  • 新加坡国立大学团队揭示:让AI既能看又能做的视觉强化学习新突破
  • 机构:DeepSeek 过去一年的流量份额显著波动
  • 人工智能也有"选择困难症"?斯坦福与北大联合研发"多维偏好大师"
19 08, 2025
新加坡南洋理工大学重新定义3D重建:像智能手机看视频一样理解三维世界
Str Tom
站长
Str Tom 网络工作室
254
文章
0
评论
0
获赞
  • 主页
  • AI动态
  • PHP
Powered By AI知识网 © 2025 strtom网络工作室. 公安备案号:冀公网安备13011102001189号 网站备案号:冀ICP备2024070905号-2 网站地图
友情链接: 各类知识收集 PHP接单网 YzmCMS官方网站 YzmCMS交流社区 YzmCMS官方博客