感知、边听边做一些记录
发布时间:2025-06-24 18:41:37 作者:北方职教升学中心 阅读量:765
备注:最近读了一篇文章《使用苹果Vision》 Pro隔空控制机器人,英伟达:「人机合一」也不难(链接:https://mp.weixin.qq.com/s/jqksdoduec4DMSV3rDoA),显示的数据思路:人类在真实机器人身上收集演示数据,英伟达在模拟中将这些数据扩展了1000倍以上。通用机器人的概念和发展趋势,以及思考和探索通用机器人的基石层、
3D数据的适应性优势:
距离感知比二维数据更多信息,样本效率可以提高。
感知、
边听边做一些记录。
谷歌17个月,收集了13万条数据。
GP4V可以识别零件并调用技能模型完成任务。
机器人系统,该系统使用GP4V和大小模型的耦合来完成各种任务,包括抓取、
今天所有的人形机器人,给它一个地面点,让它泛化弯腰去捞这一点,这个人形机器人不会掉这在世界范围内还没有实现。大脑和小脑模型。控制……到端到端。
二、
所以1什么时候出现?f;还是路漫漫!四、规划、
Google RT-方案,VLA大模型,言语跟随,实现语言和动作的模型输出,大小脑一体模型,大一统只做了55B模型,但是速度很慢。
三、清洁和泛化操作。

CVPR论文!分割和识别跨类操作部件。
具体的多模态大模型系统面向通用机器人
王 鹤 | 北京大学助理教授智源学者。人形机器人的发展现状和挑战,本体层和数据层的考虑因素,提出合成数据是实现个人智能的关键。
采样效率是2D数据的1万倍。
通用机器人的未来仍然属于腿,轮子的方式仍然有限制,什么时候腿可以弯曲#xff0c;做各种动作不倒具体智能是一个很大的挑战,希望未来五年能发展。
把电池放在盒子里特斯拉采集,公开数据有40人的团队进行遥控操作,这种遥控操作是排列组合的问题,考虑泛化每一项技能都需要收集大量数据,特斯拉的计划是几百万到几千万美元。
具体智能数据可用于灵巧掌握学习,试验,训练需要5亿以上的数据,85.8的成功率。
数据:谷歌RT系列demo,demo与特斯拉c;它们都来自人类的遥操作。合成数据是一种可能的转换方式。小脑上方的大脑,如何互动。
聪明的手需要太多的数据,因为任务是无穷的。
大模型的魅力在于不需要深度图或点云,任务只能通过视觉观察来完成。
主要观点:人形机器人是未来发展的终结。
特斯拉和谷歌#xfff00c;都依靠人力这里有路径依赖。
Open6DOR ,提供训练集和 baseline,能抓也能放。
今天做本体机器人的腿达不到人的水平,需要采用渐进式发展模式。
一、未来,或者端到端有一个大模型。
但是,人形机器人从0开始这个数据很难突破。五、放置、
最后,显示机器人的规划和操作能力,包括抓取、
所以,综合考虑从零到一,一种基于合成数据的抓取技能训练方法。导航等。
人形,能找到最大公约数,但并不意味着都是人性,专业机器人有其他形式,但是,通用机器人应该是人形的。该系统的愿景是构建一个通用的机器人系统。
从本体层需要思考目前设计本体层在非拥挤场景中实现人的灵活性和操作空间。
数据:高采集成本特斯拉依靠人力采集自动驾驶数据但未来需要依靠机器人操作。
全身控制能力受腿部技能不足和成本挑战的影响c;需要务实考虑。
可以实现合成数据的泛化提高技能稳定性。通过合成数据回答scaling law问题使用seem to real技术抓取关节物体和操纵全身机器人的能力,并探讨了多模态大模型在开放语义抓取放置任务中的应用。
最后,会有大脑大模型和小脑大模型一起穿本体,形成本体技能。
描述水豚玩具的抓取和放置技巧。
提出三级大模型,确保快速和泛化。
特斯拉依靠人力收集将自动驾驶变成,接下来是100万数亿小时的数据。
这种方法可以实现对各种物体的稳定捕获,自由度和泛化性都很高。从洗盘到二指到灵巧收集#xff0c;自由度越来越高训练越来越难。
demo灵巧随意抓取c;还没有看到自由度有23个,但是训练越难。
视频链接:https://www.bilibili.com/video/BV1Zx4y147os/spm_id_from=333.1007.tianma.2-3-6.click&vd_source=98624b0c4e79ec285778dc7d42405。
直立时,手只能到这里触摸不到脚腿的重要性!
腿的作用:通用环境另一个功能,辅助手,到达手无法到达的地方。