1. 首页 > 咖啡知识

咖啡壶 知乎 新闻速递|具身智能的10个真问题;探秘中国科大人形机器人研究院 咖啡壶好用吗

咖啡壶 知乎 新闻速递|具身智能的10个真问题;探秘中国科大人形机器人研究院

1. 关于具身智能的 10 个真实问题 | 30,000 字圆桌会议记录

本集为《盛夏六天》第三季第一集的文字内容,主题为“具身智能:信仰还是FOMO?”

十大亮点:

具身智能是否会只是昙花一现呢?

AIGC 下的“具身智能”有何特殊之处?

机器人为何也需要“大脑和小脑”?

智能机器人将在哪些领域取代人类?

为什么家庭场景比工厂场景更难?

ToB与ToC,哪个更容易商业化?

人类如何教机器人做事?

具身智能下一步突破的核心瓶颈是什么?

机器人会成为年轻人结婚“新三大件”之一吗?

中国物化智力走向世界的关键是什么?

讨论嘉宾:

司晓 腾讯集团副总裁、腾讯研究院院长

香港科技大学教授王文博

张恒迪,帕西尼感知科技CTO

徐华哲 星海图科技联合创始人

具身智慧:信仰还是错失恐惧症 (FOMO)?

司晓:欢迎收看《盛夏六日》,今天的话题是《具身智能:信仰还是错失恐惧症》。这个话题就是要探讨一下,具身智能到底是一个全民热议的信仰,还是一个“错失恐惧症”(FOMO)的热门话题,或者说,这个话题到底是真的还是假的?我们非常荣幸邀请到三位嘉宾,他们在各自的领域都非常知名,下面就请他们做一下自我介绍。

王文博:大家好,我叫王文博,是香港科技大学商学院的教授,目前主要从事人工智能相关的用户研究,最新的研究是利用AI生成小红书文案、短视频素材等营销内容。除此之外,我更关注用户体验和创业者对科技的反应、他们的热情和焦虑。

司晓:文博哥应该算是网红教授了,您是知识型网红,我看您视频号的时候发现我朋友圈里已经有三四百人关注您了,这个比例挺高的。华哲和恒迪都很年轻,你们两个应该是典型的理工科男,是机器人行业的从业者,我先给大家介绍一下你们吧。

许华哲:大家好,我叫许华哲,目前是清华大学交叉学科信息科学研究院助理教授,清华大学具身智能实验室主任。我主要研究具身智能,或者更直接地说,就是让机器人学会像我们一样,用手臂和手来操作、与物理世界互动。去年我做了一个很有意思的事情,让机器人包饺子,但不是工厂流水线上做的,而是像妈妈或者我们自己一样,用手臂来包饺子。这是一个很典型的例子。能不能让机器人以一种通用的方式,做到人手能做的一切事情?这是我的一个研究目标。

张恒迪:各位观众朋友大家好,我是帕西尼安感知科技CTO张恒迪。我们公司主要致力于为机器人提供最重要的感知——触觉。为什么触觉这么重要呢?就像刚才Jason说的,机器人现在只有一个大脑,一只眼睛可以看东西,当它们真正跟人或者其他物体互动的时候,最重要的类人感知就是触觉。所以我们致力于让所有的机器人都像人一样拥有丰富而有温度的触觉,让它们能够更加广泛的走进人类社会,成为人类社会生活中更有温度、更有激情、更具体的存在和心理符号。

司晓:谢谢三位嘉宾的介绍,大家可以看到我们的嘉宾组合,我是纯文科生,两位中年男士是理工科生,文博是文科生或者文理结合的。可以说我们的嘉宾从学术背景到工作经历都非常多元,互补性很强。我还问了,大家都喜欢科幻,这让我特别兴奋。希望今天的讨论可以不局限于过去讨论过的一些方向。

我们的话题定义为“具身智能”,这个术语是不是过热了,或者说模糊了?会不会像那样?大家可能觉得这一波AI已经到了顶峰,不会像达特茅斯会议之后那样大起大落,至少是稳定在比较恒定的热度状态。关于具身智能,大家谈论比较多的一点是,要经过具身智能才能到达AGI那一步。现在我也看到很多人在讨论AI Agent,我刚刚在北京参加了一个关于数字人法律问题的活动,每个嘉宾都从自己的角度谈到了它的分类。套用一句话“既要有好看的外表,又要有有趣的灵魂”,可以说这一波所谓的具身智能或者机器人的升级,很大程度上就是它有大脑,甚至有情感。那么第一个问题就是各位嘉宾,你们觉得具身智能是什么?什么不是?比如AI Agent这几个词有什么相同点和不同点?

张恒棣:具身智能这个词是近两年才出现的。有一年,的黄仁勋突然提起了具身智能这个词。但以我自己的经验来看,很早以前就有很多类似的概念。比如大概十五年前就有人提出了Cyber​​-(网络和物理世界)。这不是一个科幻词,而是严肃工业界使用的词。一方面有类似AI的程序或者预先编好的程序,会一直接收一些物理传感器的实时数据,快速处理这些数据,处理完之后再反馈给物理世界。比如说在工厂里控制一些东西的质量,或者在一些更宽泛的场景里让摄像头跟着人,其实这个时候就体现出一点点具身智能了。

经过这么多年的发展,我觉得具身智能最大的特点就是我们单提这个词的时候,更注重它的执行力和思考力。以前可能这两个方面比较弱,但是都有那个味道,很早就叫它具身智能。但是现在,我觉得这个目标越来越清晰了,我们希望看到它跟人一样聪明,或者至少能帮助人做同样的事情。从这个角度来说,它要有更强的执行力,要更聪明。两者结合起来,体现出一个完整的、像机器人一样的形态,我觉得这个东西就叫具身智能。

司晓:图灵最早是在他关于机器智能的文章中提到它的。那请您继续讲讲您理解的具身智能是什么?它不是什么?它和现在一些类似的词语有什么区别?

王文博:我刚才问了恒迪、华哲,我说你看这个扫地机器人,加上无人机,这两个加上去,就更聪明了,这是体现智能吗?很多人说这个概念可能有点过热了,我完全不这么认为。我们现在就在风景如画的碧山村,昨天我问了几个当地的村民,他们知不知道“体现智能”这四个字,他们都知道,但是不知道它们拼在一起是什么意思。我跟他们说,你们知道扫地机器人吗?知道。你们知道无人机吗?知道。我觉得革命性的技术当然都是一小部分人构想出来的。我们在讨论这个话题的时候,除了实验室里的想法,可能还要考虑一个概念出来的时候,大众能不能接受,因为这直接影响到最后能不能上路。好像自动驾驶最近比较成熟,所以我觉得我们在讨论具身智能这个概念的时候,可能需要站在那些立法者和政策制定者的角度来进行更好的沟通,他们的背景可能和我们不一样,他们的理解可能和璧山村当地的村民比较类似。

我个人觉得具身智能和前些年在电脑屏幕上出现的智能,可能就是它具备物理世界的执行力,扫地机器人也是这样。显然它不是我们期待的那种智能。它可能还有另外一个特点,就是它要有成长性,它遇到问题不是说“按”它就往左走或者往右走,而是要根据实际情况来做决策。第三,要有一些个性化的服务。刚才恒迪提到了三维世界,我觉得从一般大众的认知角度来说,他们能理解什么?输入的信息是什么?输入的信息可能是多模态的,就是有图片、声音、气味、触觉、文字等等。它经过智能思考之后,通过一个可执行的肢体来为人类服务。这个肢体可能是扫把,可能是手臂,也可能是一个螺旋桨。这是我对具身智能的理解。

许华哲:我觉得文博刚才讲的很好。我的观点跟你刚才提到的几点是相对应的。首先第一层意思就是赋予身体智能,让它能够做这些事情,这是第一层。第二层意思就是在它跟物理世界互动的过程中,增强智能,就像我们人类一样,通过锻炼,我们变得更强壮。第三,要有主观性,就是这些感官,不管是视觉、触觉,还是刚才说的多模态输入,都是属于我身体的。对我来说,我觉得很美的东西,对你来说可能就是丑陋的,我觉得很伤人的东西,对你来说可能就是爽快的。这个情况跟大模态不一样,它在这里面有一个主观性。这个就是我认为的具身智能。

我刚才提到通过物理交互来提高智力,其实有一个很典型的例子。人类的婴儿有一种东西叫(物体存在性),我们小时候其实分辨不出来。如果妈妈给婴儿展示一个玩具,他会很感兴趣,用布盖住之后,他马上就以为这个物体消失了,于是就四处张望。他是怎么逐渐学会这一点的?他可能会走到布的后面,或者把布掀起来,在一次次物理交互的时候,他发现物体不会消失,只是光线被遮住了。这个过程就是智力发展的过程。所以具身智力可能不仅仅是狭义的赋予身体智力,而是我们有了身体之后我们的智力会怎么发展,甚至没有身体就发展不出来的部分,能不能发展得更好。这是我的想法。

司晓:其实还有一个问题让我很困惑,我在北京开这个会的时候也没有想清楚。你说的Agent其实就是文博哥讲的决策,但是“工具”,也就是不管是物理的还是机械的,总得有吧?那么你们三人同意具身智能一定是有的吗?比如电影《她》有人说有形有神,有人说有形有神。从中国人的角度看,这个“形”不一定对吧?如果有声音,它只是一种多模态,没有任何形体。当然你可以把它放在任何形体上,但它能没有形体吗?从电影《她》我感觉它确实是存在的虚拟主体。这算不算我们说的具身智能?可能说得有些迂腐,总之这个“工具”有必要吗?

许华哲:我认为不是。具身智能肯定有躯体,但是这个躯体可能有一个模糊的边界。首先,肉身肯定是具身智能。模拟或者游戏中的躯体,在某种意义上也应该算是具身智能。我觉得是。但是像《她》或者GPT,我觉得不是,因为它没有躯体,它不知道哪个我才是真正的我,所以我不觉得是。

王文博:我觉得这个躯体不一定非要是物理躯体的形状或者外观,可以是锤子、螺丝,但一定要有在物理世界中执行的能力。至于这个任务到底应该由物理躯体来执行,还是由扫地机器人的螺旋桨、扫帚来执行,可能要根据场景来决定。

司晓:我觉得比较的重点是什么?因为我看到科学计算讲,人类的软件和硬件是密不可分的。这种计算能力的好处是一碗饭就可以干一天的工作。虽然这种计算能力没有那么强,是单线程的,但是它的能耗很低。缺点是没有集体智慧,有寿命。爱因斯坦的大脑没有意义,它就是这种类型。文博哥刚才说了,它可能是一个钉子,也可能是其他的形式,但是如果我们从Agent的角度来看,它可以什么都没有,但是它可以指挥一堆没有大脑的机器去做这个事情。所以它看上去是那个身体,又不是那个身体。套用一句话,它的身体无处不在,它既不能化身为某个东西,也不能被破坏,你砍掉它,一点都不会伤害它。所以我觉得这个“身体”和“非身体”其实是有点的。如果放在现在这个时代,或者未来的机器人场景里,形与神其实是可以完全分开的,而且也可以是虚拟的,所以这可能是一个比较有意思的话题。其实我觉得第一步不是要达成共识,因为不可能有一个很具体的共识。而是把一堆类似的说法放在一起,会对我们解决问题有一些帮助。

我们刚才讲了达特茅斯会议之后人工智能的起起伏伏,这一波人工智能或者说具身智能有什么不一样的背景?您觉得这一波具身智能能不能持续很久?会不会像AI一样成为一个有实际产出、有基础模型的热门话题,还是会像元宇宙一样昙花一现?因为过去几年大家经历了元宇宙、区块链、NFT等概念,大家觉得你们这个行业喜欢搞概念,然后搞金融的先买比特币、虚拟货币,然后就跑了。作为从业者,您怎么看待我们现在讲的这个东西?

许华哲:这一波具身智能可能跟前面几波很不一样,因为这波其实有AI的强势支撑。而且从过去的经验来看,机器人的执行器其实很早就具备了很强的能力。比如前段时间斯坦福做的Aloha机器人,它的执行器其实就是两个小爪子,但是你会发现它在家里可以做各种各样的事情,比如抚摸猫咪、叠衣服或者挂衣服。它的设备,也就是它的执行器,可能十年、二十年甚至三十年前人类就已经做出来了。但是三十年前的Aloha和现在的Aloha最大的区别其实就是人工智能。所以有时候我们讲具身智能,讲如何打造一个机器人躯体,我觉得可能更多的是给AI打造一个瓶子躯体,让它去体验、去和现实世界互动,就像一个神灵下凡,让它直接进入这样一个躯体里。它有了这个东西之后,就会用这个躯体去体验更多的信息,获得更多的智能。所以这一波其实是两个相辅相成的方面。人工智能越强,具身智能就越强大,应用范围就越广。所以如果人工智能是一个实体,那么这一波具身智能应该是它的补充,未来它们会相互纠缠,不应该分得太多。

司晓:能具体解释一下吗?家用机器人的两只爪子或者两只手,跟十年二十年前的基本上是一样的吧?物理功能上没什么区别?

许华哲:是的。性能可能会提高,但自由度可能会提高。总体来说是一个非常有限的提升。

司晓:为什么这个大脑在同样的硬件条件下,赋予了它更强的操作能力?除了知道要做什么之外,它拿东西的时候,背后是否也有智慧?

许华哲:拿东西的时候,很明显它就是智能的。我举一个很简单的例子,以前在工厂里,我们可能用很死板的程序。比如说我有一个相机,我拍这个东西,你看它在屏幕左边,它长这样,过去,请你把它拿到中间去,就是这样。这个在当时就是具身智能,不叫具身智能,纯粹是程序控制机械臂去做事情。现在比如说我们公司会生产很多触觉传感器,然后把触觉传感器装在机器人的手上,一般来说装在灵巧手上。灵巧手的自由度跟人的手一样灵活,它的自由度可能比人的稍微少一点,但是它还是可以抓东西、捏东西、敲键盘的。在做这个过程中,它在键盘上打字的时候,或者它拿取物体的时候,如果有触觉信号的话,它其实是能够感觉到我触摸到了这个东西,那个东西就在那儿的。

刚才文博提到了多模态,其实无论是触觉也好,还是它对温度的感知也好,都是另外一种模态。为什么人在体验这个世界的时候,会用到那么多不同的模态呢?因为单一的模态肯定不足以深刻的理解这个世界。很难想象一个人只靠触觉或者视觉就能理解这个世界。但是现在有了AI的支持,那么多不同的传感器,会让以前的一个夹子和现在的一个夹子产生巨大的差别。因为现在它不但能夹住这个东西,而且在夹住这个东西之前,它能够感知到各种信号,这些信号再经过AI的处理,最后做出最智能的决策。最后你会发现,这样一个智能的夹子,并不比人的手差多少。因为人的手可以看成是五根棍子拼起来的,后面还有一根棍子,各种棍子最后构成了整个人体的执行器。机器人和它有本质的区别吗?没有那么大的区别。真正的区别可能还是在大脑,所以我觉得现在的具身智能和以前的具身智能最大的区别就是大脑和身体的强绑定。

司晓:我发现以前讲形与神或者大脑与形体有些片面。其实里面既有如何思考、如何回答问题,又有指挥部件的一些具体动作,或者有人把它应用到大脑和小脑上。机器人能不能用这种机械的方式来区分?握持反馈或者用什么样的力度去握,不是用所谓的大脑去回答问题解决逻辑问题,而是靠膝跳反射这种更基础的东西,让它去和世界互动,去保护自己,通过从世界获得的物理信息去更自然地处理,对吗?是不是分成不同的系统?还是都混在一起了?有没有所谓的大脑和小脑?

张恒棣:我觉得是分的,而且分的比较严格。比如说人接触到整个物理世界的时候,为什么需要一个小脑来做这些事情呢?即使是原始人类,他们的系统里没有语言,没有我们现在这么丰富的知识,没有任何符号系统,但是即使在这种情况下,他们还是可以抓东西的。比如说家里的小猫知道食物在哪,它会自己去找,甚至自己把水拉下来,打开开关,自己喝。那些事情不需要语言,还是需要一个有智慧的东西来控制身体,我觉得这个部分就算在小脑里。而且小脑有一个很大的特点,它会跟物理世界有很强的关联性。对它来说最重要的是什么呢?就像刚才华哲说的,比如说一个小球如果突然被窗帘挡住了,它是不是就消失了呢?它并没有消失。比如,当一个人看到一个网球朝自己飞过来,他可能会突然躲开或者击打。我完全不需要用文字分析,也不需要告诉网球飞到哪里帮我计算速度,而是靠本能反应,肌肉直接做出反应。从看到信息到肌肉执行,可能零点几秒就完成一个循环。这就是小脑的功能,执行非常快,和物理世界联系紧密,不需要抽象的语言和文字功能。

司骁:这个能力是大模型能够实现的吗,还是大模型出来之前就已经有这个能力了?

张恒棣:在大模型出来之前,这个能力已经有些具备了。比如我们模拟的机器狗,你看波士顿动力,他们的机器狗会走路吧?它的走路那一套其实大模型是不支持的,连强化学习都没有用到。它应该用一种叫MPC的算法。所谓MPC就是模型。模型其实就是指一个硬编码的程序,程序具体告诉机器人,你电机这个地方再大一点力,你的关节就会抬起来。你再向前迈一步,碰到地面,就会得到一个电流的反馈信号。你要一步一步地告诉它,但它算得很快,因为它毕竟是计算机,所以它一直在它的大脑里做大量的计算,从成千上万个选择中选择最好的下一步。它选择的标准其实是一个硬编码的物理程序。那个程序会帮助机器人走路、保持平衡,像小脑一样做各种基本的操作。但是更高层次的,在我们看来更像所谓的智慧的,还不够。它们就跟动物一样,想要变得跟人类一样强大,还是需要大脑的加持。

一个纯粹虚拟的数字人,是不需要那么强大的小脑的,它的小脑可以更简单,因为我们可以创造一个模拟的世界,在虚拟的世界里,它的物理规律会更简单,它的传感器可以算是极其强大的。在现实世界中,比如一个人如果想感受一个东西,他必须去触摸它、去感受它、去走在上面,真正感受到那个力,这些力才能在大脑中通过物理化学反应形成,最后传递到神经信号。但是在虚拟的模拟的世界里,我们完全可以认为机器人就像是一个神一样,它不需要传感器,因为它知道所有的信息。所以它和现实有一个区别,就是它在那里太强大了,它根本就是它的世界,它是那个世界的王者,但是它一旦来到现实世界,它就要面对一个困境,那就是它的传感器没有那么强大。

王文博:Jason刚才问这个概念会不会像以前一样是昙花一现。很多新的东西出来的时候,有不同的驱动力,有些是技术驱动的。技术驱动的结果,往往对资本方、投资人都不太友好,因为我们看不到后面的链条。一般的链条是,加上去,最后还要适应法律法规。如果是技术驱动的话,它可能不会想得那么远。它想着我要做一个非常伟大的东西,去改变世界。投资人问这个东西要多少钱?它最后能做什么?有没有护城河?一堆科学家被这些问题难住了。

所以我们首先要思考的是,它是不是昙花一现。这个东西能做什么?用户是谁?场景在哪里?有多便宜?这是我每次面对实际控制人和投资人,大家会挑战我的问题。比如前段时间火爆的,大家都觉得它是一个非常成熟的应用,可以用来生成内容、做内容营销、写文案、做图片。但是实际情况是什么?你让现在最好的大模型做一个社交媒体封面,一定要加人工智能,如果单纯靠智能去做,只能实现内容扶贫。我自己就做过这个,给小红书写过一个比较难的文案,盲测分数只有七八十分。所以最后很多创业者算了一下,这个应用场景好像一下子就被限制了。所以很多人问我,这个会取代我吗?我说目前不用太担心,因为人工智能比你贵多了。所以,这是第一个问题,成本能低到什么程度?实验室里的科学家可能是政府付钱的,政府希望你拓展人类的边界,这是一个想象中的可能性,至于最后能不能实现,这是后面链条的问题。

第二个问题是,这个东西可持续吗?要让参与的各方,无论是政府、政府还是商界人士,都有所收获。如果这个技术本身投入很大,收获期很长,就会吓跑一批愿意投的基金。这批愿意投的基金往往是最有效率的基金,不像政府的基金,看得更远。所以我觉得任何提出来的概念,最后都要有成果,太早提出来不是好事,会挫伤一个人的斗志。这就像求婚,太早求婚,往往是无法走到最后。就像前几年国内很多投资大模式的人,在发布会上你可以看到大家都雄心勃勃,但是你跟他们私下聊的时候,他们都很着急,问我的用户在哪?我看不到,这个护城河在哪?好像谁都可以做,但是腾讯有应用场景,而且是免费的,我怎么混?所以我觉得真正把钱放到台面上来的人其实最关心Jason的问题,他们在乎两点:便宜不便宜,我做这个事情有没有先发优势,不然我为什么要做?最后的问题是谁来买单,如果只靠个人或者有情怀的政府来买单,这个东西是不可持续的。扫地机器人之所以可持续,是因为大家都能看到它的好处,比如你刚才提到的触觉机械手09,还有一些To B端的应用,军事或者高风险作业,只要成本合适就行。所以在跟一些学术界或者商界的朋友交流的时候,经常会提到一个东西,就是它的可预见的未来成本能不能比原来的方案更低。但是这个东西很难预测,因为很难预测市场规模,所以很难预测到底能有多少可扩展的生产,成本最后能降到多低,所以一般的投资者会把这个想象空间拉到无限大。在无限大的情况下,规模会很大,成本可能就会很低,这是它的逻辑。

许华哲:文博是从商业的角度来讲的,从我的角度来讲我觉得技术首先要有价值,产生商业价值,这样后面的业务才能够真正的落地,才有护城河,才能够给世界带来经济价值。

但是从人工智能的发展来看,我觉得具身智能绝对不是昙花一现。为什么呢?刚才Jason提到,从达特茅斯会议到现在,我们的人工智能经历了好几次寒冬。但是这些寒冬总结了一些规律。比如前段时间一个研究智能的先驱写了一篇文章叫《痛苦的时刻》,他在里面讲了什么?所有我们试图投入到小规模、智能、复杂的东西比如人类的智慧、符号主义等的系统都崩溃了,比如我们的专家系统,比如我们的符号主义被联结主义打败了,再到现在的神经网络。人工智能发展的驱动力是什么?数据驱动、计算能力的提高、可扩展性是我们找到的路子。我觉得具身智能是这条路上的集大成者。我们以前走数据驱动的路,但是其实也经历了很多挫折。早些年没人相信,直到计算机视觉、NLP 发展起来,后来有了大模型、具身智能,大家才看到这条大规模数据驱动的路是对的,而具身智能正是这样一个系统,把我们之前做的眼睛、嘴巴这些部分整合起来。为什么大家还在讨论具身智能靠谱不靠谱,会不会是昙花一现?原因就是太难了。

困难在于,在体现的智能中,有一个叫做“摩拉维克的悖论”,这意味着我们认为的事情实际上很困难,我们认为很难,例如,我只是盯着地面,而蚂蚁实际上沿着曲目却很困难。人们认为人类的智力是如此,我们的祖先不断地练习智力的能力,所以我认为我可以在短时间内练习。现在,每个人都在讨论它是否可靠?

si xiao:这是一个很好的观点,我想提出一个问题。场景是每个人都炫耀自己的技能,而不是在工厂生产一辆汽车,为什么在我们谈论应用程序中炫耀这些东西,而不是在工厂中炫耀。

Zhang :显然,在家中,这毫无疑问是一个相对可控的环境,我们可以通过智力降低智能,但要享受 of of of and Iss,这毫无疑问。但是,一个碗。右边太远,它将返回左侧,这完全足够。当然,工厂中也有非常复杂的场景,因此我猜想在一开始有一些限制的工厂可以实现这一浪潮,因为这是一个完全开放的环境与完全可控制的环境之间的折衷方案,在这种状态下的培训后,它可能会在人工智能GPT中遇到一定的发展。

Si Xiao:我想到的是一个概念,如果您想在网络上驾驶,那么您可以在网上驾驶,如果您可以在五个智能中,那么您就可以在网络上驾驶,这是一个人,如果您可以在五个智能中,那么您就可以驾驶几个车。因为腾讯山顶还表明,它从武汉到奥多斯开车1,500公里,一个人开了五辆车,这是因为汽车足够慢,准确性的要求不高,所以它可以跳动,但在所谓的真实云驾驶的情况下,您的意思是您的意思是什么?

Wang Wenbo:是的,我们经常认为B对C的​​场景更容易实现,因为只要人员存在,并且人类 - 手机相互作用的情况都会有很多干扰,这不是我可以在某些智能上进行某些应用程序和某些人的效果。首先使用它。

Si Xiao:实际上,我想知道的是机器和机器。

Wang Wenbo:如果您不去参加咖啡,您会看到大型制造商参加了新闻发布会。

Xu :我认为智力的浪潮是前几个浪潮中的两个单词。在这里,有一个铁块,这里有一个圆圈,它的保姆有一种半开放式的保姆,但是传统的控制算法是相对简单的,但实际上,如果您没有任何智能,那么您就没有这样的地方。

Si Xiao:在实现路径上也有一个相关的问题,我看到一些机器人可以带一个设备来教会它如何操作,并在计算机上进行了多少次。

Zhang di:实际上,这两个可以被认为是监督的,并且没有监督,让我们下载在脑海中生成控制策略并将其直接下载到真正的狗中的代码,目前似乎很有效。

但另一方面,有很多方法可以完成大脑的任务,因此,使用远程操作的方式,例如,整个现实世界的定律可能是少数人的Xue 方程您不得不用双脚教您的脚,如果您说的是,如果您可以说,这是一个强大的计算机。收集这些数据并再次教授这是所谓的远程操作措施。现在,您必须学习10,000次,您必须学习10,000次,这只会需要数十个,甚至是一百次,甚至是几次,这可能会使智力变得更加聪明,因为这可能会使您更加聪明。实验领域的许多跑道确实需要人类来教它并标记它。

Si Xiao:这是提高学习效率的大型模型的演变吗?

Zhang :它也可以被视为人工智能的发展,但这不一定是我们认为的大型模型。

Xu :通常会说,这是一个较困难的言论,这是一个艰难的言论,这是一个艰难的言论。 ,我经常使用真实的数据来教授它,给它十,一百和一千种。

关于未来的方式,我必须将其与所有数据混合在一起。我将自己探索一个车站B,我将邀请一个有力的兄弟教我。

Wang Wenbo:我们可以讨论一个问题。将来到达天花板的瓶颈?

Xu :我认为Wenbo的问题是核心智能的核心瓶颈,Zhihu的答案可以得到很多东西。

:hua GE尤其重要模拟可能是更糟糕的,因为现在的模拟和现实世界中有一个差异,您必须弥补这一点,我必须在家里操作。

另一方面,我们可以在现实世界中找到足够的数据,我可以生产10,000个机器人,而不仅是大量的资金。 GPT是一个互联网,在互联网上学习了这一效果。高度关注领域的数据量。因此,我们不仅意识到这个问题,而且几乎成为一个共识。

Wang Wenbo:如果这是智能开发所需的关键生产因素,我们以前的AI被认为是计算能力,算法和数据。在合作方面,它将考虑谁对谁更有益更有益,也许我们的国家体系有一些优势。

Si Xiao:Wen Bo兄弟在场景和客户基础上谈论了您的未来前景,您会在脚部几乎不在意。可能会在多大程度上将成本简化为最合适的家庭成本,这可以满足懒人的技术需求并照顾我们?

Wang Wenbo:可以通过模型的迭代来升级此问题,但如果手指卸下和材料,则可以将硬件拆除并模块化。

Zhang :实际上,我们的公司在1.0上做得很好再次调整后,它可以适应新的身体。

返回之后,刚才必须将小脑放置在本地,但在当地,它不需要大量,但是它很快,足够的时间是秒数。在当地。

另一方面,除了对执行器的快速控制之外,人们也特别重要在当地实现,更复杂,具有语义,所有情感理解都放在云中。

Xu :我的脑海中漏了什么,我们可能会泄漏出来。

我只谈论了兄弟,我认为整个硬件是计算机上的电源卡还是机电系统中的这些硬件,这并不是一个越来越便宜的扩展越多,可以收集数据越大,可以铺平的数据越多,并且通常会更好地发展。

Si Xiao:如果有很多机器人,我的制造成本足够低。包括生产成本,包括大脑的材料较低,如果每个人都有很多机器人,或者是在这个阶段说,当我们上次结婚时,将来。在这个阶段,如果这是一种流行的视角,硬件的极限可以是最重要的障碍吗?

Zhang :从普遍的角度来看,即使将来,他也必须是大脑,他听到了各种各样的味道。出生。

Si Xiao:机器人的大脑实际上还没有进入该转折点?

Zhang :实际上,像GPT一样,我认为大脑可能不会像GPT一样。

Xu :没有身体的发展,这主要是因为GPT的错误和失败是有必要的。

也就是说,随着身体和智能的发展,身体的智力将逐渐增加,智力将逐渐增长,最终达到了能够准确地执行特定任务的水平。

Wang Wenbo:从替代成本的角度来看,我认为身体的生长应该比信息或大脑的生长慢。

Si Xiao:在数十千年甚至数百万年内的生物演变历史上,基于碳的生活表明,身体和智力的变化达到了人类的拐点,但在未来可能会超过人类的智能。

Zhang :智能载体可能是一个新的结构,但是我们会遇到一个问题,它将大脑与云和多个机器的联系,例如,尽管最终的AGI形式可能与当前的智能相比,但从业者可能会在互联网上收集到唯一的数据,这些数据可能会在互联网上收集到独特的数据。 ,然后将其变成两条腿。如果未来有进化的历史,则可能有AGI,身体的结合和不结合身体必须是两条路线,因为对于人来说,身体的结构已经塑造了我们的大脑和思想。

Wang Wenbo:如果您从这个场景中谈论问题。

让我们谈论这些人 - 驱动的人将在10000万年或10,000年中考虑一下。他说,从这一点开始,他会批准许多相关的部门。影响他的习惯。他戴上了,我们有很高的频率数据,但他说,为什么要戴上它,我想花钱,我不想要我。

您可以看一下这些数据的成本。

张恒第:我再从生存角度讲一讲为什么我们更愿意这样说?一方面,刚才文博兄说得是对的,数据的价格真的不便宜,但是我们是怎么干的呢?我们除了发头衔以外,我们不只是白送头衔,我们还给他们钱。从这一方面来说,一个是我们知道数据的价值非常大,另一方面,我们的一些场景既不是在工厂这种非常可控的环境里,也不是在家庭中那么开放,需要调用到GPT的程度,但它恰好在两者中间。另外一方面,它还有一个特点,它非常需要一个新模态的信息,比如说它需要触觉,所以在这种情况下,目前我们的还是比较费力气的。在这个基础上,他对数据的模态非常重视,以至于他们都愿意花这么多钱去把这个模态弄出来。比如说我想到的可能遇到的场景,除了人形机器人有一点Show off,另一方面比如说我们在一些工厂里需要做定制化的产品或者物流线上去做不同大小的货物,还有一些,比如说易碎的、很容易坏的物品,那种地方的数据可以说是前无古人,因此数据采集的边际效应特别强,相当于采到一点点,价值就大得不得了。最简单的,比如说去摸一下那个玻璃大概要多少牛的力量才会把它捏碎,不同的玻璃杯子或者不同的形状,捏到哪个位置,就光这一个信息就非常重要。

司晓:以后的机器人是否应该在生产时进行标注,以便简化其后续操作并有效协作?

张恒第:这个有点像我们在做自动驾驶的时候,是不是要建设智慧公路。就目前来看,我们的很多客户是不会来支配我们的,只有一条路,就是我们从头到尾把解决方案完成。

司晓:这个可能是因为机器人社会还没有到来,到来的时候就不一定了。因为我们做过一个研究,人类从马车时代切换到汽车时代,路大概花了五十到一百年才跟上的,路实际上不是那样规划的,它很慢的。

张恒第:

是的,特别慢,而且它有历史效应和改造成本。在机器人领域,尽管面临诸多挑战,我们却能成功找到一个特定环境,恰好对新模态有很大的需求,这种新模态本身已具备创造商业价值的能力,因此我们敢在这一领域大量收集数据。当然现在我感觉,在更宽泛的人形机器人范围内,大家好像还挺热情的,热情的还蛮夸张,但事实上,我觉得以我们从业的经验来看,数据采集的规模远远不是我们采集一个很小的垂直领域的那点数据,所以我感觉确实会遇到我说的那种问题。你采集这些数据的过程中,你没形成这么强的智能的时候,谁会愿意为它买单?可能真的不容易,但如果是针对那种垂直的地方,比如说我做一些非常需要我的触觉的信息,但是事实上现在又没有这样的数据的地方,它的价值会显得非常非常大,特别是我刚才提到的,以前很多老师傅的工匠精神,他们需要传承的那些东西,如果我们要把它数据化,再规模化,降低它的成本,实际上是非常有价值的,因为那种东西不像以前师傅带徒弟一样代代相传,它是真的失传了,特别是在现在的社会,更少的人愿意干体力相关的活,也就是我们刚才提到的,AI吟诗作对很厉害,倒杯水很难,所以现在我们在做的触觉的模态,实际上就是为了解决这一个问题,当然也不光是触觉,也有其他努力,比如说身体内部的一些姿态传感器,力传感器,以及各种各样的传感器,实际上都是在干这个事情。以前我们可能把人类的身体理解得比较简单,都认为它就是一堆棍子串在一起,实际上远远不止这个,它感知能力实在太强了,它比一个只能听一大堆文字转成token,实在是要强太多太多。

王文博:这个我插一句,因为正好我们说到商业,这也是一位企业家问我的问题,他说你看这么多年科技的迭代最终指向的往往就是三个更,一个是更快,比如说汽车替代马车,一个是更便宜,就是数控机床组装,生产成本下降。第三个是更爽,比如说精准推送的短视频比看传统电视爽。

司晓:更爽也包括更懒?

王文博:这三个其实都是指向更懒,用更低的成本获得更个性化的反馈。在可预见的未来里,包括您公司做的带触觉的具身智能,它更多的是指向更爽还是更便宜呢?因为更便宜这个东西对于很多企业家投资人来说,吸引力远远低于更爽,因为更爽有一个差异化的空间,更便宜最后只能决出一个最便宜的人,他是第一,其他人规模效应差距越来越大,所以如果具身智能指向的是成本上的更便宜,最后愿意入局的往往是目前有很大成本优势的人,他会觉得这是进一步巩固优势的机会。但是如果具身智能指向是更个性化、更爽的维度,那可能可以激励更多的人进入这个赛道,那现在是更便宜还是更爽呢?

张恒第:现在是一个发展的阶段,可能最终目标是更懒,人人都想更懒。但是为了达到更懒,我觉得最重要的一点是更便宜,要先做到更便宜,先做到比人工便宜。当然有一些地方比如说一开始我要去代替产业线上的工人,这是一个很大的问题,你代替完了之后,后面可能还有法律政策上的问题。比如康养这个领域,比如你喊我进厂打工,没关系,我拧螺丝,我天天拧十二个小时,没问题,但是你喊我去照顾老人,二十四小时,而且我一生就这样过下去,根本不可能。它也不是更快了,一种程度上可以说是更便宜了,但另一方面,这一部分人一直没有得到过关爱,是一个全新的需求,当然我们现在还没有达到那个阶段,但是我们相信在具身智能的发展下,还是会比较快的。目前主要还是去做,人去做会觉得特别无聊、特别没价值的事,但是你让机器做,重复性高,容错能力又太差了。在那种场景,我们能找到更便宜的那个点,我们现在已经逐渐地从更便宜做到更快,更便宜已经达到了。更快的话,目前逐渐也可以做到和人工一样快,甚至超过人工。更爽的话,那就得诸君一起努力到未来,看能不能做到更懒了,那个稍微遥远一点。

司晓:其实我们在录制前准备的时候,就发现我们实际上有一个重大缺陷,就是只坐了四个男的,导致我们前面录的话题全是在讲生产力,讲细节,讲商业,讲经济,讲社会。其实不能简单说是缺了女性视角,而是说我们在研究大模型的时候要分两个方向,第一个我们要关注生产力方向,第二个要关注情绪价值方向。因为我们之所以说它是人类智力的一个平替,它替代的就一定不只是智力或者说智力的一种呈现,还在于带来情绪价值。你的高情商,会谈话,能够抚慰别人,这个本身是情绪价值。中场休息的时候,场外的女嘉宾给我一个很大的启发,我们从原来的文字聊天界面进入到GPT带语音,也就是多模态,除了背后能力变化,这个变化更多的是在情绪价值上,或者说作为一个陪伴对象,倾诉对象,或者说你做的触觉除了触别人,能不能给被触摸的对象带来一些精神抚慰。

我们有一位同事,也是位女同事,她在录我们自己的一个视频节目的时候,专门跑到上海去摸了一个LOVOT的日本机器人,说是五万块钱,只会卖萌,啥都不会,你很难想象这样的东西,男性用户会买或者是怎么样,但是实际上它销量还挺好,这种东西我们之所以说看起来像人,或者说长得像人,说话像人,又有人的多模态能力,实际上一个重要的方向就要考虑到它的情绪价值,刚才说的康养实际上已经在某种意义上揭开了这个话题,它除了照顾老年人之外,还能带给老年人情绪价值。我们找大概一百五十位老年人,这些老年人从来没有接触过大模型,我们把他们请到公司,让他第一次去做这个事。比如说你让他捏一个数字人,他捏的不是后背,他需要后背的精神陪伴,他捏出来的首选甚至是自己的父母,或者是一个同年龄的人,其实就是说,不同年龄段的人的精神需求或者不同群体的精神需求其实可以高度定制化,可以人设定制化,声音定制化,可以定义性别。除了长相之外,它的人设可以定义了,反而给供给端提供了一个无穷大的想象力,而且还有很多年轻人拿AI做灵魂伴侣,那是没有身体的。我听了很多节目,包括看到上的一些报道,我都觉得匪夷所思,可能确实跟跨年龄段有关,女性用户多一点,它其实有很大的市场。

在生产力之外的部分,在提供情绪价值的那个部分,我不知道几位理工男有没有一些思考,或者觉得这一块在市场机会或者技术路径上和我们刚才第一Part聊得有没有一些不同?

许华哲:之前看过一个up主,他在b站上做了一个非常感人的视频,他用GPT加上生成式模型做出了已故奶奶和他聊天的内容,他把他们以前的聊天记录放进去,以这种方式去怀念。具身智能在这个时代其实可以有一个物理上的陪伴,可能是一些你已经再也见不到的人,无论是你永远失去的初恋,还是已故的亲人,还是一个你想象中的明星,你可能每天给他打call,但是他永远也不会到你的生活里,我觉得这些都是具身智能非常大的可能性。但是我们仍然需要找到精准的匹配,它现在能力在哪儿,我需要的是什么?也许跟我对话这件事已经可以去做了,它可以根据我的表情和动作做出反馈。包括刚刚恒第讲的,有了触觉以后,我可以跟它有一个拥抱,有一个肢体接触,我觉得这些对用户来说,对我们每个人来说,都是非常非常重要的,因为每个人都会有深夜伤感的时候,都会有渴望一个我希望的那个人在我身边的时候,我觉得这个是非常大的一个想象空间。

司晓:这里面其实有大量的法律和伦理问题。先不聊这个,我们就从用户需求来说,真的有这样的需求,你们作为科学家,作为从业者,怎么样给大家提供情感方面的抚慰需求?

王文博:或者细化一下,假如说要实现这种情绪价值的需求,它需要什么样的数据呢,它是什么类型的数据?比如说陪伴也好,情侣也好,夫妻也好,他们之间的信息传递,它这种多模态可能是比较少见的多模态,它有微表情,它有气味,它有身体语言,很多时候吵架都不需要说话。一个眼神,这个白眼翻到什么程度,眼白眼黑的比例,就能说出不同的信号,就这种数据,它能被训练吗?当然了,这是一个畅想。因为有一种说法,人其实很难对于物或者他认定的一个非人产生类似于人类的情感,这是很难的。这就是为什么你很难爱上超级英雄,因为他长得不太像人,超人稍微就强了点,但是如果超人或者蝙蝠侠把面具拿下来,他获得女粉丝的可能就多了很多。所以具身如果走到这一段的话,它可能真的要有一些人的基本属性。这就好像我有时候观察我的朋友圈,我朋友圈人比较多,有时候发一条东西,就看谁对这个东西比较感兴趣,从来不点赞的人,他会留个言,点个赞,一说到AI,你只要说到能成为你的女朋友、男朋友,所有的人都刚需,因为在真人世界中,找一个伴侣,试错的代价太大了,但又特别刚需。

许华哲:我想问文博有没有看过哥大最近出来一个东西叫face,它的脸跟真人长得一模一样,也能发怒,您刚说到翻白眼,他也可以做,包括微笑、大笑都可以做,这可能就是迈向情感陪伴的第一步。

司晓:除了灵巧手,脸也很重要,脸可以单独成为一个产品。

张恒第:现在像英国的Ameca,中国的,他们可以做各种惟妙惟肖的表情。

王文博:我觉得最后要实现商业的话,除了灵巧眼本身之外,它还要有一个非常好的故事,让大家去接受这个东西,就好像大家能接受钻石这块破石头代表爱情。有一句话一直在流传,大家觉得就非得要一块破石头才能结婚。只是现在大家会觉得一个橡胶脸怎么可能做到,但是Z时代的人比如香港小学生,他们对虚拟人非常能接受,他说这有什么问题吗?没什么问题,就好像我们看动画片觉得葫芦娃没问题,对他来讲,会动的葫芦娃非常正常,所以我们在谈论这个话题的时候,其实我觉得更应该倾听未来使用者的想法,他们的舒适区跟咱们很不一样。

许华哲:我觉得对大家来说,尤其现在学校里有很多学生,他们会跟纸片人谈恋爱,甚至我也遇到有学生用大模型结合原神游戏里的一个角色创建了一个微信,他在没有女朋友的时候跟原神角色进行互动,我觉得他们对这个接受度非常高,如果我们把这个游戏里、动漫里的人物变成一个实体的机器人,装扮成也好,或者芙莉莲也好,我觉得接受度是非常高的,但是如果你变成一个真人,我觉得这又是一个跨越,因为比如,大家带入的可能是剧情里的情绪情感,但如果是我的一个同班女同学、男同学,可能接受度又会是另一个层面的。

张恒第:我感觉后面可能真的会涉及很多法律问题,比如说我用一个在世人的形象来作为我的一个亲密的伴侣,感觉有点可怕。所以实际我可能会从两个方面理解这个事情,一个方面是像我们是做触觉的,触感在人的情感和人的思想发育过程中其实有举足轻重的作用,有一种说法是说人在胚胎状态的时候,还在发育的过程中,他有一个时期是怎么构建自我意识的,是靠没事去往外动两下,摸一下,然后得到各种各样的反馈,基于这样的反馈,刺激给到发育中的大脑,最后人的大脑才形成了一个所谓的自我意识,他是通过推外物,从外物得到反馈,来构建了对自身的认识。有了这以后,我才能看到东西,闻到东西,听到东西,他在看、闻、听的时候才知道,我看到的实际上是外界,并不是我自己,所以为什么人对于触摸的依恋很强烈,我觉得是因为他有一个构建自我认识的阶段。有一些来自基因的硬编码到人体的编码里,所以这些也是纸片人谈恋爱和以后真正的具身智能和人的互动的一个区别,具身智能和人的互动是有表情的,它甚至会拍一下你。但是从另一个角度来看,比较可怕的是,万一用它去扮演活人的形象甚至是逝去的亲人,我觉得可能有很多法律的、伦理的各种各样的问题。但是也许有第三条路,比如说人当年是怎么接受猫、狗作为自己的陪伴的,猫和狗以前也是游离在人类社会之外的,他们被吸纳进来后,可能在所有人的共识里形成了一个符号,就是说猫是一种陪伴的生物或者狗对我很忠诚。我个人更希望未来的具身智能成为另一个维度的猫或者狗,它也许不是一个人,它很聪明,它很智能,但我希望未来人类不把它当成一个人类的平替,而是一个很独特的存在,类似于狗会认为人是一个独特的存在一样,在那种情况下,建立一种全新的和另一个陪伴之间的一种互动,但我觉得它应该是一个全新的体验,比如有一些科幻电影里,它会演一个人把意识都上传到网络里,那个时候已经没有肉身,但是到处都是他的肉身,在那个时候他的心态可能和我们这个时代的人的心态是完全不一样的。

所以我在想,未来,当具身智能的陪伴出现在老人康养领域,它有可能会有一个路径依赖,他会希望它就是我的一个后辈。但是在更远的未来,我觉得人类有可能会接受原来我们有一个伙伴叫机器人。到了那个时代,我觉得应该是一个机器人的发展和人类的心态都逐渐趋向于另一种成熟的问题。

许华哲:我想挑战这个观点。我们养宠物的时候,其实我们希望它越笨越好,狗傻傻的,萌萌的,甚至走路都摔倒,我会觉得它特可爱。但人和狗的关系真的能映射到人和具身智能的关系上吗?

王文博:这个东西是这样的,首先天花板要拉到足够高,但是用户可以选择地狱模式还是蠢蛋模式,你可以选择哈士奇,也可以选择比较笨的京巴,这样的话可以适配各种区间。

回到这种陪伴型的,我听不少投资人畅想的时候,他们觉得从数据收集和从法律法规准入来讲,这种机器玩具可能是一个比较好的中间形态。因为你一说机器人,各种各样不好的抵触情绪马上就来了,但你可以说是一个智能玩具,长得像狗的智能玩具,它可以输出一些智能的东西,可以跟你进行互动甚至一些触觉的东西。

张恒第:我们现在也有一些案例,在家庭里头收集数据实在太困难,从法律上几乎是不可能做到的。一个是隐私问题咖啡壶 知乎 新闻速递|具身智能的10个真问题;探秘中国科大人形机器人研究院,一个就是你也没有好的理由去把那些数据全部归集到你这边,经销商自己去收集数据还有可能,但实际上都是不太符合现行的各种规定的。所以我们觉得这样的数据还是要在特定的环境下去采集,但并不是说不可能,像现在GPT 4.0版本,实际上已经有好多情感识别的能力了,另外有一家叫Ameca的机器人公司,好像是英国的,基本能执行出来惟妙惟肖的表情,它也能读懂人的各种表情,所以我觉得技术层面上,最基本的,不管是执行还是感知,像我们刚才说的情感的小脑基本上可以实现。但对于更高级的理解,比如说沉默的氛围预示着我俩可能快吵起来,这种可能还是比较远一点的。

许华哲:我倒是觉得那个玩具,我自己会挺想买的,因为我从小就特别想养一只狗,我曾经养过一个月,我爸说实在太麻烦了,你又不收拾,都是我和你妈收拾,就把这个狗又还到了宠物店,钱也没有要回来。所以如果有一个跟狗差不多,不用去喂,又不用每天带出去遛弯的玩具,即使作为一个成年人我也会觉得很好,我每天下了班,躺在床上拍拍它,它过来跟我打打招呼。

王文博:而且其实它功能都不需要太强,它只要比云养狗多一两个功能就行了。

张恒第:所以短期内的话,是不是我们都觉得玩具形态是比较好的,从情感陪伴方面的一个切入,越像人越容易陷入恐怖谷效应,因为人家说你不像人,是个机器猫。

王文博:恐怖谷其实也会随着时间被修正,因为一开始大家觉得特别新,但是随着大家对这个东西的接受度越