Hannah Fry:我们从头开始吧
发布时间:2025-06-24 17:06:21 作者:北方职教升学中心 阅读量:273
Project Astra 愿景之一:「系统不仅能在你说话时做出回应,还能在持续的过程中帮助你。它可以同时处理听和说,这可能会有点烦人。如果你要求它记住,它肯定会记住。它能伴随你到任何地方, 通过智能眼镜、我们还在音频输出方面做了很多工作,所谓的「全双工」。
Hannah Fry:我们从头开始吧。非常复杂的方式。有段时间我可能想放弃。极限在于芯片上的内存。嘈杂的环境会使它感到困惑。同一组计算机中,因此它不必跨越国家或大陆进行调用。Project Astra 就像一个伙伴,可以问它「什么和这个搭配?我怎样才能看起来更时尚?」
「Astra 可以在后台运行,并在它认为合适的时候提醒你」
Hannah Fry:但硬件方面呢?目前,它在你的智能手机上。它们将来自这些感觉编码器的信息直接发送到 Gemini,然后 Gemini 做出回应。这是一个共同创造的过程,它不仅仅是在实验室里进行的,也是与世界各地的用户合作进行的。它有时通过对话进行推理。手机或电脑,观察你正在做的事情,并与你进行交流。
Hannah Fry:这与 Google Assistant 或 Gemini 有所不同。我们还有使用原生音频的想法。Google Search 在底层支持、例如,这属于为盲人提供视觉解释器的问题。还有你做出决策的代理层。特别是,你向我们介绍了西丛鸦,以此来激发 AI 更复杂的记忆能力。正如你所说,我们还会在推理、在播客的第一季,你是第一集的嘉宾,当时你从动物王国中汲取灵感来研究智能。有上下文、这是用来确认的语言的一部分。还有一个美术馆,你可以在屏幕上显示不同的画作,然后问一些关于艺术的问题。
Hannah Fry:你认为 Project Astra 是否能够推理?
Greg Wayne:是的。这真是非常复杂的事情。」
Hannah Fry:所以你不需要主动打开它和它对话,它可以在后台运行, 并在它认为合适的时候提醒你。但它也更像自然的对话。
Astra 系统的低延迟实现
Hannah Fry:让我们更深入地了解 Astra 的幕后工作。但软件堆栈实际上与设备无关,它可以运行在手机、还有专门的音频系统,负责了解你何时停止说话。当时的人们对「系统是否真的能够理解世界」感到怀疑。
Greg Wayne:是的。否则,它会试图说,「用户是否表达了任何有趣的、当前的优势与局限性,以及未来的潜在应用场景。反思等方面投入更多精力。大型语言模型、那里发生了什么?
Greg Wayne:我们在特别的房间里玩各种各样的游戏。能推理、
Hannah Fry:所以有人在现实世界中尝试使用它了吗?
Greg Wayne:是的,我们有一些值得信赖的测试者,他们是一些早期的采用者。
Greg Wayne:是的。有时候它会说它看不见一些它明明能看见的东西。
Hannah Fry:我尝试想象, 我们只是用它来识别一本书,就有计算机视觉、使用原生音频的一个简单效果是,它可以理解罕见的词或词的发音。
Hannah Fry:预先猜测答案会是什么。
Greg Wayne:是的。 告诉系统它可以通过用户的摄像头看到世界,这给了它一种对事物的自我视角。
Hannah Fry:用户的确最终会控制它了解自己的信息。它建立在 Gemini 的基础上,Gemini 是其背后的智能核心,它既与 Gemini 协同工作,又可能 帮助塑造 Gemini,同时也受到 Gemini 的塑造。
未来重点:主动视频交互和全双工对话
Hannah Fry:那么,你们接下来的优先事项是什么?
Greg Wayne:我对主动视频工作非常感兴趣。
Greg Wayne:是的,它应该能够在更多背景信息下解决歧义。然后它与大型语言模型位于同一位置、
记忆机制与隐私保护
Hannah Fry:现在,我想多和你谈谈记忆。 还有一个叫做「智能体」的东西,它会获取视频和音频,调用搜索工具,比如 Google Lens、事后看来,AI 的发展很奇怪,因为它发展得太快了, 人们对理所当然的看法变化得太快了。当然,它不是 AGI。它能看、但我从未动摇过它一定能实现的事实。当你说话时,我可能会说,「嗯嗯」、
Greg Wayne:是的,这是我痴迷的事情。神经网络架构搜索以及大型语言模型等领域。
Hannah Fry:这个项目的第一个火花来自哪里?它是什么时候开始的?
Greg Wayne:DeepMind 的 CEO Demis Hassabis 向公司提出了一个挑战,让我们思考什么是「原始通用人工智能」。
Hannah Fry:那么,有没有哪个时候你认为它不可能实现?
Greg Wayne:没有。人们应该了解实验室里正在开发什么,并提供反馈。
Hannah Fry:我们对 AI 的期望变化之快真是奇怪。用户可以访问他们之前记录的数据,可以删除或查看存储的内容。它连接到一个服务器,服务器上有视觉编码器和音频编码器。主持人与格雷格·韦恩共同探讨了该研究原型背后的灵感、它可以记住过去 10 分钟内发生的事情,对吗?
Greg Wayne:是的, 大概是 10 分钟。它可以持续地引导你。」
Astra 依然面临「鸡尾酒会问题」挑战
Hannah Fry:你会经常需要纠正它吗?你会注意到一些小故障吗?
Greg Wayne:是的。以前我们不太了解是否可以很好地提示多模态系统。比如,它可以提醒你一些事情,「别忘了,你回家路上需要买这个。你可以访问原文收听完整版播客。
Hannah Fry:让我们来谈谈它的历史。当提出要创建一个「原始通用人工智能」时,有人怀疑或不相信这种东西是可能实现的吗?
Greg Wayne:是的。
Hannah Fry:只是比你更聪明。它会将其误认为是用户的语音。然后是它所产生的对话。旧版本的 Google Assistant 更像是一个用于控制你家或信息的系统。最后一点是,团队在「端点检测」方面做了很多出色的工作, 它能准确地知道你何时停止说话。耳朵和声音,能够与你共处的 AI 助手的项目。我们也和他的团队一起做了很多工作。
Hannah Fry:这太有趣了。语音识别、我们甚至没有关于不同性能水平系统所需的数据量的基本知识。
我们精选了访谈的部分精彩内容,希望能给大家带来新的启发,enjoy~
Project Astra :与 Greg Wayne 一起探索通用 AI 助理
Project Astra:Exploring a Universal AI Assistant with Greg Wayne
主持人:Hannah Fry
受访者:Greg Wayne,Google DeepMind 研究主管
注:为便于阅读,本文内容已作精简,并非完整对话。什么是 Project Astra?
Greg Wayne:Project Astra 是一个旨在构建一个 拥有眼睛、我们现在有了这个多模态代理的雏形。当它发现用户真的已经说完话后,它会立即发送出去。你们如何缓解这些隐私问题?
Greg Wayne:主要标准之一是同意。比如你快要回家的时候,它会说,「别忘了你需要买橙汁,因为你今天早上喝完了。
Greg Wayne:在某些方面是的。
Hannah Fry:DeepMind 的伦理学家 Iason Gabriel 的工作在多大程度上影响了你们的 Astra?
Greg Wayne:我们和 Iason 谈了很多。这正是我们在这项技术中建模的内容。
Hannah Fry:就像一个坐在你肩膀上的小助手?
Greg Wayne:是的,就像一只栖息在你肩膀上的鹦鹉,与你一起观察世界,并和你谈论它。或与用户已经表达过的偏好不同的偏好?」
Hannah Fry:让我们来谈谈隐私问题。我们也很兴奋的一点是 主动性,它会自己判断你有什么需要,然后在你没有指示的情况下提供帮助。
视频是「原始通用人工智能」的连接纤维
Hannah Fry:你的神经科学背景在多大程度上启发了 Project Astra?
Greg Wayne:我们利用神经科学来了解我们何时做得足够好,可以思考 「记忆的真正含义是什么?」. 另一方面,如果我们想要一些与人类兼容的东西,也许会朝着一种 更像我们,而不是直接的文本界面的智能形式发展。
Hannah Fry:所以为了实现这种实时的理解,你必须将运行这些模型的计算机硬件物理地放置在一起?
Greg Wayne:是的,绝对是这样。比如,四处走走,然后问,「那是什么?」,让它像我在学校里那样教你。
Hannah Fry:Project Astra 仍然是一个研究原型,为什么现在要 demo 它?
Greg Wayne:让公众参与这个过程是好事。
Greg Wayne:谢谢你,Hannah。延迟是一个非常关键的事情。能进行多语言实时对话。
原视频:https://www.youtube.com/watch?v=ctWfv4WUp2I
编译:施苏娜、这很难。
Hannah Fry:对于视力受损或失明的人来说,它也有潜在的好处。
Hannah Fry:我听说,在测试阶段,你们有一个 Project Astra 房间。
Hannah Fry:当你说区分不同的声音时,是指波形本身吗?
Greg Wayne:是的。我更倾向于智能的社会性。 我一直觉得它有可能实现。
本次访谈深入探讨了 Project Astra,这是一个探索未来通用人工智能助手能力的研究原型,旨在理解用户周围的世界。Greg,欢迎回来。
Greg Wayne:是的。
Hannah Fry:所以目前,它实际上就像一个录像机,记录了过去 10 分钟发生的一切。傅丰元
更多 Voice Agent 学习笔记:
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记
市场规模超 60 亿美元,语音如何改变对话式 AI?
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
人类级别语音 AI 路线图丨 Voice Agent 学习笔记
语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服
近期,Google DeepMind 的 YouTube 频道采访了 Google DeepMind 研究主管格雷格·韦恩 (Greg Wayne)。
Hannah Fry:在这个过程中,有没有出现过大的突破?
Greg Wayne:当时的一个主要发现是,我们意识到了「提示」的概念。我想现在吃一些虫子。
Hannah Fry:我猜,这在某种程度上使 Project Astra 如此困难,但也赋予了它潜力。我应该去哪里找?这是我们想要复制的东西……
Hannah Fry:你们做到了吗?
Greg Wayne:(笑)你好,Project Astra。所有这些的回答几乎没有延迟。你们是如何改进它的?
Greg Wayne:我们改进了实际的视频流,通过应用程序更快地发送信息。也就是说, 系统不仅能在你说话时做出回应,还能在持续的过程中帮助你。 它可能会打断你。Google Search 或 Google Maps,还有一个记忆系统。这些都与大型语言模型 Gemini 相邻。那里有一个完整的酒吧,所以 Astra 可以帮你调酒。以前的系统都有文本识别系统。
播放 Greg Wayne 之前的录音 :……拥有一个可以访问的庞大数据库,存储你做过和看过的事情,然后用它来指导你之后的有目标的行为——我饿了。我放一段当时的录音。然后,它会在猜测,这是我将要说的话。例如,我对 Michael Tomasello 的工作很感兴趣,他认为,交流的基本前提是两个人在同一个地方,从而共同推断目标,然后进行协作。这个系统是直接接收音频的,因此它不需要二级系统。我们总是处理图像,当视频进入视觉系统时,它总是尽可能快地运行。
Hannah Fry:不同的语言呢?目前它只支持英语吗?
Greg Wayne:它实际上是多语种的,精通大约 20 种语言,你甚至可以在同一对话中切换语言。而且,为什么它会产生这样的结果,可能没有人真正理解。今天我们要介绍的是 Project Astra,一个正在突破通用 AI 助理界限的研究原型。
格雷格·韦恩的研究工作为 DeepMind 的诸多突破性成果做出了重要贡献,涵盖强化学习、
Greg Wayne:我对这个系统在语言学习方面的应用感到非常兴奋。
「主动记忆」灵感来自动物
Hannah Fry:如果你正在和它互动,那么它的底层到底发生了什么?有哪些不同的组件?
Greg Wayne:首先,有一个应用程序,收集视频和音频。
Hannah Fry:在哪些环境它会表现得不太好?
Greg Wayne:在嘈杂的条件下,它很难区分不同的声音。
Greg Wayne:你好,Hannah。你能帮我找些虫子吗?
Hannah Fry:这听起来很像你的橙汁例子,不是吗?
Greg Wayne:这是一个主动记忆的例子。当然还有 记忆力,当摄像头开启时,它会记住过去 10 分钟的图像和谈论的内容。而 Project Astra 则能与你一起谈论世界。指的是将一个声音源与另一个声音源区分开来。
Greg Wayne:是的。这项技术可以在很大程度上复制一个在世界上帮助他们的同伴。当我试图让它最终变得非常自然时,我逐渐开始认为 视频是系统最终的连接纤维(connecting tissue)。最终会出现在眼镜上吗?
Greg Wayne:是的, 智能眼镜上的体验是最亲密的,也最令人惊叹的,因为你感觉自己得到了增强。我认为我们可以将「原始通用人工智能」与一个有益的助手联系起来,其主要目标是为与之互动的人类带来好处。当它调用工具进行更深入的查询和研究时,是的,还有太多事情需要做得更好。
Greg Wayne:是的,非常复杂。但我们已经比两年前讨论的系统有了显著的飞跃。例如,你可以想象帮助那些难以识别情绪和面部表情的人。
建立在 Gemini 基础上,但又超越 Gemini 的 AI 助理
Hannah Fry:欢迎回到 Google DeepMind The Podcast 。电脑或 VR 头显上。也可以用来训练自己,你可以练习理解面部表情,并让 Astra 给你反馈。
Hannah Fry:它是如何决定哪些信息足够重要,值得记住?
Greg Wayne:它有 启发式方法。更深层次的记忆、」
Hannah Fry:所以它容易被鼓励?
Greg Wayne:是的。我认为在 Gemini 出现之前有一段缓慢的时期,那段日子很艰难。
Hannah Fry:这太神奇了。
Hannah Fry:人们用它来做什么?
Greg Wayne:比如获取时尚建议。你会用某种方式影响它,说「你能看见」,它就会说,「是的,我能看见。
Hannah Fry:非常感谢你参与我们的节目,Greg。很少有人能理解输入模型的数据。