聊一聊OpenAI新发布的Apps SDK

昨天凌晨,OpenAI 又开了场“整活大会”。一口气发布了 Apps SDK、AgentKit、Codex 和 Sora 2 API。其中,最吸引我的是那个听起来不太起眼的 Apps SDK。

大模型刚出现的时候,我写过一篇文章,题目是《大语言模型(LLM):解锁人机交互新时代的关键》。那时候我讲的是,LLM 的出现意味着所有应用都能被重新设计——我们可以在现有产品中,加入一种更自然、更智能的交互方式。过去两年,这个判断大体是对的。无论是笔记软件、搜索引擎还是办公系统,都在积极拥抱大模型,想办法把 AI 功能嵌入自己的产品。

但这绝不会是未来产品该有的模样。想一想你现在使用的各种App,想吃饭用美团,看攻略上小红书,订票要打开携程或 12306。每一个 App 都有自己的小世界,而用户要在这些世界之间疲于奔命。

OpenAI想做的事,就是帮你摆脱这些负担,将不同的应用融入自己的产品中。它希望你能只用一个应用就能完成所有事情。

事实上,OpenAI 很早就在铺这条路。

最初是 Function Call。大模型受制于仅能通过预测下一个 Token 生成文本的限制,为了让它可以与外部环境交互,打破限制,就有了Function Call功能。

接着推出 GPTs 应用商城,可惜由于当时模型能力还不够,加上交互形式单一,这个功能只火了没几天就不了了之。

然后是 MCP,一个让模型能系统地访问外部数据和服务的协议。它也被很多人寄予厚望,期待着通过MCP能力能让大模型完成更多更复杂的任务。这一次的 Apps SDK,也是基于 MCP 架构,真正把它变成一个开发者可用的应用框架。

以上都是增强大模型能力的创新。这一次,OpenAI却是从产品层面考虑,想将 ChatGPT 不再作为一个普通对话框,而开始变成一个超级应用。

从发布会的演示来看,Apps SDK 的形态有点像浏览器,其他应用需要在这个“浏览器”里重建自己的界面和逻辑。你在 ChatGPT 里说一句“帮我做个旅游计划”,它可以自动调用不同的 App 去查天气、订酒店、规划路线,然后再把所有结果整合成一张漂亮的交互界面给你。

看到这里你心里会不会有点小激动,BUT,想要真正做到这件事,还需要解决两个关键问题。

一直以来,ChatGPT 的核心交互方式是文字对话。最初会以这种形式出现,是因为大模型是文本模型,只擅长做文字处理,对话就是一种最为自然的交互方式。当任务越来越复杂,你需要在文字之外加入更多非文字的内容时,对话的交互就显得不再合适。

从输入角度看,要完成一次旅行规划、要写一份策划案,往往要输入大量分散的信息,拆成无数次沟通。模型虽然聪明,输入文本却是一种极其低效的方式。

从输出角度看,虽然OpenAI这次允许开发者为模型定义专属的UI组件,让回复变成可以操作的界面。但是作为对话,必然会将你想完成的一件事拆分在多次问答中,线性往下发展,不同组件之间也很难进行交互。但你在生活中去完成一些复杂任务时,往往不会是线性的,而是会在不同应用中不断的跳进跳出,融合和修正彼此的信息。前两个月大火的上下文工程就是在试图解决这个问题,从而实现可以独立完成复杂任务的AI智能体。

接着说另一个难题。作为一个OpenAI想要打造的超级应用,光有用户还不够。要让它真正运转起来,还需要有人来供水。谁会愿意为 OpenAI 提供服务?

继续拿浏览器来打比方,OpenAI 做了浏览器,但网页得有人写。开发者必须在这个新系统中重新开发自己的应用。说到这里你有没有联想到一个很熟悉的东西,微信和它的小程序生态。

小程序是轻量化的 App,它们依附在微信之中,用户不需要下载,随时能用。但小程序的命运也被微信所掌控——功能受限、流量被分配、规则必须遵守。

对于大公司来说,这样的依附关系难以接受。谁都不想让自己的用户变成别人的。可对于中小公司、独立开发者来说,这或许是一个巨大的机会。Apps SDK 提供了统一的接口和展示渠道,只要能为 ChatGPT 提供数据或功能,就有可能接触到庞大的用户群。那些曾在微信里生根的小厂,这次也许会考虑换一个宿主。

过去的 App,本质上在做两件事:提供数据,完成交互。而在 OpenAI 的体系里,前者——数据——可能变得更重要。模型负责理解和执行,开发者负责提供事实和资源。这种分工的转变,也许会诞生出一种全新的产业角色:连接用户与模型生态的“数据管道商”。

当然,Apps SDK 现在还只是一个雏形。离真正的超级应用还有很远。要让所有服务都能无缝接入 ChatGPT,需要更好的权限体系、更开放的标准,更复杂的调度机制,以及还没有人想出答案的新交互方式。

但这一次,OpenAI 的野心显然已经超出了“做一个更聪明的模型”。它在试图重新定义“软件”这个概念。

过去,我们用 App 实现功能;未来,我们可能用意图驱动模型去完成任务。功能仍然存在,只是藏在模型背后。

如今大模型的御三家ChatGPT、Gemini、Claude在模型能力上已经难分高下,但在产品形态上,OpenAI 要比另外两家高出不少,也许这也是它能在经历了大量人员动荡,依然能保持领先的原因。

对普通人来说,模型能力在强也只是一门他们不懂的技术,能够真正吸引所有人使用的永远只会是方便好用的产品本身。而 Apps SDK,可能就是通往那个世界的入口。

最后插一句题外话,社交媒体应用一直是各路大厂想要抢占的瑰宝,而各种模型层出不穷的今天,展现出来的产品形态大都是依据模型功能开发的应用工具。直到 OpenAI 最近几天发布了一个大火的社交应用Sora 2,国内各个睡着的大厂也该醒醒了。

 

 

如果觉得内容不错,欢迎你点一下「在看」,或是将文章分享给其他有需要的人^^


相关好文推荐:

苦涩的教训

白话大模型——第四回 如何让大模型像人一样使用工具?

白话大模型——第三回 所谓的知识库,到底是在做什么?

特朗普签署AI行动计划,AI全球赛跑加速,中国准备好了吗?

白话大模型——第二回 使用大模型最重要的事,没有之一

白话大模型——第一回 大模型就是一个见多识广的普通人

0条留言

留言