欣朵的日志

聊一聊OpenAI新发布的Apps SDK

昨天凌晨，OpenAI 又开了场“整活大会”。一口气发布了 Apps SDK、AgentKit、Codex 和 Sora 2 API。其中，最吸引我的是那个听起来不太起眼的 Apps SDK。

大模型刚出现的时候，我写过一篇文章，题目是《大语言模型（LLM）：解锁人机交互新时代的关键》。那时候我讲的是，LLM 的出现意味着所有应用都能被重新设计——我们可以在现有产品中，加入一种更自然、更智能的交互方式。过去两年，这个判断大体是对的。无论是笔记软件、搜索引擎还是办公系统，都在积极拥抱大模型，想办法把 AI 功能嵌入自己的产品。

但这绝不会是未来产品该有的模样。想一想你现在使用的各种App，想吃饭用美团，看攻略上小红书，订票要打开携程或 12306。每一个 App 都有自己的小世界，而用户要在这些世界之间疲于奔命。

OpenAI想做的事，就是帮你摆脱这些负担，将不同的应用融入自己的产品中。它希望你能只用一个应用就能完成所有事情。

事实上，OpenAI 很早就在铺这条路。

最初是 Function Call。大模型受制于仅能通过预测下一个 Token 生成文本的限制，为了让它可以与外部环境交互，打破限制，就有了Function Call功能。

接着推出 GPTs 应用商城，可惜由于当时模型能力还不够，加上交互形式单一，这个功能只火了没几天就不了了之。

然后是 MCP，一个让模型能系统地访问外部数据和服务的协议。它也被很多人寄予厚望，期待着通过MCP能力能让大模型完成更多更复杂的任务。这一次的 Apps SDK，也是基于 MCP 架构，真正把它变成一个开发者可用的应用框架。

以上都是增强大模型能力的创新。这一次，OpenAI却是从产品层面考虑，想将 ChatGPT 不再作为一个普通对话框，而开始变成一个超级应用。

从发布会的演示来看，Apps SDK 的形态有点像浏览器，其他应用需要在这个“浏览器”里重建自己的界面和逻辑。你在 ChatGPT 里说一句“帮我做个旅游计划”，它可以自动调用不同的 App 去查天气、订酒店、规划路线，然后再把所有结果整合成一张漂亮的交互界面给你。

看到这里你心里会不会有点小激动，BUT，想要真正做到这件事，还需要解决两个关键问题。

一直以来，ChatGPT 的核心交互方式是文字对话。最初会以这种形式出现，是因为大模型是文本模型，只擅长做文字处理，对话就是一种最为自然的交互方式。当任务越来越复杂，你需要在文字之外加入更多非文字的内容时，对话的交互就显得不再合适。

从输入角度看，要完成一次旅行规划、要写一份策划案，往往要输入大量分散的信息，拆成无数次沟通。模型虽然聪明，输入文本却是一种极其低效的方式。

从输出角度看，虽然OpenAI这次允许开发者为模型定义专属的UI组件，让回复变成可以操作的界面。但是作为对话，必然会将你想完成的一件事拆分在多次问答中，线性往下发展，不同组件之间也很难进行交互。但你在生活中去完成一些复杂任务时，往往不会是线性的，而是会在不同应用中不断的跳进跳出，融合和修正彼此的信息。前两个月大火的上下文工程就是在试图解决这个问题，从而实现可以独立完成复杂任务的AI智能体。

接着说另一个难题。作为一个OpenAI想要打造的超级应用，光有用户还不够。要让它真正运转起来，还需要有人来供水。谁会愿意为 OpenAI 提供服务？

继续拿浏览器来打比方，OpenAI 做了浏览器，但网页得有人写。开发者必须在这个新系统中重新开发自己的应用。说到这里你有没有联想到一个很熟悉的东西，微信和它的小程序生态。

小程序是轻量化的 App，它们依附在微信之中，用户不需要下载，随时能用。但小程序的命运也被微信所掌控——功能受限、流量被分配、规则必须遵守。

对于大公司来说，这样的依附关系难以接受。谁都不想让自己的用户变成别人的。可对于中小公司、独立开发者来说，这或许是一个巨大的机会。Apps SDK 提供了统一的接口和展示渠道，只要能为 ChatGPT 提供数据或功能，就有可能接触到庞大的用户群。那些曾在微信里生根的小厂，这次也许会考虑换一个宿主。

过去的 App，本质上在做两件事：提供数据，完成交互。而在 OpenAI 的体系里，前者——数据——可能变得更重要。模型负责理解和执行，开发者负责提供事实和资源。这种分工的转变，也许会诞生出一种全新的产业角色：连接用户与模型生态的“数据管道商”。

当然，Apps SDK 现在还只是一个雏形。离真正的超级应用还有很远。要让所有服务都能无缝接入 ChatGPT，需要更好的权限体系、更开放的标准，更复杂的调度机制，以及还没有人想出答案的新交互方式。

但这一次，OpenAI 的野心显然已经超出了“做一个更聪明的模型”。它在试图重新定义“软件”这个概念。

过去，我们用 App 实现功能；未来，我们可能用意图驱动模型去完成任务。功能仍然存在，只是藏在模型背后。

如今大模型的御三家ChatGPT、Gemini、Claude在模型能力上已经难分高下，但在产品形态上，OpenAI 要比另外两家高出不少，也许这也是它能在经历了大量人员动荡，依然能保持领先的原因。

对普通人来说，模型能力在强也只是一门他们不懂的技术，能够真正吸引所有人使用的永远只会是方便好用的产品本身。而 Apps SDK，可能就是通往那个世界的入口。

最后插一句题外话，社交媒体应用一直是各路大厂想要抢占的瑰宝，而各种模型层出不穷的今天，展现出来的产品形态大都是依据模型功能开发的应用工具。直到 OpenAI 最近几天发布了一个大火的社交应用Sora 2，国内各个睡着的大厂也该醒醒了。

如果觉得内容不错，欢迎你点一下「在看」，或是将文章分享给其他有需要的人^^

相关好文推荐：

苦涩的教训

白话大模型——第四回如何让大模型像人一样使用工具？

白话大模型——第三回所谓的知识库，到底是在做什么？

特朗普签署AI行动计划，AI全球赛跑加速，中国准备好了吗？

白话大模型——第二回使用大模型最重要的事，没有之一

白话大模型——第一回大模型就是一个见多识广的普通人

AI电池人实验室

欣朵的日志

加载中...

Home

Archive

Pages

Single

Contact

Latest Tweets

欣朵的日志

最新文章

读完《马斯克原理》，我重新想了想“努力”这件事

是的，微信 + AI 官宣了

你经常听说无法被 AI 替代的“品味”，真的会是人类最后的壁垒吗？

4家万亿公司抢一个300亿市场，他们在赌什么？

OpenAI Agentic OS将豆包手机开始的革命更进一步

聊一聊OpenAI新发布的Apps SDK

0条留言

留言

标签

归档

个人公号

个人星球