BOB半岛AI Agent(智能体),即便你不知道这是什么,今年也一定在某些 AI 大佬口中,听到过这个词:
2023 年 11 月 13 日,微软创始人比尔 · 盖茨为 Agent 撰写了一篇千字博文,称其将颠覆软件行业和人机交互方式: 谁能主宰个人助理 Agent,那才是大事。因为你将永远不去搜索网站,不去生产力网站,不去亚马逊。
哥伦比亚大学计算机科学教授 Jeff Clune 则在 Agent 身上看到巨大商机: 可能价值数万亿美元。 而进一步,英伟达高级研究员 Jim Fan 预言,Agent 将 推动整个文明的进化 。
所谓的 AI Agent,可以被理解为一颗能自主使用工具、执行任务的 人造大脑。
今年 Agent 有多火?6 月后,AI 赛道几乎没人谈怎么做大模型,涌过来的都是自称 Agent 的项目。 一名投资人告诉 36 氪。近一个月,她聊了 20 多家自称做 Agent 的公司: 有之前做 RPA 的,也有做 AIGC 的,一半多的项目做的根本不是 Agent。
太平洋对岸动作频频,国内巨头和创业公司也很快踏上 Agent 的追风之路。
在 9 月 -10 月短短两个月里,百度、智谱 AI 等大厂和 AI 独角兽先后发布了 Agent 开发框架,或者自研了 Agent 应用。市面上的打着 Agent 旗号的创业项目,也如雨后春笋般冒了出来——在近期阿里云主办的黑客松上,18 个 AI 项目,其中 7 个提到了 Agent。
然而,5 个月后,在 11 月 6 日举办的首届 Dev Day(开发者日)上,OpenAI 轻轻打了个响指:发布定制版 ChatGPT(OpenAI 称其为 GPTs)的低代码开发工具 GPT Builder ——下游的客户和开发者只需上传训练数据、配置模型参数,用几天甚至几小时,就能用目前全球最强的大模型基座,开发自己的 Agent。
GPT Builder 发布仅一天,就有上千基于 GPT 的 AI 应用上线了 GPT Store;三天内,定制化的 GPTs 以每分钟一个的惊人速度新增。截至 12 月 4 日,即便在非官方商店 GPTs Hunter,也已经上线 万个 GPTs。
OpenAI 用一场发布会,让 Agent 创业一下子陷入全网唱衰的境地。前有 OpenAI 利用 GPT 的基座能力优势自己搞开发,后有下游客户和开发者用 GPT Builder 低门槛做自研——Agent 企业,似乎已经到了随时可能被上下游吞并的 存亡之秋 。
在 Twitter Space 上,一场关于 Dev Day 的实时讨论会吸引了近百人。当 GPTs 出现在 Sam Altman 身后的屏幕上,讨论会的 国粹 立刻此起彼伏:woc,这半年都白干了! 几名开发者在网上开玩笑: 我们和 OpenAI 的差异性就是比他差。
一名正在帮两家 Agent 公司谈融资的 FA 焦虑到夜不能寐。她连夜和创始人拉会, 必须让他们在 BP 里强调技术的差异化,不管多小的差异都行。还有就是,先强调国内市场,毕竟 OpenAI 还进不来。
美国 AI 3D 创业公司 Luma AI 增长负责人 Barkley Dai 告诉 36 氪,感到恐慌的企业往往只是套壳了 Agent 一词,没有真正找到落地的场景, 找到场景的 AI 厂商已经开始商业化形成数据飞轮了,没那么容易被淘汰 。
正好借机大浪淘沙,还能重新炒热 AI 应用赛道。 另一名海外开发者也表达了类似的观点。
即便开发者们观点态度不一,但 OpenAI 在 Agent 上的狼性布局,也恰恰证明,如今没有人会否定 Agent 在 AI 落地中的价值。
ChatGPT 只能做谈天说地、写诗作画这些风花雪月的事,但没法订票、报销、做 PPT。
这句在业内广为流传的论断侧面反映出了大语言模型的局限性:无法主动感知环境信息,并做出决策和行动。图灵奖获得者杨立昆(Yann LeCun)也断言:大语言模型无法通往 AGI(通用人工智能)。
如何理解 Agent 的革命性?我们不妨将 AI 的落地,想象成完成一个项目的过程。
无论是以 Midjourney 等为代表的 AIGC(AI 生成内容)技术,还是 ChatGPT,都可以被视作组内具有智慧的 军师 。 军师 们能根据沉淀在脑海中的知识,对上级布置的项目进行头脑风暴,给出初步的想法和思路。
与此同时, 军师 发挥潜力的程度,极大程度上还依赖于人类下达指令的质量——也就是输入 Prompt(提示词)的质量。
但要交付一个出色的项目,只有 军师 纸上谈兵是不够的,还需要上网检索信息,或从数据库中找到并分析以往的业务数据,并用办公软件做一份上级和合作部门看得懂汇报 PPT。
这意味着,要想大模型真正在实际任务中派上用场,必须让它能够调用第三方工具的 API,学会使用工具。
2023 年 3 月微软发布的 365 Copilot(副驾驶),已经让大模型初步学会了实用工具,帮人类做 PPT、写文稿、整摘要。
然而,由于 Copilot 无法自主执行和结束任务,在使用 Copilot 的过程中,人依然需要通过调整 Prompt 等方式,对 Copilot 的执行结果进行修改、给出反馈。
更进一步,能几乎自主执行任务、不需要实时输入高质量 Prompt 的 AI 实体,就是 Agent。
Lilian Weng 的博客指出,Agent 能让人类解放双手的原因,则在于模仿人类执行任务过程的四个组件:大模型 + 记忆 + 规划能力 + 工具使用。
记忆 确保前后目标一致, 规划能力 则体现在对任务的拆解和检查。剩下的则是 Agent 最核心的两个部分: 大模型 是能够理解任务并进行决策的大脑, 工具使用 则意味着执行行动。
发展至今,Agent 的落地方向,根据 调用 Agent 数量 和 是否设置特定目标 ,已有了四个探索方向的分野。
就像真实的项目组中,既可以由一人主导所有流程,也可以多人分工,根据任务所调用 Agent 的数量,Agent 的模式也无外乎两种:单体 Agent(Single Agent),和群体 Agent(Multi Agent)。
放眼国内,单体 Agent 目前被更多应用于某一特定的流程,或者具有特定场景的任务中。
比如高瓴创投投资的语音转录平台 Airgram,推出了销售场景下的会议 Agent;成立于 2021 年的 魔音智能 的 Agent,聚焦在私域运营和客服场景。而百度、滴滴、蓝凌等大中型厂商,则针对企业的费控、数据分析、沟通等具体工作环节,分别推出了 Agent 方案。
但当业务流程愈加复杂,并且难以切分成孤立的环节,让一群 Agent 互相分工就成了最直接的解决方式。
下半年以来,愈来愈多的厂商对群体 Agent 进行了研发。近期完成天使轮融资的 KeepChat,针对完整的销售流程和客户需求,在 AI 销售背后接入了 4 个 Agent 进行协作。
清华大学计算机科学与技术系副教授刘知远成立的 面壁智能 ,则把智能软件开发平台 ChatDev 做成了一家只有 Agent 员工的软件开发公司。CEO Agent 负责接收用户需求后,并把开发和交付任务分配给 CTO、开发经理、产品经理、测试专员等 Agent 角色。
根据是否设置特定目标,Agent 又可以分为自主式(Autonomous)和生成式(Generative)。
自主式 Agent,往往受限于特定的任务目标,比如交付特定功能的软件、制作特定内容的 PPT。但剧本、游戏脚本创作等创意型工作,往往需要不经意间碰撞出的思维火花。为了探寻 Agent 产生创意的可能,没有特定目标的生成式 Agent 应运而生。
生成式 Agent 探索的里程碑事件,发生在 2023 年 4 月——在斯坦福大学和谷歌研究院研发的 虚拟 AI 小镇 内,15 个身份各异的 Agent 居民,自由进行社会交往。
虚拟 AI 小镇 的诞生,让不少开发者和厂商看到了 Agent 重构游戏和社交玩法的可能性。比如小冰成立的游戏工作室 ICEGamer,在游戏中引入了 Agent NPCBOB半岛。开发者只需为 NPC 编写必要的世界观脚本和人设,游戏过程中的迭代和进化则全权交由 Agent 和玩家。
理想情况下,生成式 Agent 能够根据玩家行为自主构建游戏副本。 前《和平精英》AIGC 策划张昊阳告诉 36 氪。他成立的 AI 游戏公司 AutoGame,探索的不仅仅是用 Agent 作为可智能问答的游戏 NPC,还用 Agent 作为数字员工,编写游戏脚本,制作游戏组件,创造游戏玩法。
可见的是,人们对于 Agent 的期望,已经不仅仅是让人类在原有工作中解放双手,而是期待 Agent 真正成为人类的 数字分身 ,构建新的生产方式。
多数人认为,像 OpenAI 一样提供开发框架和工具的 Agent 中间层公司,会首当其冲。Atom Capital 在官方推文中直言: 大量 Agent 框架公司将失去存在价值,开发者会因为生态便利性等原因转移到 OpenAI 的官方框架之下。
当 OpenAI 直接向下游开发者 卖水 ,Agent 生态的竞争也将加剧。已有的几万个 GPTs,功能覆盖了设计、写作、故障排除等工作需求BOB半岛,也延伸到了算命、教学、食谱生成等生活娱乐场景。 其余厂商再想开发特定场景下的 Agent,都会撞型。 一名开发者对 36 氪表示, 相当于和 OpenAI 生态中的几千名开发者竞争。
但当 Dev Day 引发的震荡逐渐消退,厂商们也逐渐回归冷静。在大会上,Sam Altman 将 GPTs 称作 precursors to agents(Agent 的前身)。这句话已明确指出,GPTs 更偏向于聊天机器人,还达不到自主行动的程度。
经过一个月的试用和研究后,前述开发者告诉 36 氪,由于主要由简单指令创建,大部分 GPTs 远达不到交付给客户的企业级标准。
这意味着,OpenAI 的 GPTs 尚未达到与 Agent 厂商争抢蛋糕的水平。不过,OpenAI 在 Agent 布局上显露的野心,也让国内外厂商重新审视自身的壁垒。
但在国内,构建数据壁垒并不容易。一方面,大部分领域私有数据分散在不同企业和专家手中,具有高敏感和难整合的特点。另一方面,业务中产生的 过程数据 ,往往非结构化地存储在企业的服务器中,甚至专家的 大脑 中。而澜码科技 CEO 周健认为,专家知识的数字化是 AI Agent 落地的必要条件。
一些企业的 巧劲 ,是寻求与中游企业或者第三方服务商的合作,进而共享下业的客户数据。比如以人力资源行业为业务切口的 澜码科技 ,先与企业客户众多的猎头平台进行合作,以此为切入点,积累简历筛选、人岗匹配等业务数据。
但过程数据,往往难以通过第三方服务商进行共享。不少厂商认为,为数不多的获取路径,是先从相关业务 冷启动 ,完成过程数据的原始积累。比如想要做游戏 Agent,不妨先开发一款传统游戏。
而在数据私有化程度不高的行业——比如视频生成、小说生成等数据主要来源于网络的场景——不少从业者认为,Agent 企业要做的是数据治理。
将公开数据转化成半私有,甚至私有数据,比拼的不仅是清洗技术,还有企业的业务理解水平。
任何数据都有利用价值,根据业务需求去分级是比清洗更重要的一环。而分级就考验企业的业务理解能力,理解越深,越知道哪些数据是重要的。 内容创作 Agent 厂商波形智能的 CEO 姜昱辰解释。
她用小说写作场景举例,文笔流畅优美并非高质量数据的重要特征,读者评分、浏览量等市场化指标才是最重要的数据质量标准。
在 Agent 的构建上,仍有许多悬而未决的技术难题,其中不少源于 大脑 大模型。2023 年 6 月,风投机构 a16z 在与 4 位 AI 独角兽 CEO 的对谈中就指出,目前的 LLM 需要解决不受控制乱说话的 幻觉 问题、长时记忆的前后一致性问题,以及增强多模态的理解能力。
不少从业者都对 36 氪表示,OpenAI 开发者大会后,其他竞争者还有一段点对点突破技术难题的 缓冲期 ,用技术解决方案去获客。
比如,波形智能选择突破的难题是:自研名为 RecurrentGPT 的增强记忆技术解决方案,提升大模型记忆力;同时,在解码阶段控制文本生成的循环次数,控制平方级增加的内存和推理成本。
再比如,人机交互界面的多模态探索,目前还是鲜有人涉足的领域。目前人机交互最主流的方式,仍然是输入自然语言。但落实到具体的业务场景,LUI(自然语言交互界面)的作用十分有限。 比如对门店经营状态的分析,往往要输入一段门店监控视频。 澜码科技 CEO 周健表示, 由于多模态技术处于发展初期,对图片、视频、图表等多模态 UI 的探索还很少。
今年,随着技术实现成为可能,Agent 的商业化也正式迎来了爆发。比如在硅谷,至少有 100 个严肃项目在推进 Agent 的商业化。
接入 Agent 后,所有需要处理的业务场景,都会转化成需要底层大模型理解的数据,产生高昂的推理成本。一个典型案例是,斯坦福的虚拟小镇框架开源后,每个 Agent 一天就需要消耗 20 美金的 Token 数,比用人成本还要高。
所谓的 Token,是模型能够理解和生成的最小单元(1 Token ≈ 750 个单词)。张昊阳也算了一笔账:在游戏场景下,Agent 的调用需要消耗海量的 Token,成本高达人均 1 元 / 小时——一旦用户达到上万规模,企业就会很难负担成本。
Agent 想要真正实现规模化落地,多个厂商都对 36 氪表示,Agent 玩家们最先考虑的不是盈利,而是如何把高昂的推理成本转嫁给用户。
目前,To B 的 Agent 厂商已经摸索出较为成熟的一套收费模式:定制 / 部署费用 +Pay by Token。相应的,消耗 Token 所能产生的价值也有客观的衡量标准,比如节省的人力成本、增加的销售额、提升的办公效率。
但对于以游戏和社交产品为主的 To C Agent 应用而言,要让 Pay by Token 模式运作起来并不容易。Token 的价值,需要转嫁到主观的产品体验,难以有衡量的维度,用户的使用和付费意愿并不能被保证。
张昊阳举了一个例子:目前主流游戏内付费手段主要靠通行证(月卡)、道具付费等手段,月卡玩家可以获得更多游戏内收益。生成式 AI 接入游戏后,在玩家付费意愿有限的前提下,如果不采取按量付费的商业模式,部分超高粘性的玩家游玩所产生的算力成本将变得难以承担。
这让 To C 的 Agent 产生了一个商业悖论:玩家越多、使用时长越长,公司反而亏得越多。
但 C 端难以真正商业化的核心原因,在于 Agent 还没有为用户创造新的需求。
以游戏为例, 目前大多数‘ AI 游戏’产品只做到了将 Agent 的能力应用于 NPC 对话,这并没有带来本质上的玩法创新,而是在用新技术提升现有体验。 张昊阳总结, 游戏接入生成式 AI 能力后,必须创造出新的游戏玩法,真正做到 AI Native(AI 原生),玩家才能真正为 AI 游戏买单。
不过,即便付费模式尚未有定论,但在 IP 打造上,Agent 已经显现出了切中用户需求的潜力。成立于 2021 年的 Character.AI,用 Agent 打造的则是一个角色定制社交平台。今年,这个 AI 独角兽的 App 最高月活,已经达到 420 万。
目前,不少厂商正在尝试为 Agent 增加数字形象,实现原来数字人无法主动进行的电话呼出、网络搜索等能力。更进一步,具有记忆力的 Agent IP,还能与粉丝产生比肩真实追星体验的情感联系。
如今看来,OpenAI 已经用 GPTs 为 Agent 热好了场子,但想让 Agent 真正飞进寻常百姓家,无论技术,还是商业化,都还有一段路要走。