从 GPTs 聊到 Agent、LLMOps 以及开源的新机会

用户5069

2025年8月25日修改

1.
关于 Agent​

1、什么是 Agent？具备什么能力？

观点一：狭义的 Agent，由 OpenAI 定义

“Agent”一词虽然早在马文·明斯基、Russell 和 Norvig 等知名学者的著作中出现，但在大模型时代，OpenAI 重新定义了这一概念。Lilian Weng 在其个人博客中对 Agent 的主要功能进行了详细描述，提供了一个更为精确的定义。她指出，狭义上的 Agent 具备技能调用（Tool use）、记忆（Memory）和规划（Planning）能力。​

common.docs_name - LarkCCM_Docs_Menu_Image

观点二：广义的 Agent，具有基础智能、角色管理、技能调用、复杂思维、及未来更多的可扩展性​

广义的 Agent 可以在 Lilian Weng 提出的 Agent 的基础上进行扩展，具有基础智能、角色管理、技能调用、复杂思维，及未来五感集成能力：​

•
Agent 的基础能力，包括常识推理、逻辑性等，来源于大模型提供的基础智能。所以我们对 Agent 这一层能力的设计，本质上都是对模型的优化。如果要改进 Agent 在这一方面的能力，通常需要更换或优化底层模型。​

•
Agent 的角色扮演、情感理解和身份相关能力，与其记忆和拟人化角色设定的 Prompt 工程紧密相关。这部分称为“角色管理”，涉及到如何让 Agent 理解并扮演特定的角色或身份。​

•
Agent 的技能调用能力，如编程、查询、绘图等，依赖于 Agent 之上的插件。OpenAI 的“Function calling”机制是一个经典的实现方 式，允许 Agent 调用外部的功能和资源。​

•
Agent 的复杂思维能力，在基础智能之上，大模型通过人们构建的思维链、思维树等方式，学会更高层的思维方式。这种方法教会模型特定的模式或思维方式，从而提高其处理复杂问题的能力。​

在未来，Agent 还会具备更多的可扩展的空间。 就 Observation 而言，Agent 可以从通过文本输入来观察来理解世界到听觉和视觉的集成；就 Action 而言，Agent 在具身智能的应用场景下，对各种器械进行驱动和操作。​

总而言之，Agent 是以核心智能模型来驱动的，一个可以具备能力从思考开始，最终做到完整输出的智能性结构。Agent 的发展很符合第一性原理，从最先的 Prompt，后面有人在写完的 Prompt 后面加通用的规划器。​

再到 COT 和 TOT，其实也是 Agent。再后面 AutoGPT 火了之后，一些公司如面壁出了双循环的 Agent，其实是在 AutoGPT 基础上的演化，包括“斯坦福智能体小镇”。 这些都证明 Agent 更像是大模型的超级版。​

2、Agent 在 B 端的落地到底情况如何？

观点一：设想与现实之间的 Gap 有多大？人和大模型长期共存​

目前已成熟的方式

•
RAG + 知识问答 + 语音条，目前是比较容易获得订单的方式。​

•
主要场景时替代掉传统客服或者对内做培训的知识库。​

•
可以开发点击鼠标等动作的 RPA ，搭配 RAG 的系统，方便现场 demo 演示。 ​

路径设想

•
如果用 AutoGen 搭一个框架，多个 GPT 可以共同发挥作用。这是最笨但最符合第一性原理的方案。​

•
或者当模型能力进化到一定程度，Agent 的能力不再趋同，可以单一模型实现从理解需求到落地​

实现难点

•
包括 GPT-4 在哪的很多测试，并不具备 planning 的能力，只能 plan 模型学过的知识库里的东西。​

•
比如在金融行业场景中，模型没有学过诸如“供求关系分析”“一致预期”“投资逻辑”等文本，因此根本无法做到这样的 planning，包括 action。​

我们发现，面对更深层次的用户需求：就需要一个产品经理，将问题一层层拆开，拆分成每个分析师独立的观点是什么和汇总的综合观点是什么。 所以未来很长时间是人与 GPT 同时存在的状态，并非 GPT-4/GPT-5 可以独立全部解决。人类的产品经理扮演很重要的角色，可能是类似过去 SaaS 的流程规划过程。​

比如模拟今天沙龙的一个对话场景：三个 GPT 同时使用，一个主控制意图，一个是要把对方引导到某种推荐的概念，第三个是回答问题。GPT-4 做的都不是很好，只有把人类的规划引入进去后，第一次跑通后再用 GPT 进行执行。所以落地的主要 Gap 是培养一个理解需求并且懂得大模型的产品经理的一年时间。​

观点二：在 Autonomy Agent 或 Multi-Agent 成熟之前，大模型应从“对外业务”和“简单功能”切入 ToB 服务​

•
B端能落地的业务都是普通人能通过一小段时间和成本以及一些输入就能习得的。对应到企业场景，可能是：财报，供应链管理等。业务对外的信息管理，可能最先作为大模型服务的辐射范围（如产品入库记录，物料管理，合同管理）​​

•
供应商有限数量时，尚且可以轻松进行流程梳理。但当面临一些供应链复杂的巨头/独角兽公司业务的时候，不太可能用 GPT 解决。​

•
目前可能还没有到解决 Autonomy Agent 或 Multi-Agent 能力问题的时候，因为我们 Agent 实现的单次请求及回复的“原子颗粒”都还没有达到一个很好的状态。​
◦
把私有领域知识训练在一个私有的模型里面或直接去训练一个小模型解决这个问题（这种解决问题的语料也可能不存在）​​
◦
构建请求链：把问题拆解细分到 Agent 能解决的问题。​
◦
Multi-agent 的协同前提条件是多样化，如果没有解决这个问题，相当于多个 Agent 在同自己对话，就会出现价值观与角色趋同问题。​
◦
Autonomy 问题，预训练的通识性模型无法解决，通常要解决这个问题有两种思路：​​
▪
把私有领域知识训练在一个私有的模型里面或直接去训练一个小模型解决这个问题（这种解决问题的语料也可能不存在）​​
▪
构建请求链：把问题拆解细分到 Agent 能解决的问题。​

观点三：大模型要做专家知识，还是通用知识？

从 GPTs 聊到 Agent、LLMOps 以及开源的新机会​

从 GPTs 聊到 Agent、LLMOps 以及开源的新机会