什么是大型语言模型（LLM）代理和自治代理

语言 Chinese, Simplified

SEO Title

What Are Large Language Model (LLM) Agents and Autonomous Agents

什么是大型语言模型（LLM）代理

LLM代理是一种人工智能系统，它利用大型语言模型（LLM）作为其核心计算引擎，展示文本生成之外的能力，包括进行对话、完成任务、推理，并可以展示一定程度的自主行为。

LLM代理通过精心设计的提示进行引导，这些提示对人物角色、指令、权限和上下文进行编码，以形成代理的响应和操作。

LLM代理的一个关键优势是它们具有不同程度的自主权。基于设计阶段授予的能力，代理可以表现出从纯粹被动到高度主动的自我导向行为。

有了足够的提示和知识访问，LLM代理可以半自主地工作，在一系列应用程序中帮助人类，从对话聊天机器人到目标驱动的工作流和任务自动化。

它们的灵活性和语言建模优势为理解自然语言提示并与人类监督合作的可定制人工智能合作伙伴提供了新的可能性。

为了提高自主能力，LLM代理需要访问知识库、内存和推理工具。Prompt engineering使代理商具备分析、项目规划、执行、回顾过去的工作、迭代细化等方面的高级技能。有了足够的知识和提示，代理可以在人工监督下管理相对独立的工作流。

这最终通过将人物角色、指令和权限编码到精心编制的提示中来指导代理的行为。用户通过响应人工智能的输出提供交互式提示来有效地引导代理。精心设计的提示可以实现人类与人工智能的无缝协作。

LLM代理的关键功能

LLM代理利用LLM固有的语言能力来理解指令、上下文和目标。这使它们能够根据人类提示自主和半自主地操作。
LLM代理可以利用一套工具——计算器、API、搜索引擎——来收集信息并采取行动完成分配的任务。它们不仅仅局限于语言处理。
LLM代理可以展示思维链推理、思维树和其他快速的工程概念，建立逻辑连接以得出结论和解决问题。他们的推理超越了文本理解。
LLM代理可以通过将上下文和目标融入他们的语言制作技能，为特定目的（电子邮件、报告、营销材料）生成量身定制的文本。
代理可以是完全自主的，也可以是半自主的，需要不同级别的用户交互。
代理可以耦合不同的人工智能系统，例如带有图像生成器的大型语言模型，以实现多方面的功能。

从LLM到代理的演变——快速回顾

大型语言模型（LLM）最初是被动系统，只专注于统计语言建模。像GPT-2这样的早期LLM可以令人印象深刻地生成或总结文本，但缺乏任何目标、身份或代理的概念。他们是没有行动动机的模特。

随着时间的推移，用户意识到仔细的提示工程可以从LLM中引发更多类似人类的反应。人物和身份被编码到提示中，以塑造LLM的语气、观点和知识。更先进的提示技术使LLM能够计划、反思和展示基本的推理。

这促使基于LLM的代理的兴起，这些代理旨在模拟对话或实现定义的任务。像ChatGPT这样的会话代理采用了人物角色来进行非常像人类的对话。面向目标的代理将LLM的推理能力整理为执行工作流。

随着快速工程实践的成熟，这两种代理类型都受益匪浅。即时配方启用了为一致性和效率进行优化的预定义结构。模块化组件和元件允许更大程度的定制。

为代理配备外部存储器、知识集成和工具集成大大扩展了它们的能力。多主体协作进一步释放了新的潜力。在这一切的基础上，迭代即时工程仍然是指导代理行为的关键。

如今，被动LLM和交互式半自主代理之间的界限已经明显模糊。代理商表现出令人印象深刻的代理能力，利用他们的LLM在提示上进行合作，而不仅仅是做出回应。随着快速工程从LLM中引入越来越先进的推理、学习和技能，进化仍在迅速进行。

提示周期概述

迭代提示周期是促进用户和LLM代理之间自然对话的关键：

用户提示：用户提供启动对话的初始提示，并将代理引导到特定任务或讨论主题。
提示工程：提示的创建经过精心设计，可为LLM提供最佳的指令和上下文。语气、观点和谈话风格等因素有助于引导LLM的反应。
LLM生成：LLM在其当前上下文窗口中处理编码提示，以生成相关的文本响应。响应显示细微差别，反映了及时的工程。
LLM自回归链接：LLM生成的文本被递归地添加到上下文窗口中。这允许LLM建立在自己的响应上，自回归地链接输出。
用户反馈循环：用户提供后续提示以响应LLM的输出。这种反馈通过循环的进一步迭代引导对话。
上下文扩展：在每个循环中，上下文窗口都会扩展，使LLM代理能够积累知识并更好地理解用户的会话目标。
重复循环：在许多循环中，LLM代理收敛于解决方案，揭示更深入的见解，并在不断发展的对话中保持主题焦点。

提示工程框架的循环性质允许用户以交互式、动态的方式有效地指导LLM代理。每次迭代都会进一步训练代理，使其与用户的需求保持一致。

什么是好的人工智能提示？

人工智能提示是一段精心制作的文本或其他输入，提供给人工智能系统以引发所需的响应。人工智能提示是将用户的意图传达给底层机器学习模型的指令。

提示的结构和内容对于成功指导人工智能系统至关重要。提示的设计必须与所利用的特定人工智能模型的功能相一致。不同的人工智能模型被训练专门用于特定类型的输入和输出。

当提示生成性人工智能系统（如大型语言模型和图像生成模型）时，用户必须提供指示所需输出的描述性文本。提示中的措辞和细节水平显著影响人工智能响应的质量和相关性。

本质上，人工智能提示用人工智能可以处理和执行的自然语言对用户的请求进行编码。即时工程是将想法转化为优化指令的技能，从而产生准确、相关和有用的人工智能输出。有效的提示将人工智能系统视为协作伙伴，用户通过交互式提示仔细指导机器的行为。

人工智能提示的剖析

人工智能提示由几个基本的构建块组成，这些构建块协同工作，为人工智能系统提供指令和上下文。了解有效提示的核心组成部分有助于用户制定优化的提示。

任务：该任务定义了人工智能的预期输出或目标。这可以是回答问题、生成图像或生成创造性内容。明确说明任务有助于集中人工智能系统。
说明：说明为人工智能提供了如何执行任务的具体指导。这包括输出的所需属性、格式、内容要求和任何约束。指令充当指导人工智能的规则。
上下文：上下文提供背景信息来定位任务。示例、图像和其他种子为人工智能模型提供了预期响应的感觉。背景是灵活的指导，而不是固定的规则。
参数：参数是改变人工智能处理提示方式的配置。这包括温度和top-p等影响输出创造性和随机性的设置。
输入数据：对于图像编辑等任务，提示必须包括人工智能转换的输入数据。语言模型也需要文本输入。

精心组合这些核心组件，使用户能够高效提示人工智能系统。任务和指令提供了方向，而上下文和数据为人工智能提供了所需的参考。参数微调最终输出。培养快速解剖学方面的专业知识是快速工程的关键。

提示组件中的元素

上面概述的人工智能提示的关键组成部分可以进一步分解为更细粒度的元素。每个组件都包含许多元素，这些元素有助于为人工智能系统提供一套完整详细的指令和上下文。

例如，Task组件包含以下元素：

角色-人工智能应该采用的角色
命令-指导人工智能的动作动词
主题-主题重点领域
查询-要回答的特定问题

说明书的组成部分包括：

Output—生成内容的预期属性
结构-组织形式、章节、流程
Do’s-可接受的质量和内容
注意事项-不可接受的质量和内容
要点/想法-要包括的具体概念
示例-用于说明所需输出的示例

上下文组件包括以下元素：

目标受众-内容的预期消费者
透视-要采用的观点
目的-目标和动机
补充信息-其他背景详细信息

“参数”组件包含以下设置：

温度-创造力/不可预测性水平
Length-生成的内容大小
Top-p-不可能输出的可能性
惩罚-不鼓励不需要的输出
模型-使用的AI系统

通过将提示分解为更精细的元素，用户可以精确地为人工智能系统定制指令，并实现对输出的更大控制。元素级提示工程解锁增强的提示功能。

提示食谱

提示配方是以结构化格式构建人工智能提示的预定义模板。它们提供了一个框架，将任务、指令、上下文和参数的核心组件组合成可重用的模式。

快速配方的主要好处是标准化。通过填写配方模板，用户可以快速生成具有跨用例一致性的新提示。这确保了人工智能系统结果的可靠性和一致性。

在每个配方中，某些字段都预先填充了默认设置，而其他字段则保持打开状态以进行自定义。这样，用户可以根据自己的具体需求定制提示，同时保持整个配方结构。可定制的字段可能包括特定的内容要求、目标受众、期望的音调、输出长度、创造力水平等等。

共享和协作编辑配方有助于通过迭代和测试进行优化。可以对配方进行编目和性能跟踪，以确定最佳模板。将配方分组到项目中可以围绕业务域和用例进行组织。

随着时间的推移，用户可以构建广泛的提示配方库，涵盖各种场景和应用程序。新配方可以以现有配方中的元素为基础，形成知识化合物。维护结构化的食谱允许用户自适应地结合各种技术，以突破人工智能提示的界限。

大型语言模型Agent的结构

那么，构建这些代理究竟需要什么呢？将原始语言模型转化为功能强大的自主代理需要将核心LLM与知识、内存、接口和工具的附加组件仔细集成。

虽然LLM构成了基础，但三个关键元素对于创建能够理解指令、展示有用技能并与人类协作的代理至关重要：底层LLM架构本身、有效的即时工程和代理的接口。

让我们探讨一下这些核心组件，它们将LLM从被动文本生成器升级为主动、半自主代理。了解智能体创建所涉及的成分，揭示了部署这些人工智能系统以获得现实世界援助的机会和考虑因素。我们将分解LLM到底是如何转化为LLM代理的。

LLM核心

LLM代理的基础是底层的大型语言模型本身。这种神经网络在庞大的数据集上训练，提供了基本的文本生成和理解能力。LLM的大小和架构决定了代理的基线能力和局限性。

提示配方

同样重要的是有效的提示配方来激活和指导LLM的技能。精心制作的提示为代理提供其个性、知识、行为和目标。提示配方提供了预定义的模板，结合了关键指令、上下文和参数，以一致地引发所需的代理响应。

嵌入提示中的人物角色对于会话主体采用独特的说话风格至关重要。对于面向任务的代理，提示分解目标，提供相关知识，并制定指令。

界面和交互

该接口确定用户如何向代理提供提示。命令行、图形或对话界面允许不同级别的交互。完全自主的代理可以通过API以编程方式从其他系统或代理接收提示。

界面会影响代理交互是否感觉像是来回协作，而不是自我指导的助手。平滑的界面将重点放在提示本身。

记忆力

内存提供特定于单个用户或任务的时间上下文和记录细节。代理中通常采用两种形式的内存：

短期记忆-LLM的固有上下文窗口保持对最近会话历史或最近采取的行动的认识。
长期记忆-一个与LLM配对的外部数据库，用于扩展对过去事实、对话和其他相关细节的回忆能力。长期内存为代理提供了一个持久的、累积的内存库。
内存为代理提供了时间和用户特定体验的基础。这种上下文可以个性化对话，并提高多步骤任务的一致性。

知识

记忆关注的是用户和任务的时间细节，而知识代表了适用于用户的一般专业知识。知识扩展了LLM本身在其模型参数中包含的内容。

专业知识-用针对特定主题或领域的特定领域词汇、概念和推理方法补充LLM的基础。
常识性知识-添加LLM可能缺乏的一般世界知识，如关于社会、文化、物理等的事实。
程序性知识-提供完成任务的专业知识，如工作流程、分析技术和创造性流程。

注入知识可以扩展代理所能理解和讨论的内容。即使记忆在任务中被重置或调整，知识也会保持相关性。这种组合使知识渊博的代理人能够拥有个性化的记忆。

将内存和知识实现分开，最大限度地提高了为不同需求配置代理的灵活性。代理可以将不同的知识源与随时间积累的用户特定内存存储相集成。

*保持记忆和知识在逻辑上的分离

为LLM代理实现单独的外部存储器和知识存储提供了许多好处，包括：

能够分析代理的推理技能如何随着时间的推移而演变，因为它的记忆在积累，而知识保持不变。随着时间的推移比较输出可以隔离扩展内存的影响。
允许在不丢失一般知识的情况下选择性地“闪烁”代理的内存。这对于承担之前的上下文记忆可能会引入偏见的新项目非常有用。在保留知识的同时擦除内存会使代理严格关注新的任务上下文。
通过错误提示或数据注入，保护代理经过审查的知识库不受潜在恶意内存修改的影响。独立的存储可以保持可信知识的原始性。

总的来说，将外部记忆与注入的知识脱钩可以提高LLM代理行为的灵活性、可解释性和安全性，因为它们可以处理不同的任务并构建纵向体验。体系结构分离使两个组件的效用最大化。

工具集成

代理不需要仅通过语言生成来执行操作——工具集成允许通过API和外部服务来完成任务。例如，代理可以使用代码执行工具运行提示中引用的软件例程，或者“插件”，如OpenAi的代码解释器。

总之，LLM代理将强大的核心功能与补充组件集成在一起，以展示其令人印象深刻的能力。底层的LLM提供了基本的语言技能，而提示配方则将这些能力指向目标和人物角色。界面可以实现交互，额外的记忆和知识可以提高对上下文的理解。

这些成分加在一起，使协作的、半自主的代理能够理解自然语言、推理提示、积累记忆并采取明智的行动。LLM代理已经超越了被动语言建模，成为在大量会话和面向任务领域帮助人类的有能力的合作伙伴。

然而，它们的性能和一致性最终取决于它们收到的提示的质量。随着LLM向能力越来越强的代理过渡，深思熟虑的即时工程仍然是释放LLM更大智能和有用性的关键驱动力。

LLM代理的两种主要类型

大型语言模型使新一代人工智能代理具有令人印象深刻的能力。这些基于LLM的代理可以根据其主要功能分为两种关键类型：会话代理和面向任务的代理。

虽然两者都利用了语言模型的力量，但这两种代理类型在目标、行为和提示方法方面有着重要的区别。

会话型代理专注于提供引人入胜的个性化讨论，而任务型代理则致力于完成明确的目标。

在下面的部分中，我们将探讨每种类型的LLM代理特有的特征和提示注意事项。通过了解差异，用户可以根据自己的需求选择和指导合适的代理。

1.会话主体：模拟人类对话

自然语言处理的最新进展使ChatGPT和GPT-4等人工智能系统具有非凡的会话能力。这些对话主体可以进行令人印象深刻的类似人类的对话，理解上下文并用现实的陈述做出回应。

会话代理，如合成交互式人物代理（SIPA），采用由提示定义的个性，这些提示表征了他们的语气、说话风格、观点和领域知识。这允许在用户与拟人化代理交互时进行细致入微的讨论。

Synthetic Interactive Persona Agent (SIPA)

Overcome the Challenge of Finding Research Participants with Synthetic Interactive Persona Agents.

Prompt EngineeringSunil Ramlochan

会话代理的一个主要吸引力是它们在讨论中反映人类倾向的能力。当通过即时工程制定时，代理会考虑语气、说话风格、领域知识、观点和个性怪癖等因素。这允许进行微妙的上下文交互。

在客户服务聊天机器人等应用程序中，会话代理可以利用角色提示来形成自然和富有同情心的反应。他们在语言理解和生成方面的能力使对话感觉流畅和适应性强。

会话代理也为以交互方式收集反映人类讨论的信息打开了大门。他们可以通过提示采用领域专业知识，作为知情的顾问或专家，例如在医疗或法律领域。

会话代理提供商继续增强记忆、知识集成和响应质量能力。随着时间的推移，这些人工智能系统可能有足够的能力通过扩展的图灵测试，并作为功能齐全的虚拟助理。

以语言模型为动力的会话代理标志着人机交互的重大发展。他们通过快速工程进行富有成效的个性化对话的能力，为许多行业和应用程序带来了新的可能性。

2.面向任务的Agent：目标驱动的生产力

与会话代理（如生成人工智能网络中的会话代理）不同，面向任务的人工智能代理直接专注于实现既定目标和完成工作流程。这些目标驱动的系统擅长将高级任务分解为更易于管理的子任务。

Generative AI Networks (GAINs)

GAIN is a Prompt Engineering technique to solve complex challenges beyond the capabilities of single agents.

Prompt EngineeringSunil Ramlochan

面向任务的代理利用其强大的语言建模能力来分析提示、提取关键参数、制定计划、调用API、通过集成工具执行操作，并报告结果。这使得能够自动处理多方面的目标。

快速工程为面向任务的代理提供了战略任务重新制定、链接思路、反思过去工作和迭代改进方法的技能。现代解决问题的技术也可以被编码到提示中，以加强分析和计划。

有了足够的知识和工具，面向任务的代理可以在一个及时定义的目标的驱动下半自主地发挥作用。他们的工作可以由人类合作者异步审查。

面向任务的代理组也可以通过集中提示界面进行协调。这使得人工智能代理团队能够实现广泛的目标，每个团队都具有互补的能力。代理人处理不同的子任务，同时一致地朝着总体目标工作。

未来，企业级任务自动化和增强将越来越多地利用以目标为中心的代理。它们专门的提示使代理不仅能够理解自然语言提示，而且能够根据它们采取行动来推动进步和生产力。

LLM代理的自主性是什么？

对于LLM代理来说，要展示有意义的自主权，它不能仅仅孤立地响应单个提示——它必须在正在进行的过程中不断得到指导。这就提出了一个问题：是什么提供了这种持续的激励，使自治行为得以实现？

当前LLM的一个关键限制是，它们不能独立地执行递归自循环来递归地提示自己。LLM不可能在没有外部干预的情况下固有地质疑自己的输出并重新提示自己。

真正的自主性需要一个外部系统来审查代理人的回应，在需要时提供指导和更正，并根据上下文提供后续提示。这个自动提示系统充当主管，管理代理人正在进行的学习和改进。

在大多数情况下，这个主管系统是另一个人工智能代理，通常是LLM本身。两个代理协同工作——一个生成响应，另一个根据需要审查并重新提示第一个代理。多智能体交互创建训练循环，从而发展自主技能。

主管代理检查生成的代理的工作，提供后续提示和说明，并提供交互式反馈。这种通过API介导的耦合提示关系，支持生成的智能体从狭义能力向一般智能的发展。

从本质上讲，自主性产生于激励生态系统中各主体之间的相互作用。自主技能是通过一位专门的监督代理人的持续提示来培养的，该代理人提供指导、纠正和不断增加的挑战。持续不断的激励开启了推理、有效性和自我导向决心的增长。

基于代理的方法的好处

使用人工智能系统作为由语言模型提供动力的交互式半自治代理提供了一系列优势：

安全性-代理可以通过安全的API进行容器化和连接，以限制风险。他们的互动受到监控和审查。
模块化-可以根据需要组装和协调具有不同功能的代理。添加或交换代理非常简单。
灵活性-代理角色和行为通过提示进行引导，允许动态配置。
自动化-与更严格的人工智能系统相比，代理需要更少的持续人工监督。
专业化-代理商可以根据重点提示策略在特定领域建立深厚的专业知识。
质量-监控代理对话可以不断改进提示，以提高准确性和相关性。
隐私-当代理对衍生品进行操作时，敏感的用户数据可以保持分区。

总的来说，基于代理的范式在人类控制和人工智能自主之间提供了一个最佳点。代理与人工提示协作，通过迭代进行改进。将人工智能助理构建为目标驱动的代理可以带来许多好处。

关键点

大型语言模型正从被动文本生成器迅速演变为多功能、半自主和自主的代理。仔细的即时工程激活了LLM核心的对话和任务驱动能力。知识库、工具集成和内存等补充组件使代理能够展示扩展的推理和专业知识。

会话代理可以通过个性化对话和特定领域的建议来吸引用户。面向任务的代理将他们的技能用于执行工作流和目标。LLM代理经过适当的架构设计，提供了灵活的智能，可以在广泛的应用程序中与人类进行协作。

然而，他们的最终潜力仍然与他们收到的提示的质量有关。发展快速工程的艺术和科学是安全有效地指导这些系统的关键。随着提示的改进，LLM代理的能力也将得到提高，从而开启人工智能辅助的新领域。

原文地址

https://promptengineering.org/what-are-large-language-model-llm-agents/

本文地址

https://architect.pub/what-are-large-language-model-llm-agents-and-autonomous-agents