【人工智能治理】NIST值得信赖和负责任的人工智能：人工智能风险和可信度

语言 Chinese, Simplified

SEO Title

NIST Trustworthy & Responsible AI ：AI Risks and Trustworthiness

为了让人工智能系统值得信赖，它们通常需要对对对相关方有价值的多种标准做出反应。提高人工智能可信度的方法可以降低人工智能的负面风险。该框架阐明了值得信赖的人工智能的以下特征，并为解决这些特征提供了指导。值得信赖的人工智能系统的特征包括：有效可靠、安全、有保障和弹性、负责透明、可解释和可解释、增强隐私、公平并管理有害偏见。创造值得信赖的人工智能需要根据人工智能系统的使用环境来平衡这些特征中的每一个。虽然所有特征都是社会技术系统属性，但问责制和透明度也与人工智能系统内部及其外部环境的流程和活动有关。忽视这些特征会增加负面后果的可能性和程度。

Figure 4: Characteristics of trustworthy AI systems. Valid & Reliable is a necessary condition of trustworthiness and is shown as the base for other trustworthiness characteristics. Accountable & Transparent is shown as a vertical box because it relates to all other characteristics.

可信度特征（如上图4所示）与社会和组织行为、人工智能系统使用的数据集、人工智能模型和算法的选择以及构建者所做的决策，以及与提供此类系统洞察力和监督的人类的互动密不可分。在决定与人工智能可信度特征相关的具体指标以及这些指标的精确阈值时，应采用人工判断。

单独处理人工智能可信度特征并不能确保人工智能系统的可信度；通常会涉及权衡，很少所有特征都适用于每个环境，有些特征在任何特定情况下或多或少都很重要。归根结底，可信度是一个社会概念，它涵盖了各个领域，只有其最弱的特征才是强大的。

在管理人工智能风险时，组织在平衡这些特征时可能会面临艰难的决策。例如，在某些情况下，在优化可解释性和实现隐私之间可能会出现权衡。在其他情况下，组织可能面临预测准确性和可解释性之间的权衡。或者，在数据稀疏等特定条件下，隐私增强技术可能会导致准确性损失，影响某些领域中关于公平性和其他价值观的决策。处理权衡需要考虑决策背景。这些分析可以强调不同措施之间权衡的存在和程度，但它们并没有回答如何进行权衡的问题。这些问题取决于相关背景下的价值观，应以透明和合理的方式加以解决。

在人工智能生命周期中，有多种方法可以增强上下文意识。例如，主题专家可以协助评估TEVV发现，并与产品和部署团队合作，使TEVV参数与需求和部署条件相一致。如果资源充足，在整个人工智能生命周期中增加相关方和相关人工智能参与者的投入的广度和多样性，可以增加为上下文敏感的评估提供信息的机会，并确定人工智能系统的好处和积极影响。这些做法可以增加在社会环境中出现的风险得到适当管理的可能性。

对可信度特征的理解和处理取决于人工智能参与者在人工智能生命周期中的特定角色。对于任何给定的人工智能系统，人工智能设计者或开发人员对特性的感知可能与部署者不同。

本文件中解释的可信度特征相互影响。高度安全但不公平的系统，准确但不透明且无法解释的系统，以及不准确但安全、隐私增强且透明的系统都是不可取的。风险管理的综合方法要求在可信度特征之间进行权衡。所有人工智能参与者共同负责确定人工智能技术对于特定的背景或目的是否是合适或必要的工具，以及如何负责任地使用它。委托或部署人工智能系统的决定应基于对可信度特征和相对风险、影响、成本和收益的上下文评估，并由广泛的利益相关方提供信息。

3.1有效可靠

验证是“通过提供客观证据，确认特定预期用途或应用的要求已得到满足”（来源：iso 9000:2015）。人工智能系统的部署不准确、不可靠，或对其训练之外的数据和设置概括不力，会产生并增加人工智能的负面风险，降低可信度。

可靠性在同一标准中被定义为“项目在给定条件下，在给定时间间隔内按要求执行而不发生故障的能力”（来源：iso/iec ts 5723:2022）。可靠性是人工智能系统在预期使用条件下和给定时间段（包括系统的整个寿命）内运行的总体正确性的目标。

准确性和稳健性有助于人工智能系统的有效性和可信度，并且在人工智能系统中可能相互紧张。

iso/iec ts 5723:2022将准确度定义为“观测、计算或估计结果与真实值或被接受为真实值的接近度”。准确度的测量应考虑以计算为中心的测量（如假阳性率和假阴性率）、人工智能团队，并证明外部有效性（可在训练条件之外推广）。准确度测量应始终与明确定义和现实的测试集（代表预期使用条件）以及测试方法的细节相结合；这些应包含在相关文档中。精度测量可能包括对不同数据段的结果进行分解。

稳健性或可推广性被定义为“系统在各种情况下保持其性能水平的能力”（来源：iso/iec ts 5723:2022）。鲁棒性是在广泛的条件和情况下实现适当系统功能的目标，包括最初未预期的人工智能系统的使用。鲁棒性不仅要求系统在预期用途下的性能与预期性能完全一致，而且还要求系统在意外环境中运行时，其性能应最大限度地减少对人员的潜在危害。

部署的人工智能系统的有效性和可靠性通常通过持续的测试或监测来评估，以确认系统是否按预期运行。有效性、准确性、稳健性和可靠性的测量有助于提高可信度，并应考虑到某些类型的故障可能造成更大的危害。人工智能风险管理工作应优先考虑将潜在的负面影响降至最低，并可能需要在人工智能系统无法检测或纠正错误的情况下包括人工干预。

3.2安全(safety)

人工智能系统不应“在特定条件下导致人类生命、健康、财产或环境受到威胁”（来源：iso/iec ts 5723:2022）。人工智能系统的安全运行通过以下方式得到改善：

负责任的设计、开发和部署实践；
向部署人员提供关于负责任地使用该系统的明确信息；
部署人员和最终用户负责任的决策；和
基于事件经验证据的风险解释和文件记录。

不同类型的安全风险可能需要根据背景和潜在风险的严重程度量身定制的人工智能风险管理方法。构成严重伤害或死亡潜在风险的安全风险需要最紧迫的优先顺序和最彻底的风险管理流程。

在生命周期中采用安全考虑因素，并尽早开始规划和设计，可以防止可能导致系统危险的故障或情况。人工智能安全的其他实用方法通常涉及严格的模拟和领域内测试、实时监控，以及关闭、修改或让人工干预偏离预期或预期功能的系统的能力。

人工智能安全风险管理方法应借鉴交通和医疗保健等领域的安全努力和指南，并与现有的行业或应用特定的指南或标准保持一致。

3.3安全且有弹性

如果人工智能系统及其部署的生态系统能够承受环境或使用中的意外不利事件或意外变化，或者在面对内部和外部变化时能够保持其功能和结构，并在必要时安全优雅地退化，则可以说它们是有弹性的（改编自：iso/iec ts 5723:2022）。常见的安全问题涉及对抗性示例、数据中毒以及通过人工智能系统端点过滤模型、训练数据或其他知识产权。人工智能系统可以通过防止未经授权的访问和使用的保护机制来保持机密性、完整性和可用性，可以说是安全的。NIST网络安全框架和风险管理框架中的指南在此适用。

安全性和复原力是相关但不同的特征。虽然弹性是指在发生意外不良事件后恢复正常功能的能力，但安全性包括弹性，但也包括避免、保护、响应或从攻击中恢复的协议。弹性与稳健性有关，并超越了数据的来源，涵盖了对模型或数据的意外或对抗性使用（或滥用或误用）。

3.4负责且透明

值得信赖的人工智能依赖于问责制。问责制以透明度为前提。透明度反映了与人工智能系统交互的个人可以在多大程度上获得有关人工智能系统及其输出的信息，无论他们是否意识到自己在这样做。有意义的透明度提供了基于人工智能生命周期阶段的适当级别的信息访问，并根据人工智能参与者或与人工智能系统交互或使用人工智能系统的个人的角色或知识进行定制。通过促进更高水平的理解，透明度增加了人们对人工智能系统的信心。

该特性的范围从设计决策和训练数据到模型训练、模型的结构、其预期用例，以及部署、部署后或最终用户决策的方式和时间以及由谁做出。对于与人工智能系统输出不正确或以其他方式导致负面影响有关的可采取行动的补救措施，透明度往往是必要的。透明度应考虑人类与人工智能的互动：例如，当检测到人工智能系统造成的潜在或实际不利结果时，如何通知人类操作员或用户。透明的系统不一定是准确的、增强隐私的、安全的或公平的系统。然而，很难确定不透明的系统是否具有这些特征，也很难随着复杂系统的发展而确定。

在寻求对人工智能系统的结果负责时，应考虑人工智能参与者的作用。与人工智能和技术系统相关的风险和问责制之间的关系在文化、法律、部门和社会背景下有着更广泛的差异。当后果严重时，例如当生命和自由受到威胁时，人工智能开发人员和部署人员应考虑按比例主动调整其透明度和问责制做法。维护减少伤害的组织实践和治理结构，如风险管理，有助于建立更负责任的系统。

加强透明度和问责制的措施还应考虑到这些努力对执行实体的影响，包括必要的资源水平和保护专有信息的必要性。

维护训练数据的来源并支持将人工智能系统的决策归因于训练数据的子集，有助于提高透明度和问责制。培训数据也可能受到版权保护，并应遵守适用的知识产权法。

随着人工智能系统的透明度工具和相关文档的不断发展，鼓励人工智能系统开发人员与人工智能部署人员合作测试不同类型的透明度工具，以确保人工智能系统按预期使用。

3.5可解释（Explainable）和可解释（Interpretable）

可解释性是指人工智能系统运行的基本机制的表示，而可解释性则是指在其设计的功能目的的背景下人工智能系统输出的含义。可解释性和可解释性共同帮助操作或监督人工智能系统的人员以及人工智能系统用户更深入地了解系统的功能和可信度，包括其输出。潜在的假设是，对负面风险的感知源于缺乏适当理解或情境化系统输出的能力。可解释和可解释的人工智能系统提供的信息将帮助最终用户了解人工智能系统的目的和潜在影响。

缺乏可解释性的风险可以通过描述人工智能系统的功能来管理，并根据用户的角色、知识和技能水平等个人差异进行描述。可以更容易地调试和监控可解释的系统，并且它们有助于更彻底的文档、审计和治理。

可解释性的风险通常可以通过传达人工智能系统为什么做出特定预测或建议的描述来解决。（请参阅此处的“可解释人工智能的四个原则”和“人工智能中可解释性和可解释性的心理基础”。）

透明性、可解释性和可解释性是相互支持的不同特征。透明度可以回答系统中“发生了什么”的问题。可解释性可以回答系统中“如何”做出决策的问题。可解释性可以回答系统做出决定的“原因”及其对用户的意义或上下文的问题。

3.6隐私增强

隐私通常是指有助于维护人类自主性、身份和尊严的规范和做法。这些规范和做法通常涉及免于入侵、限制观察或个人同意披露或控制其身份各方面（如身体、数据、声誉）的自由。NIST隐私框架：通过企业风险管理改善隐私的工具

匿名、保密和控制等隐私价值观通常应指导人工智能系统设计、开发和部署的选择。与隐私相关的风险可能会影响安全性、偏见和透明度，并与这些其他特征进行权衡。与安全和安保一样，人工智能系统的特定技术特征可能会促进或减少隐私。人工智能系统还可以通过允许推断来识别个人或以前关于个人的私人信息，从而给隐私带来新的风险。

人工智能的隐私增强技术（“PET”），以及某些模型输出的去识别和聚合等数据最小化方法，可以支持隐私增强人工智能系统的设计。在某些条件下，如数据稀疏性，隐私增强技术可能会导致准确性的损失，影响某些领域中关于公平性和其他价值的决策。

3.7公平——管理有害偏见

人工智能中的公平包括通过解决有害的偏见和歧视等问题来关注平等和公平。公平的标准可能很复杂，很难定义，因为不同文化对公平的看法不同，而且可能会根据应用而变化。各组织的风险管理工作将通过认识和考虑这些差异而得到加强。减少有害偏见的制度不一定是公平的。例如，残疾人或受数字鸿沟影响的人可能仍然无法使用预测在不同人口群体中有所平衡的系统，或者可能加剧现有的差异或系统性偏见。

偏见比人口平衡和数据代表性更广泛。NIST确定了需要考虑和管理的三大类人工智能偏见：系统性、计算和统计性以及人类认知性。每一种情况都可能发生在没有偏见、偏袒或歧视意图的情况下。系统偏见可能存在于人工智能数据集、整个人工智能生命周期的组织规范、实践和流程，以及使用人工智能系统的更广泛社会中。计算和统计偏差可能存在于人工智能数据集和算法过程中，通常源于非代表性样本造成的系统误差。人类的认知偏见与个人或群体如何感知人工智能系统信息以做出决定或填写缺失信息有关，也与人类如何思考人工智能系统的目的和功能有关。人类的认知偏见在人工智能生命周期和系统使用的决策过程中无处不在，包括人工智能的设计、实施、运营和维护。

偏见以多种形式存在，并可能在帮助我们做出生活决策的自动化系统中根深蒂固。虽然偏见并不总是一种负面现象，但人工智能系统可能会增加偏见的速度和规模，并使对个人、团体、社区、组织和社会的伤害永久化和扩大。偏见与社会中的透明度和公平性概念密切相关。（有关偏见的更多信息，包括三类，请参阅NIST特别出版物1270，《建立人工智能中识别和管理偏见的标准》。）

原文地址

https://airc.nist.gov/AI_RMF_Knowledge_Base/AI_RMF/Foundational_Information/3-sec-characteristics

本文地址

https://architect.pub/nist-trustworthy-responsible-ai-ai-risks-and-trustworthiness