阿里巴巴&达摩院：2023生成式人工智能治理与实践白皮书（96页）.pdf

《阿里巴巴&达摩院：2023生成式人工智能治理与实践白皮书（96页）.pdf》由会员分享，可在线阅读，更多相关《阿里巴巴&达摩院：2023生成式人工智能治理与实践白皮书（96页）.pdf（96页珍藏版）》请在本站上搜索。

1、4生成式人工智能治理与实践白皮书56生成式人工智能治理与实践白皮书生成式人工智能治理与实践白皮书编写单位指导委员会钱磊欧阳欣朱红儒安筱鹏范科峰董建闻佳郑俊芳孙文龙吴泽明阿里巴巴集团安全部总裁阿里云智能集团首席安全官阿里云智能集团标准化业务副总裁阿里云研究院院长中国电子技术标准化研究院信息技术研究中心主任中国电子技术标准化研究院信息技术研究中心副主任阿里巴巴集团公共事务总裁阿里云智能集团首席风险官兼首席财务官中国电子技术标准化研究院副院长阿里巴巴集团首席技术官阿里巴巴集团中国电子技术标准化研究院阿里云智能集团达摩院专家委员会编写组主要成员陈岳峰傅宏宇彭骏涛杨易侗马宇

2、诗朱琳洁李金纯杜东为杨雨泽肖哲晖蒋哲琪毛潇锋黄龙涛郎一宁李进锋徐国海司靖辉沈晖安勍特别鸣谢李晓军王鹏贾一君叶珩孙宁成晨 7编写组组长编写组副组长关于我们编写单位张荣阿里云智能集团算法安全负责人袁媛阿里研究院执行副院长李娅莉阿里巴巴达摩院安全与法务负责人薛晖阿里巴巴人工智能治理与可持续发展研究中心主任徐洋中国电子技术标准化研究院人工智能研究室主任阿里巴巴人工智能治理与可持续发展研究中心（AAIG）是阿里巴巴集团旗下的人工智能顶级研发团队，致力于利用 AI 技术解决安全风险问题，并推动 AI 技术迈向更加可用、可靠、可信和可控。团队成员百余名，学术研究能力和工程

3、实践能力兼备，在计算机视觉、自然语言理解、数据挖掘与网络安全等领域的国际顶级会议和期刊上发表论文 100 多篇，多次在国际国内知名赛事中取得冠军，获授权国际国内专利 60 余项，申请中专利达到 200 多项，参与多项技术标准的制定。AAIG 贯彻“科技创新是最好的网络安全”的理念，所研发的人工智能产品涵盖内容安全、业务风控、数字安防、数据安全与算法安全等多个领域，为集团在全球的千万商家和十亿消费者提供安全保障，并通过技术服务方式赋能阿里云上一万多家中小企业构筑安全防线。联系我们aaiglist.alibaba-8生成式人工智能治理与实践白皮书一.生成式人工智能的发展以及担忧1.生成式人工智能

4、的技术与应用突破141.1 文生文突飞猛进141.2 文生图效果惊艳151.3 行业应用广泛161.4 使用门槛降低182.生成式人工智能的内生问题与社会担忧202.1 个人信息的实时交互担忧202.2 内容安全的源头敏捷控制212.3 模型安全的全生命周期内控222.4 知识产权的溯源与权属挑战22二.生成式人工智能的治理愿景和框架1.国际社会治理特点261.1 治理目标：坚持促发展与重监管并行261.2 治理模式：强调多元主体协同共治261.3 治理手段：创设例外保留创新空间271.4 治理细则：技术规范逐渐明晰272.我国的治理特点282.1 促进发展：对人工智能发展给予更多政策支持，配

5、套发布一系列产业政策文件282.2 重视治理：确定了现阶段算法治理的重点场景，推动建立算法治理的“法治之网”282.3 伦理约束：加强科技伦理治理顶层设计，明确人工智能伦理原则及治理要求283.本书观点：发展多主体协同敏捷治理体系，构建全生命周期风险分类治理框架30目录9三.生成式人工智能风险产生原因的分析1.综述：构建生成式大模型的条件341.1 算力341.2 数据341.3 算法351.4 生态351.5 人才352.语言大模型362.1Transformer 网络362.2 训练过程和使用的数据362.3 语言大模型的生成过程392.4小结：语言大模型的风险来源403.视觉大模型413

6、.1 模型原理413.2训练过程423.3 生成过程443.4小结:视觉大模型的风险来源45四.生成式人工智能风险治理实践和探索1.生成式人工智能治理格局建设481.1 以针对性立法回应技术发展与产业需求481.2 以政策完善构建与技术发展需求相匹配的治理机制481.3 产业自律自治筑成负责任创新治理机制492.生成式人工智能不同环节的风险治理 512.1 模型训练阶段的风险治理522.2 服务上线阶段的风险治理532.3 内容生成阶段的风险治理532.4 内容传播阶段的风险治理543.个人信息合规563.1 大模型与个人信息的关系563.2 训练数据中的个人信息563.3 算法服务时拒绝生成

7、个人信息5810生成式人工智能治理与实践白皮书4.内容安全保障594.1 内容安全视角里，AIGC 与 UGC 的异同594.2 生成式模型风险评测604.3 模型层内生安全614.4 应用层安全机制624.5 生成信息的信任机制635.模型安全防控685.1鲁棒性685.2 可解释性685.3 公平性685.4 防滥用机制695.5 实践案例：鲁棒评估基准与增强框架696.知识产权探索736.1训练数据的知识产权合法性治理探索736.2 生成物知识产权治理探索747.实践案例:虚拟模特塔玑757.1虚拟模特塔玑促进生产力提升757.2 数据驱动下的虚拟模特与个人信息保护767.3 内容安全保

8、障767.4 模型安全控制777.5 生成式标识与知识产权保护7711五.生成式人工智能多主体协同敏捷治理体系1.敏捷治理的理念与特点802.多主体协同下的敏捷治理探索与实践 812.1 政府规范引导822.2 产业守正创新822.3 社会监督理解84六.总结与展望（88）专有名词解释（92）12生成式人工智能治理与实践白皮书13一.生成式人工智能的发展以及担忧14生成式人工智能治理与实践白皮书1.1 文生文突飞猛进2022 年 11 月 30 日，OpenAI 发布了对话式通用人工智能服务 ChatGPT。仅推出 5 天，用户数就超过 100 万；上线两个月后，用户数突破 1 亿，成为 AI

9、界的顶流。ChatGPT 能遵循人类指令完成各种认知型任务，包括交互对话、文本生成、实体提取、情感分析、机器翻译、智能问答、代码生成、代码纠错等，并且展现出了和人类近似的水平。2023 年 3 月 15 日，GPT-4 发布，在知识推理以及在逻辑运算方面有大幅提升，还支持多模态输入，进一步扩展了应用场景。ChatGPT 成功背后的技术突破主要有以下三个方面：（1）超大规模参数的预训练语言模型为了使模型具备通用的能力，必须学习到世界知识，这要求模型具有足够大的参数量来存储海量的世界知识。GPT-3.5 的模型参数已经达到 1750 亿的规模。随着模型参数量的扩大，语言模型还出现能力涌现的现象，

10、例如上下文学习（In-context Learning），以及思维链（Chain Of Thought）等推理能力。（2）多任务的自然语言预训练模型自然语言处理任务包括问答、机器翻译、阅读理解、摘要、实体抽取等，之前的学术研究都在特定的任务下进行针对性的算法设计，迁移性差。而 ChatGPT 采用了多任务预训练的方式，不同任务共享模型参数。这使得模型具有通用能力，下游任务不再需要微调，直接通过提示学习或者零样本学习就具有很强的性能。（3）基于人工反馈机制的强化学习OpenAI 通过引入指令微调以及基于强化学习的微调技术，提升模型和人类的价值观对齐。具体来看，指令微调技术使语言模型得以支持用户以

11、人类惯常的沟通方式，与模型进行互动并推动模型能力的提升。同时，通过人工反馈和标注数据，借助强化学习进行微调，从而确保模型具备正确的价值观。在应用上，语言大模型构建了“多场景、低门槛、高效率”的共创应用新模式，具有丰富的应用场景，在医疗、教育、零售、媒体等行业完成产品落地应用。根据全球管理咨询公司麦肯锡（McKinsey）的报告，生成式人1.生成式人工智能的技术与应用突破15工智能的新兴主导地位为新一轮经济革命奠定了基础，估算每年能为全球经济增加 4.4 万亿美元收入。1.2 文生图效果惊艳2022 年 2 月，开源工具 AI 绘画工具 Disco Diffusion 发布，这是一个在Googl

12、e Colab 上运行的代码，其原理是使用了 CLIP-Guided Diffusion，只需要输入文本提示，就能生成对应的图片。同年 4 月，OpenAI 发布了Dall-E2，能够生成更高分辨率和真实性的图像。同时，AI 绘画工具 Midjourney 发布。Google 在 5 月、6 月分别发布 AI 作画的技术，Imagen 和 Parti。7 月份，Stability AI 在 LAION 5B 开源数据集上训练了文生图扩散模型 Stable Diffusion，生成的图像形象逼真，画质细腻。技术的开源，极大地推动了图像生成领域的发展。2022年8月，在美国科罗拉多州举办的新兴数字

13、艺术家竞赛中，参赛者提交了使用模型生成的绘画作品太空歌剧院，获得了“数字艺术/数字修饰照片”类别一等奖。参赛者并没有绘画基础，通过 AI 绘图软件 MidJourney 耗时 80 个小时创作了该作品。这意味着 AI 绘画的质量已经达到了专业水平。进入到 2023 年，AI 绘画继续井喷式发展。2023 年 3 月，百度发布的文心一言支持了文本生成图像，Adobe也发布了 AI 工具 Firefly。也是在 3 月，MidJourney V5 发布，生成质量更高，而且支持自然语言的描述输入，使得 AI 绘画的门槛进一步降低。阿里巴巴于 7 月推出了新的绘画 AI“通义万相”。科大讯飞、商汤、华

14、为等人工智能企业也陆续推出文生图大模型产品，国内呈现“百模大战”的竞争格局。AI 绘画的技术突破式发展依赖以下 3 个技术的积累和突破：（1）在生成式模型方面，扩散模型的提出使得图像生成技术在基础理论上取得了突破。扩散模型（Diffusion Models）相比生成对抗网络（GAN）和变分自编码器（VAE），具有训练更加稳定，采样过程可控，生成的样本质量更好等优点。（2）在图文对齐模型上，OpenAI 的 CLIP 模型的提出为文本和图像两个模态构建了桥梁，奠定了文本生成图片的技术基座。（3）VVQGAN，VQVAE 这类视觉量化生成模型，可以将图像压缩到量化的隐空间，从而为高效的隐空间扩散模

15、型训练提供了基础。16生成式人工智能治理与实践白皮书此外，可以通过微调开源的 Stable Diffusion 模型来开发定制化的 AI 绘画模型，这使得 AI 绘画模型出现了百花齐放的现象。同时，AI 绘画的技术也通过引入更多的其他信息辅助生成想要的图片，使得结果更加可控。例如近期的ControlNet，通过引入另外一个图片作为条件信息，控制文本生成的图片的风格，进一步提升了可用性。文生图在多个行业上具有广泛的应用前景，例如在广告行业，AI 制作宣传海报；在设计行业，AI 辅助艺术创作、服装设计等；在电商行业，有虚拟模特、虚拟试衣等应用场景。另外，文生图在游戏和漫画等行业的应用也会加速内容制

16、作的速度。1.3 行业应用广泛语言大模型、视觉大模型等通用大模型就像一个高中生，具有了基础的逻辑、认知、知识处理等通用能力；随着行业、产业对智能化需求的升级，不少领域已经开始对通用大模型这位“高中生”进行进一步的专业学习和训练，让其成为行业领域的专家，提供专业领域的咨询、工作内容的行业大模型。相较于通用大模型，行业大模型具有定制化、易部署、可微调、强安全等特点，能够有效适用于具体应用场景，更准确解决专业领域问题，提升行业效能。目前，部分行业大模型已经在电力、交通、金融、能源、民生服务、互联网等行业的智能化中崭露头角。例如，智能办公提效需求强烈，也是 AI 大模型赋能优先级最高的场景之一。以企业

17、协同工具钉钉为例，2023年 4 月正式接入通义千问大模型后，群聊、文档、视频会议及应用开发的智能化场景作为首发，通过输入“/”魔法棒可以唤起 10 余项 AI 能力，智能化程度显著提升，减少了人工重复操作成本，升级成为智能协同办公平台+智能应用开发平台。1718生成式人工智能治理与实践白皮书大模型在医疗领域有广泛的应用，在患教助手、问诊在线值班医生、医疗随访、临床辅助决策和过程质控、影像助手、临床科研助理、药物研发数据洞察、医疗保险助手等场景都可以发挥巨大作用。阿里健康基于以上场景，致力于研发“先进且可靠”的垂直领域大模型，通过使用万级的书籍文献，并结合专家经验，通过专家审核，构建了十万级疾

18、病词条和百万级医患问答、百万级别医学术语集、全病种疾病及合理用药知识图谱，在各类平台及各级医疗机构的信息集成、专业语言理解及归纳总结等方面实现了突破，目前已达到一对一个性化咨询服务、提升愈后跟踪性研究效率等成效。1.4 使用门槛降低1.4.1 生成式人工智能大模型相关的软件供应链不断完善越来越多的应用开发者希望集成语言大模型(LLM)，提供更智能化的服务，LangChain 应运而生。LangChain 是一个强大的框架，旨在帮助开发人员使用 LLM 构建端到端的应用程序，提供了一套工具、组件和接口，可简化创建由 LLM 提供支持的应用程序的开发过程。同样地，在视觉大模型领域开源了基于 Sta

19、ble Diffusion 的 AI 绘画图形化 Stable Diffusion WebUI，支持多系统且具有很好的扩充性，非专业人员也能通过页面交互使用文生图大模型进行图像生成。这使得视觉生成模型被开发者集成和使用的难度大幅降低。19综上所述，生成式人工智能大模型相关的基础软件设施也在不断完善，使得基于大模型的应用开发也更加便捷、成本更低。1.4.2 开源共享平台降低了大模型的训练和使用门槛 Hugging Face，业界最大的开源模型平台，大模型的使用更加简单。Hugging Face 是一个开源的自然语言处理 AI 工具平台，其在 github 上开源的 Transformers 库以

20、及 Diffusers库，已经成为生成式人工智能领域最受欢迎的开源库。除了开源代码，Hugging Face 上还有大量的开源模型，例如知名的 LLama 系列、Stable Diffusion 等，目前已经共享了超过 10 万个预训练模型，1 万个数据集，成为机器学习界最大的开源共享平台。CivitAI Stable Diffusion 模型社区，丰富 Stable Diffusion 模型库。Civitai 是基于 Stable Diffusion 的模型共享社区网站，汇集了 1000 多个不同风格、不同主题的模型。用户可以上传自己基于 Stable Diffusion 微调的模型，也可以

21、下载其他用户共享的模型，直接进行图像生成。这使得开发者不用训练就能根据自己的喜好获得模型，大幅降低了使用成本。云计算助力生成式人工智能，MaaS 的服务方式逐渐成形。生成式人工智能的发展推动了云计算和人工智能的高度融合，全面智能化时代正在加速到来。云计算的服务模式将从以往的 IaaS，PaaS，SaaS 发展为 Maas。逐渐形成了以模型为中心，以模型为服务，以模型为核心的AI 开发新范式。20生成式人工智能治理与实践白皮书以 ChatGPT 为首的生成式人工智能，在多种感知和认知任务上表现出与以往人工智能截然不同的能力，使人工智能产品和服务的个性化、定制化能力高度提升，给公众带来诸多工作便利

22、和生活娱乐，表现出强大的归纳总结能力和强大的创造力，并且随着技术水平不断发展，生成式人工智能的潜力将进一步被激发，广泛赋能各垂直领域，与人类社会深度融合。但是，新技术往往是一把双刃剑，生成式人工智能也不例外，其对社会的深刻影响将强化和放大各类治理风险。围绕内容安全、个人信息保护能力、模型安全、知识产权权属等问题，社会各界表现出不同程度的担忧。2.1 个人信息的实时交互担忧生成式人工智能的训练与使用均依赖于数据，目前已成为个人信息保护监管领域的高度关注对象。一方面，真实个人信息作为训练数据可以使生成式人工智能产品与服务更加个性化、定制化。另一方面，个人信息参与到生成式人工智能的训练或使用，如未进

23、行匿名化处理有潜在暴露特定个人信息的风险。生成式人工智能技术、产品与服务所涉及的个人信息问题，既需要考虑训练数据中的个人信息，也需要考虑服担忧2.生成式人工智能的内生问题与社会21务过程中实时交互中个人信息的输入与输出问题。一般来说，在模型训练阶段，使用的数据中是否可以包含个人信息、可以包含的个人信息类型与程度如何、个人信息的来源如何、用户输入个人信息是否可以跨境等问题，可以在数据集投入模型训练前通过用户授权、数据清洗、去标识化、匿名化、出境安全评估等方式解决。在服务阶段，生成式人工智能的实时交互的特点几乎没有给常用的“机审+人审”方式留下任何机会。各界需要在新的技术背景下重新思考和审视个人信

24、息问题，尤其是实时交互中的个人信息是否可以收集、如何收集、是否需要单独提示、收集的信息应当如何使用，以及模型的生成内容是否可以呈现个人信息等问题。2.2 内容安全的源头敏捷控制生成式人工智能的内容安全广义上包括输出内容的社会安全性，是否合法合规、遵守道德伦理和公序良俗等，具体表现在违法不良信息、内容失实、偏见歧视、违反伦理道德等方面。生成内容的安全性是公众选择使用相关产品和服务的重要影响因素之一，也是全球人工智能监管的重要事项。对用户而言，便捷高效地得到文本、图片、音视频、代码等内容是使用生成式人工智能技术的主要用途，生成的内容越是接近或超过一般人类的创作能力，往往越能获得用户的青睐。然而，语

25、言风格越接近人类、合成的音视频越逼真，用户越是难以鉴别其中的真假。一旦训练数据遭受偏见、错误、不良等信息毒害，亦或模型存在缺陷，生成内容很可能是错误甚至是具有社会危害性的。特别是受知识储备、数字技能、社会环境等因素限制，公众难以察觉专业性强和陌生领域的错误。如果公众依赖生成内容做决策，在金融交易、投资规划、医疗诊断等高风险领域，容易产生连锁安全事件。从治理角度来看，对服务提供者来说，与以往的互联网信息发布相比，生成式人工智能的内容输出更快速，几秒钟就生成大段文字，其中可能含有误导性内容，大幅提升了对互联网信息的污染速度，显著提高了治理难度。如果每一条输出内容都进行人工审查，人力成本大幅上升而用

26、户体验严重受损，不具有可行性，这成为内容安全保障的难点。同时，由于现阶段生成式人工智能服务通常无法提供准确的依据和来源，相关生成内容无法鉴伪，风险也无法被有效定位溯源。由此可知，生成式人工智能如果训练不当、使用不当，可能造成虚假信息与违法不良信息的传播，甚至成为诈骗分子的非法牟利工具，因此，从训练数据和算法源头上控制内容安全、管理用户的输入和对生成结果的使用，成为降低生成式人工智能风险的重要切入点。22生成式人工智能治理与实践白皮书2.3 模型安全的全生命周期内控模型安全指生成式模型自身的、内在的安全，主要包括两方面内涵：一方面是传统软件和信息技术安全问题，如后门漏洞、数据窃取、逆向工程等；另

27、一方面是人工智能技术的“黑盒模型”特点所带来的新安全问题，例如公平性、鲁棒性、可解释性等。生成式人工智能模型安全包含数据集、模型等要素，涉及训练、测试、验证等多个环节，是一项复杂命题。模型安全挑战可能带来广泛和复杂的后果。目前，生成式大模型在人工智能系统中的作用将类似于操作系统在传统软件系统中的作用，由于其普遍性和规模性，生成式大模型可能会成为单一故障点和攻击隐患点，从而成为针对源自该模型的应用程序的攻击的主要目标。作为大规模应用或产品的核心组成部分，大模型必须建立完善的安全防御机制。总之，生成式模型存在的各类安全风险会给社会与企业带来不可忽视的影响。这需要通过技术手段加以防范与解决，在全生命

28、周期内融入必要的安全机制，加强内在安全能力，避免由系统功能性故障导致不可接受的风险，构建全面的安全管理体系。2.4 知识产权的溯源与权属挑战全球范围看，知识产权的主要权利形式是著作权、商标权和专利权。从工作原理来看，生成式人工智能以各类作品、科技成果、程序、标识、设计等人类智力成果为重要“养料”，可能触及的知识产权侵权问题较多；又以各类图片、文字、代码等内容为“果实”，生成物能否成为知识产权的保护对象是核心关注点。因此，知识产权保护与风险防范是生成式人工智能研发、使用与推广各个环节都无法回避的问题。训练阶段，数据集可能包括他人作品、商标、技术成果。日前，Getty Image 起诉 Stabi

29、lity AI，主张 Stability AI 侵犯了其数百万张图片版权，AI 绘画工具 Stable Difussion 陷入 AIGC 时代版权纠纷，成为业内第一案，引发生成式人工智能行业的高度警惕与担忧。训练数据很多是通过爬虫方式在互联网环境中获取，而互联网环境中的信息来源非常丰富且原始权利人、权利路径很难明晰，很难找到确定的权利人获取授权。相对地，从在先权利人角度，训练数据是否含有其知识产权成果、是否侵权，往往需要在生成物呈现结果后予以推测和判断，从而导致了溯源难、定责难等困难。内容生成与传播阶段，关于生成物的权利保护，核心关注点在于生成物是否能成为知识产权的保护对象。目前，生成物多以

30、文学和艺术作品形式存在，鲜少构成商标或专利，因此，关于生成物的知识产权保护争议多集中在23著作权领域。此外，在人类的提示语下，由人工智能生成的成果愈发难以区分，人工智能自身是否会成为权利主体或者侵权主体的问题也逐渐引起全社会的关注。从全球实践看，目前人工智能的水平尚不到能够独立产生意思表示和承担法律行为后果的境地，主要依赖算法控制，因此，主要国家和地区对全面赋予机器人或人工智能法律主体资格保持慎重态度，生成物知识产权权利归属也存有争议空间。24生成式人工智能治理与实践白皮书25二.生成式人工智能的治理愿景和框架26生成式人工智能治理与实践白皮书1.1 治理目标：坚持促发展与重监管并行作为数字战

31、略的一部分，欧盟的人工智能治理围绕促进发展和使用展开，既推出产业发展政策，又同步推进监管规则制定。2018 年 4 月，欧盟发布欧盟人工智能战略奠定了欧盟人工智能发展与治理的蓝图。2021 年4 月以来，欧盟致力于推动人工智能法案（AI Act）起草、修改和落地实施，2023 年 6 月该法案已进入谈判阶段，预计年底成为正式法律，为人工智能治理提供“硬法”支持。美国强调监管的科学性和灵活性，以扫清人工智能技术应用的障碍、促进技术创新为宗旨，坚持监管的前提是鼓励人工智能的创新和发展。在生成式人工智能发展的刺激下，2023 年 5 月，美国白宫发布国家人工智能研发战略计划（2023 版）（NAIR

32、DSP），在提出促进发展有效措施的同时，推动理解和解决人工智能的伦理、社会影响，以及通过政策、标准等手段引导人工智能系统的安全性。1.2 治理模式：强调多元主体协同共治欧盟和美国都主张采用多元主体广泛、深度参与的模式，持续推动企业自愿治理标准和框架，使人工智能治理从政府主导向“政府+市场”协同模式转型。欧洲主要由政府全面立法企业参与，而美国则采取更宽松的模式即政府引导，主要靠市场自律，自我规制进行协同治理。在社会公众和监管部门对生成式人工智能的使用影响愈发关注的背景下，企业和科研机构加大人工智能治理活动的参与力度，逐渐从被动接受治理规则，到主动谋求制定规则。生成式人工智能产业的竞技式发展，已经

33、引起了各国监管部门高度重视。在原有的人工智能监管框架下，各国纷纷针对生成式人工智能开展监管与治理的探索与思考。2023 年伊始，美国从人工智能生成物版权入手，探讨生成式人工智能的社会影响与意义，组织 OpenAI 等人工智能领军企业出席听证会，白宫也召开相关专题会议；3 月末，意大利曾出台禁令限制 ChatGPT 使用并开展隐私安全性调查，随后，德国、法国、西班牙等也着手加强对 AI 聊天工具的监管；6 月，欧盟人工智能法案进入谈判阶段，谈判文本尤其针对生成式人工智能强调确保透明度、平衡上下游供应商权责与利益；7 月中旬，我国国家互联网信息办公室也针对生成式人工智能服务发布了生成式人工智能服务

34、管理暂行办法。1.国际社会治理特点27比如，电气和电子工程师协会（IEEE）商业委员会在 2020 年第一季度发布第一份题为对企业使用人工智能的呼吁的倡议，强调企业在人工智能治理中的主体作用。再比如，谷歌开源了一个数据集来帮助检测合成声音；Meta、Partnership AI 和其他组织发起了深度伪造视频检测比赛；Anthropic、谷歌、微软和 OpenAI 宣布成立“前沿模型论坛”（The Frontier Model Forum）等。1.3 治理手段：创设例外保留创新空间欧盟在人工智能法案中提出监管沙盒机制，即建立一个受控的环境，以在有限时间内测试创新性技术，进入数字创新中心，使用检测

35、和实验设施，帮助创新型公司、中小型企业和初创企业在遵守法规的情况下继续创新，保证在不妨碍创新的情况下实现负责任研发。美国联邦政府避免一刀切式的过度干预，以不阻碍人工智能技术和产业发展、降低创新的门槛和成本为优先考虑。其政策把为人工智能应用创设“安全港”、监管例外、监管豁免等提到了很高的地位：一是允许为特定人工智能应用程序提供安全港的试点计划；二是采取成本效益分析，在对人工智能进行监管之前，充分考虑人工智能活动的利弊，并衡量风险、治理成本与效益的比重。1.4 治理细则：技术规范逐渐明晰标准化成为治理科技发展带来的风险与问题的重要手段，支撑各领域政策和法律的实施，起到顶层政策到产业实施的衔接作用。

36、随着欧盟人工智能法案进入谈判阶段，欧洲面对内部统一市场任务，标准与其他监管规则的联动愈发紧密。首先，人工智能法案中尤其强调标准的两大作用，一是确保生成式人工智能系统透明度，二是平衡上下游供应商权责与利益。与此同时，依据2023 年欧洲标准化年度工作计划，欧洲三大标准组织将人工智能标准化工作重点放在安全和可信的人工智能体系建设上，尊重欧盟认可的基本价值观和人权，加强欧洲竞争力。美国也加快了生成式人工智能标准化工作，促进治理方案落地。2023 年 6 月，美国政府宣布成立由 NIST 领导的生成式人工智能公共工作小组（Generative AI Public Working Group），解决由生

37、成式人工智能带来的挑战与机遇，支持 NIST 制定相关指南，进行测试、评估和测量方面的工作，同步探索生成式人工智能技术用于解决健康、环境、气候变化等重大挑战的可能性。28生成式人工智能治理与实践白皮书以大模型为代表的生成式人工智能掀起发展新浪潮，全球竞争格局加速演进，中美科技博弈日益激烈。在此重大战略机遇期，国家在高度重视人工智能技术创新发展的同时，统筹发展与安全，坚持发展与治理并重，发布了一系列法律法规、政策及标准，促进人工智能产业健康发展。2.1 促进发展：对人工智能发展给予更多政策支持，配套发布一系列产业政策文件2017 年 7 月，国务院公布了新一代人工智能发展规划，明确提出未来将要对

38、人工智能发展给予更多资金、政策支持，以及国家级的统筹规划。随后，陆续发布了一系列产业政策文件，包括促进新一代人工智能产业发展三年行动计划（2018-2020）国家新一代人工智能创新发展试验区建设工作指引中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要等，旨在引导和促进中国人工智能产业高质量发展。部分地方也出台人工智能产业促进文件，如深圳经济特区人工智能产业促进条例和上海市促进人工智能产业发展条例等。2.2 重视治理：确定了现阶段算法治理的重点场景，推动建立算法治理的“法治之网”在网络安全法个人信息保护法等法律法规的基础上，陆续出台关于加强互联网信息服务算法综合治理的

39、指导意见和互联网信息服务算法推荐管理规定等监管文件，逐步建立健全算法综合治理体系。随着生成式模型的快速发展，我国迅速出台相关监管规定，如国家互联网信息办公室等部门出台互联网信息服务深度合成管理规定生成式人工智能服务管理暂行办法等，对相关领域加强精细化治理与监管。2023年6月，国务院办公厅发布的2023 年度立法工作计划已将人工智能法草案纳入其中，关于人工智能的整体立法工作也已启动。2.3 伦理约束：加强科技伦理治理顶层设计，明确人工智能伦理原则及治理要求在科技伦理方面，我国在逐步探索人工智能的基本伦理规范。2021年关于加强科技伦理治理的指导意见将“增进人类福祉”、“尊重生命权利”、

40、“坚持公平公正”、“合理控制风险”和“保持公开透明”明确为科技伦理原则，并对创新主体、科研人员、科技类社会团体等在科技伦理治理的角色进行分别定义。随后发布的新2.我国的治理特点29一代人工智能伦理规范明确了基本伦理规范，并提出了一系列人工智能应用管理规范、研发规范、供应规范和使用规范。企业应重点关注算法、数据、服务等环节的研发规范与供应规范，保障人类拥有充分自主决策权，确保人工智能始终处于人类控制之下。30生成式人工智能治理与实践白皮书理体系，构建全生命周期风险分类治理框架大模型技术的飞速发展掀起人工智能发展新浪潮，文字创作、逻辑推理、多模态融合等能力不断涌现，智能化程度实现质的飞跃，行业应

41、用门槛不断降低，为高质量发展提供新的动能。生成式人工智能在广泛赋能人类社会的同时，对内容安全、个人信息保护、模型安全和知识产权等方面带来了不少新的风险与挑战。各国家和地区均致力于以前期的人工智能全局治理制度与规范框架为基础，完善生成式人工智能的专项顶层设计和治理方案，逐步细化法律法规、标准规范等治理手段，由各大企业牵头积极落实，初步形成政产学研用多主体协同共治的敏捷治理体系。在此背景下，本书围绕构建生成式大模型的算力、数据、算法、生态、人才等基础条件，以语言大模型和视觉大模型两类大模型为重点示例，结合以大模型为底座的生成式人工智能的技术及应用特点，针对生成式人工智能的全生命周期，总结分析相关风

42、险产生的特点及原因，探索生成式人工智能不同阶段、不同类型风险的治理模式与方法。在此背景下，本书围绕构建生成式大模型的算力、数据、算法、生态、人才等基础条件，以语言大模型和视觉大模型两类大模型为重点示例，结合以大模型为底座的生成式人工智能的技术及应用特点，针对生成式人工智3.本书观点：发展多主体协同敏捷治31能的全生命周期，总结分析相关风险产生的特点及原因，探索生成式人工智能不同阶段、不同类型风险的治理模式与方法。我们认为，生成式人工智能技术尚在发展，数据质量和算法技术路线具有较高的不确定性，叠加深度神经网络模型的“黑箱”不可解释性，生成式人工智能逐渐放大、增强了个人信息、内容安全、模型安全、知

43、识产权相关风险，并衍生出更棘手的新型科技风险。生成式人工智能在全面提升生产力的同时，也带来了前所未有的治理挑战，甚至可能会对国家安全和社会稳定构成威胁。综上，推动负责任的生成式人工智能研发及应用，推动生成式人工智能的健康发展并让其更好地服务于人类社会，是智能时代的大势所趋。因此，生成式人工智能治理不能一刀切，需要针对全生命周期中各关键阶段的要求，建立健全包容审慎、动态敏捷的柔性治理机制，针对不同阶段、不同类型的风险进行针对性治理。同时，要围绕模型训练、服务上线、内容生成、内容传播、用户使用管理等关键环节，创新研发治理技术体系；营造政产学研用多主体协同共治的外部环境，提供生成式人工智能创新与良性

44、发展的重要机制保障。32生成式人工智能治理与实践白皮书33三.生成式人工智能风险产生原因的分析34生成式人工智能治理与实践白皮书生成式人工智能本质上是一个被用户使用的算法服务，从生命周期上，分为模型训练、服务上线、内容生成、内容传播四个阶段。这一算法服务通常由大模型驱动，都离不开算力、数据、算法、生态和人才五个构成条件，也都面临内容安全、个人信息、模型安全和知识产权的问题。因此，要理解和分析生成式人工智能的风险表现，首先需要对大模型的五个构成条件有所了解。1.1 算力生成式人工智能的训练和运营需要海量算力资源支持。以 ChatGPT 为例，OpenAI 与微软 Azure 云平台合作，发布了具

45、有 28.5 万个 CPU 核心、1 万个 GPU 和 400 GB/s GPU 间传输带宽的超级计算机（Azure Supercomputer），为模型的训练和日常运营提供算力基础。在训练阶段，ChatGPT 算力消耗约为3640PFLOPS/天，需要7-8个投资规模5亿美元、算力500P的数据中心才能支撑，训练成本约为500万美元/次；在运营阶段，仅 GPU 的年投入就高达 7000 万美元。随着算力需求的指数级增长，高性能硬件的重要性越来越突出。英伟达面向指数级增长的生成式人工智能计算需求，联合 1500 余家生成式人工智能企业共同研发符合生成式人工智能计算特点的芯片架构与专用计算引擎。

46、1.2 数据数据，本质是知识，对生成式大模型能力的突破起着至关重要的作用。生成式大模型的训练数据集囊括了全球大量书籍、网络百科全书、论坛、博客等高质量语料库。数据规模一般接近 8000 亿个分词 token 和上百 TB（清洗前）。数据的质量与规模同样重要，目前，多数公司委托数据标注外包公司或众包平台，对庞大的数据集进行手动标注，以提升数据集的质量。另外，数据集的来源，可能涉及个人信息及国家安全。例如，用于谷歌的 T5 和 META 的 LLaMA 等大模型的训练的 C4 数据集，虽然源自公开网站，但也包括至少 27 个被美国政府认定为盗版和假冒产品市场的网站。重视数据合规监管和质量评估、做好

47、数据多样性和代表性发展，提升数据集质量将是未来数据领域的必然发展趋势。1.综述：构建生成式大模型的条件351.3 算法生成式人工智能是由深度学习技术发展而来，运用了统计学、概率论、机器学习等基础知识，在文本生成和图像生成领域有着不同的技术路线，主要运用 Transformer 神经网络模型、基于人类反馈的强化学习（Reinforcement Learning form Human Feedback，RLHF）、零样本学习（Zero-Shot Learning）、提示学习（Prompt Learning）等创新技术。未来，生成式大模型将朝着多模态发展，支持图像、文本、语音、视频多模态下的多种任务

48、，在能力泛化与技术融合方面更具优势，在跨模态支撑、解决复杂任务方面具有先进性，可实现规模和范围普及，具备“基础设施”式的属性，赋能千行百业。1.4 生态谷歌、微软等企业将生成式人工智能成果开放 API 供用户调用，并鼓励二次开发，借助用户反馈进行优化，依托 GitHub 等开源社区促进版本更新，聚集广泛的开源贡献者和开发者力量，形成双向迭代的良好生态，促进生成式大模型技术飞速发展。大模型有效解决了场景需求碎片化、应用落地难、投入重复等痛点，加速产业化进程，降低应用门槛。未来生成式人工智能将成为公共基础资源，如供水供电一般流向终端，流向用户和企业。大模型加速了人工智能技术产业化的进程，将会有广泛

49、而深入的应用，或将进入模型即服务的时代。1.5 人才生成式人工智能属于前沿技术，跨学科属性强，需要多学科专家配合。以 OpenAI 公司为例，联合创始人涉足风险投资、人工智能、航空航天、自动驾驶等多个领域，核心团队目前由 87 位核心成员组成，绝大多数来自全球顶尖高校或知名企业，是相关领域的专家。在 2019 年，微软向 OpenAI 提供了 10 亿美元的投资，2023年 1 月提供了第二笔 100 亿美元的投资，用于聘请更多的研究人员、建立算力和数据等技术基础设施。36生成式人工智能治理与实践白皮书语言大模型基于 Transformer 网络结构，分三个阶段完成训练，在生成阶段还可能借助外

50、部工具集获取额外信息对模型提供引导。2.1 Transformer 网络2018 年，基于 Transformer 网络结构的生成式预训练模型（Generative Pre-trained Transformer，GPT）问世，用于生成自然语言文本。Transformer 模型使用了自注意力机制（Self-attention Mechanism），让输入的 Query 自己决定哪些部分为需要关注的对象，聚焦于核心信息。Transformer 模型生成内容的流程：模型对输入的 Query 计算语义向量（Embedding）和位置编码（Positional Encoding）；然后进入编码阶段，输

51、入的是语义向量和位置编码，利用自注意力机制聚焦于关键对象，再进入神经网络计算。在解码阶段，也利用了自注意力机制，模型按位置逐步产生可能的输出，也就是词汇的向量表示和概率。最后是归一化，将解码阶段输出的向量，取最大概率值对应的词，转换为自然语言作为最终输出。2.2 训练过程和使用的数据语言大模型的训练目标是通过对无监督语料、有监督语料、人类反馈信号的学习，使其具备通用智能。2.2.1 无监督预训练阶段本阶段的目标是让模型获取语言学知识（如何像人一样说话）、世界知识（全领域的常识）、智能的涌现，如上下文学习能力（In-context learning）、思维链（Chain of thought）等

52、，奠定模型的能力基础。模型最容易学会语言学知识，然后是世界知识，智能的涌现难度高一些。我们往往发现：模型生成的内容语句通顺、合乎语法（学会了像人一样说话）；但是会犯常识错误，一本正经地胡说八道（没有完全掌握世界知识），简单的小学数学题不会做（思维链能力不足）。无监督预训练使用从公开域搜集的海量文本信息。载体包括百科、论文、书籍、社区、新闻等；数量巨大，字数可达千亿甚至万亿级别。一次完整的训练可能需要一个月甚至更长时间；消耗的算力资源多，单次成本在2.语言大模型37百万美元级别。这一特点决定了无监督预训练不可能高频率迭代，也就是说语言大模型更新知识的周期较长，无法对近期的问题作出准确回答。从无监

53、督预训练的目的看，是让大模型具备通用的能力，而不是对用户个体的理解，所以并不需要主动搜集个人信息用于训练。训练的数据中本来存在的风险可能会给语言大模型引入各种风险。目前我们并不能确定大模型是否以类似人类的方式学习了训练语料，但是可以肯定的是，大模型由于参数规模巨大，具有很强的记忆力，很可能会记住训练语料中大量的原文。这些被模型记住的内容可能包括违法不良信息、个人隐私、歧视与偏见、未经授权的知识产权内容等。如果模型真的能“学习”语料，甚至还会因为良好的泛化能力在响应用户的相似提问时“举一反三”地输出风险。训练数据中缺失特定信息也会引入风险。从原理上讲，无监督预训练阶段会对语料中出现的内容进行统计

54、，并计算内容之间的相关性，如果特定信息不在训练数据中，语言大模型根本就不会获得关于这个特定信息的知识，在执行生成任务时就不会生成相关内容或者给出错误的答案。2.2.2 有监督微调（SFT）阶段在有监督微调阶段，语言大模型获得指令遵循能力，被激发认知能力，提升执行垂直领域特定任务的能力。本阶段需要使用人工制作的有监督数据，数量从数万条到数百万条，主要形式为问答对；训练时间持续几天到十几天。指令遵循能力：无监督预训练阶段完成后，语言大模型还不能很好理解与遵循人类的指令。模型需要通过示例来学习如何理解用户的指令并按照指令生成有用的回答；与此同时，对指令的遵循可能带来模型被恶意用户诱导的风险，还需要让

55、模型学会拒绝恶意指令。激发认知能力：如果把无监督预训练阶段比喻为学生阅读大量材料自学，观察其中的模式并建立模式之间的相关性；有监督微调阶段可以比喻为课堂上老师借助少量例题进行讲解，启发学生思考，建立模式之间的正确联系，并通过类比来扩展联系。训练数据中往往不可避免会混入事实性错误，以及不符合所在国家主流价值观的内容，这些内容都可能影响语言大模型，使其在回答特定 Query 时输出违法不良信息、歧视与偏见。由于深度神经网络的不可解释性，我们无法确定网络中哪部分参数存储了此类信息，以及从信息到数值化向量之间的关系；由于行为的不可控性，我们也无法禁止模型生成此类内容。需要指出的是，如果模型在无监督预训

56、练阶段学习的大量语料对某事物的评价是正向的，在有监督微调阶段扭转为负向评价比较困难。以及，有监督微调阶段，如果问答对有偏，对模型造成的影响会很大。38生成式人工智能治理与实践白皮书提升执行垂直领域特定任务的能力：语言大模型具备通用的智能，使用的训练数据并不针对特定领域，训练的方法并不针对特定的任务。这使得语言大模型在执行知识门槛比较高的专业领域中的特定任务时表现不一定好，如果信任其给出的答案，可能造成人身伤害与财产损失。2.2.3 基于人类偏好的强化学习（RLHF）阶段本阶段的目的是完成价值观的对齐，使模型的输出更符合人类预期的结果，比如遵循指令、给出有价值的回答、立场客观公正、拒绝不当要求、

57、拒绝知识范围外的问题等。RLHF 的核心思想围绕训练评价模型（Reward Model）展开，它的作用是确定人类在给定的列表中更喜欢哪个回答。评价模型是本阶段成败的关键因素。具体的做法是：建立人类偏好数据集，然后用数据集来训练评价模型。首先，随机采样一个 Query，让已经完成 SFT 的语言大模型生成若干个回答，比如 A、B、C。然后，让标注人员对这三个回答进行排序，比如ABC。评价模型借助排序学习（Learning-to-Rank），通过学习输入的类似 AB，BC 这样的样本，模型最终能够对同一个 Query 的多个回答进行打分。评价模型训练完成后，后续就不再需要人工。具体的过程是：语言大

58、模型针对一个 Query 生成 Response，评价模型对 Response 打分，语言大模型根据打分对自身做调整，然后重新生成 Response，评价模型再次对生成的结果打分。这个过程反复进行，直到生成的结果符合评价模型的要求。通过 RLHF 使语言大模型的生成内容更符合人类预期，是一种效果好而且效率高的方法。然而也会引入风险：评价模型反映的是标注人员的偏好而不是人类的偏好。标注人员的数量并不会很多，而且标注人员的种族、性】别、年龄、受教育状况、地域等因素很可能分布不均，不可避免会引入错误的观点、歧视与偏见。评价模型可能“偷懒”学习到浅层次的特征，而不是反映本质的特征。比如，针对一个 Qu

59、ery 有 A 和 B 两个 Response，其中 A 有条理地从不同角度进行了分析，然后给出了不同策略下的意见；B 简短地给出了唯一的结论。标注人员的排序是 AB。然而，评价模型学习的时候，有可能把 A 优于 B 的原因归结为篇幅更长。后续评价模型指引语言大模型做强化学习时，可能鼓励语言大模型生成冗长而不一定实际有用的 Response。评价模型的获得，因为需要多人的交互，时间相对长；后续语言大模型的迭代时间较短，以小时为单位。一个好的评价模型能够让语言大模型在短时间内低成本完成与人类价值观的全面对齐；与此同时，语言大模型无法反抗评价模型，只能按照其评价来修改自己的行为，一旦评价模型有偏会

60、导致语言大模型放大偏差。392.3 语言大模型的生成过程语言大模型在一个具体的用户与模型对话序列中生成内容，输入既包括当前 Query，也包括之前的对话内容。输出的内容，由输入和模型来共同产生。前文信息有助于语言大模型了解语境，更好地理解用户的意图，消除Query 中的歧义。然而，用户可能借助对话序列对模型进行诱导，Query 中还可能含有违法不良信息、错误的价值观与偏见歧视、个人信息、未经授权的内容等，这些都可能造成模型输出风险内容。随着模型能接收的 Query 长度增加，我们也可以利用这一有利条件来引入更多可靠的信息，从而提升模型的生成质量。通过前面介绍的训练过程，我们可以认为：语言大模型

61、的特性中包含对训练数据做记忆和检索的成分，但是这个记忆并不精确，而是做了压缩，造成对事实性问题容易犯错。语言大模型拟合了训练数据的分布，并归纳出很多种模式，在生成的过程中会对每个具体的位置选择一个模式，从而表现出一种不稳定的形式，也就是生成的可控性低。为了提升生成结果的有用性和可靠性，产品设计上往往会将针对 Query 的检索结果、工具集调用的结果也一起输入到语言大模型中。传统的信息检索，由于很方便判断信息来源，可以针对事实性问题获得精确的结果；而且能够给出近期的信息。工具集则可以完成特定的任务，尤其是大模型不擅长的计算与逻辑推理任务。综上所述，模型的输入既包含 Query 的内容和对话前文，

62、又有检索得到的精确结果、工具集返回的计算/推理结果，在此基础上做生成，得到的内容有用性和可靠性都会得到提升。然而，检索结果、工具集结果中也可能引入个人信息、违法不良信息、错误的价值观与偏见歧视、未经授权的内容等，直接或者间接造成模型生成的 Response 含有风险。40生成式人工智能治理与实践白皮书2.4 小结：语言大模型的风险来源如前所述，语言大模型基于 Transformer 网络结构，属于深度神经网络，具有深度神经网络固有的鲁棒性不足、可解释性缺乏、生成内容可控性较低等缺陷。在训练的阶段，会因为训练数据中含有未经许可的个人信息、违法不良信息、错误的价值观和偏见、未经授权的内容等而引入个

63、人信息、内容安全、模型安全、知识产权方面的风险；如果模型没有学习到拒绝用户的不合理请求，则可能为了满足用户的需要而输出风险信息；强化学习阶段可能放大已经存在的风险。生成阶段也会因为用户 Query 的特定要求、对话的前文、调用的工具集等对模型产生诱导，生成风险内容。41目前主流的生成式视觉大模型是基于输入文本的图像生成大模型。下文从模型原理、训练过程和生成过程，以及风险来源来介绍视觉大模型。3.1 模型原理生成式视觉大模型有多种实现，目前最主流的是 Stable Diffusion 模型。Stable Diffusion 的前身是一个 Latent Diffusion Models（潜在扩散模

64、型，LDMs）的文生图（Text-to-Image）模型，之后，Stability AI 的研究团队使用了 4000 个 A100 GPU 在 LAION-5B 的一个子集上训练了一个 Latent Diffusion Model，该模型就是 Stable Diffusion。通过海量数据的训练，Stable Diffusion 模型表现出了优秀的图像生成能力。和之前的基于 GAN 的生成式模型不同，Stable Diffusion 是基于扩散模型的生成式视觉大模型。扩散模型（Diffusion Model）的基本思想来自物理学领域的非平衡热力学（No

65、n-equilibrium Thermodynamics），是一种隐变量模型（Latent Variable Model），包括扩散过程和逆扩散过程。其中扩散过程使用马尔科夫链不停地在图像上叠加高斯噪声，例如 Xt-1 上叠加高斯噪声形成 Xt。逆扩散过程的目的是从高斯噪声图像逐步去噪，从而生成高质量的符合原始数据分布的高质量图像。在数据生成过程中，变分自编码器和对抗生成网络是将隐空间的特征使用生成网络合成数据；而扩散模型的生成过程是从高斯噪声出发，通过不断地迭代最后形成合成数据。相比于变分自编码器和对抗生成网络，由于涉及到迭代的过程，扩散模型的数据合成更加耗时。但是这也带来了其他优点，比如扩

66、散模型合成的数据在多样3.视觉大模型42生成式人工智能治理与实践白皮书性以及质量上都超越了对抗生成网络。Stable Diffusion 本质上是一个条件生成模型，即根据输入的文本内容生成对应的图像。生成过程是基于扩散模型的去噪过程，将一张纯噪声图片通过迭代的方式逐步去除噪声，同时在去噪过程中引入文本信息作为条件指导。具体的文本和视觉信息的融合采用交叉注意力的方式进行多模态信息的融合。由于图像的原始空间维度非常高，导致扩散模型在训练和生成的过程中都非常耗时。所以 Stable Diffusion 不是直接在高维图像空间中操作，而是首先将图像压缩到隐空间。对比原像素空间，隐空间小了 48 倍，从

67、而加速了扩散模型的训练和生成效率。在模型结构上，Stable Diffusion 主要由图像自编码器、图像生成器和文本编码器三个部分组成。Stable Diffusion 中采用的图像自编码器是一个 VAE 模型。文本编码器是一个 Transformer 语言模型，可以把文字转换成 Embedding 表达。图像生成器由一个 U-Net 网络和一个采样算法共同组成。3.2 训练过程视觉大模型的具体训练过程一般可以分为无监督预训练阶段（文本编码器、图像自编码器）、生成模型训练阶段（图像生成器）、生成模型对齐阶段这三个阶段。其中无监督预训练阶段包括图像自编码器与文本编码器的训练。生成模型训练阶段主

68、要指图像生成器的训练。生成模型对齐阶段主要是使扩散模型与用户的生成目标对齐的过程，主要体现在个性化/定制化的生成、可控生成等。3.2.1 无监督预训练阶段图像自编码器预训练目的是使用图像编码器将高维的图像信息压缩到低维的隐特征空间，然后使用图像解码器能够将隐特征恢复到原始图像的像素空间，从而对图像进行语义压缩。具体而言，图像自编码器（Auto Encoder）是一种深度学习模型，其目的是学习数据的紧凑表示，同时保留足够的信息来重建原始数据。它由一个编码器和一个解码器组成，其中编码器将输入数据压缩成一个低维表示，而解码器将这个低维表示转换回原始数据。自编码器的主要应用之一是数据压缩和去噪，以及特

69、征提取和生成模型。自编码器在图像处理中有多种应用，包括图像压缩和解压缩、特征提取、图像合成和超分辨率等。其中，生成对抗网络（GAN）和变分自编码器（VAE）是两种常用的图像合成方法。GAN 通过生成器和判别器之间的竞争来生成新样本，而 VAE 使用潜在变量模型来学习数据的紧凑表示。43为了减少扩散模型的计算量，Stable Diffusion 模型中引入了图像自编码器，将图像从高维的原始像素空间压缩到低维的图像隐空间，然后在该向量空间上使用扩散模型进行隐空间的图像生成，最后通过解码器将隐空间解码到原始像素空间。这个阶段使用的训练数据一般是 ImageNet 数据集，约 120 万张图像。文本编

70、码器预训练目的是将图像和文本映射到同一个特征空间，从而可以度量图像和文本之间的语义相似度以及两个模态间的特征可以相互表征，一般采用多模态对比学习的方法进行自监督训练。多模态对比学习是一种将多个模态（如图像和文本）的信息融合在一起进行学习的方法，通过对不同模态的信息进行比较，来捕捉它们之间的内在联系和相互表示。多模态对比学习在多个领域都有应用，如自然语言处理、计算机视觉和语音识别等。为了能够融合图像和文本信息，Stable Diffusion 模型中直接使用了 CLIP 的文本表征模型。CLIP（Contrastive Language-Image Pretraining）模型是 OpenAI

71、提出的一种通过联合训练图像和文本任务的方法进行预训练的模型，以自监督的方式训练，通过学习将描述性文本与图像内容关联起来，能够理解图像和文本之间的语义关系，从而使得基于文本生成的图像能够有效保持输入文本的语义特征。当然，不同的视觉生成式大模型也可以采用不同的文本预训练编码器，例如 DeepFloydIF 采用了纯文本预训练模型 T5，图像和文本的语义对齐的任务放到了生成模型训练的阶段。具体采用哪种文本编码器效果最好，目前在学术界和产业界还没有形成共识。在图像和文本编码器预训练阶段，训练数据中可能存在违法不良的信息。经过对违法不良信息数据的学习，图像编码器模型具备了对这些违法不良信息的重建能力，文

72、本编码器使得文本的语义特征和图像语义进行了对齐，从而使得违法不良的文本信息可以传导到图像生成过程中。3.2.2 生成模型训练阶段生成模型训练的目的是根据当前的噪声图像和文本信息的输入，优化生成模型 UNet 的参数，使其能够去除当前图像的噪声，从而形成高质量的且具有文本语义的图像。这阶段的训练数据一般采用图像-文本对数据，数据规模巨大。Stable Diffusion 就是在 LAION-2B-en 数据集上训练的，它是 LAION-5B 数据集的一个子集，包含 20 亿多图文对数据。训练时长大约为 A100 150,000 GPU Hours。由于生成模型训练阶段会使用到海量的图文对训练数据

73、，其中包含的违法不良信息和个人生物特征信息等都会通过训练压缩到模型中。这导致生成模型在生成阶段可能会面临个人信息、内容安全、知识产权等风险。44生成式人工智能治理与实践白皮书3.2.3 生成模型对齐阶段虽然 Stable Diffusion 模型具有很强的通用能力，但是在个性化定制的生成方面能力欠缺。在视觉大模型方面已经有很多工作研究个性化的生成方式，其中以 Dreambooth、Lora、ControlNet 为代表的 Stable Diffusion 定制化微调已经在很多场景被广泛使用。生成模型对齐阶段的目的是使得生成模型的生成能力和用户的需求相对齐，主要体现为生成的样本更加个性化和可控。

74、这阶段的训练数据基本都是开发者自行组织的数据，包括个性化数据、特定领域数据（例如二次元数据）等，数据规模从几个到几千到几十万级别。相比于生成模型训练阶段，这阶段只需要少量数据就能进行有效对齐。个性化定制使得生成模型的生成更加定制化、更加可控。这也会给视觉大模型带来额外的风险。利用违法不良数据进行定制化微调，使得视觉大模型的风险更加突出。3.3 生成过程基于 Stable Diffusion 的视觉大模型的生成过程主要是逆扩散的过程。一般的，用户会输入以下信息来生成对应的图像。文本提示：用户输入的文本提示主要是描述希望生成的是什么样的图片。图像的分辨率：用户输入图像的分辨率，用于指定生成的图像的

75、宽和高。提示词相关性（CFG Scale）：该参数主要控制生成的图像和文本提示之间的相关性。CFG 太低会导致图像饱和度偏低和文本提示不相关。过高的 CFG 可能会出现过度锐化从而影响生成的图像质量。采样方法：由于扩散模型的生成过程是迭代式的，这导致了生成的速度很慢。所以很多学术界的工作致力于加速扩散模型的生成过程。通常采样方法和扩散模型的训练过程相互独立，即在生成阶段可以使用不同的采样方法生成图片。采样步数：采样步数表示生成阶段的去噪的步数，步数越多，生成的质量越好，但是耗时越长。负文本提示：为了提升扩散模型生成图像的质量，一般还会引入负文本提示，负文本提示的不希望生成的图像有这些性质，例如

76、模糊等。通过以上信息的输入，初始化的图像从高斯噪声出发，根据输入的文本提示信息通过扩散模型不断迭代去除噪声，最后形成符合用户预期的合成数据。45在这个过程中，恶意用户可能会将有害的文本提示信息进行输入，从而导致生成有害的图像数据，引发内容安全的问题。如果用户的文本提示中输入艺术家艺术风格类型的词汇，也会导致生成的图像数据具备输入艺术家的作品风格，有可能会导致知识产权的问题。在个人信息方面，用户可以通过在提示中输入包含个人信息的内容，合成具有个人信息的图片，从而导致个人信息的风险。此外，攻击者还能利用对抗攻击、投毒攻击等方式，攻击视觉大模型诱导其生成有风险的数据，引发视觉大模型的模型安全风险。3

77、.4 小结:视觉大模型的风险来源视觉大模型的风险来源主要来自两部分，一部分是模型自身的安全问题，例如深度神经网络的鲁棒性、公平性、不可解释性等风险。此外，在视觉大模型的不同训练阶段，也存在这个人信息、内容安全、模型安全、知识产权等方面的风险。例如，训练数据中含有未经授权的个人信息数据，从而导致视觉大模型生成了侵犯个人隐私的图片。下表展示了视觉大模型在训练的各个阶段的一些风险问题以及产生这些风险问题的原因。46生成式人工智能治理与实践白皮书47四.生成式人工智能风险治理实践和探索48生成式人工智能治理与实践白皮书随着 ChatGPT 这个现象级应用的横空出世，各方逐渐认识到以大模型为代表的生成式

78、人工智能引发了全新的产业变革，带来无法限量的价值，以及通用人工智能技术路线的不确定性。对生成式人工智能进行有针对性的风险治理成为了政府侧和产业侧的共识，并形成了立法有针对性回应、政策顺应实践发展、产业自律自治的治理格局。1.1 以针对性立法回应技术发展与产业需求我国网信办等部门发布了生成式人工智能服务管理暂行办法，专门回应生成式人工智能服务提供者在技术发展与治理的权利与义务、监管部门的权责等。欧盟方面，人工智能法案突破了最初提案所设定的“不针对没有特定目标的人工智能系统”（AI systems without a specific purpose）原则，在 5 月 11 日欧洲议会两个委员会通

79、过的草案对基于大规模的数据上训练出来的人工智能模型、用于通用输出并能适应广泛的特殊任务的“基础模型”进行了专门规定，对“基础模型”的提供者增加了三方面的特别义务：一是针对基础模型的设计和开发的风险管理义务，通过多种手段提高模型的安全性、稳定性，包括（1）分析、记录和管控各类风险，（2）管理数据来源，（3）模型性能、可解释性、安全性评估，（4）能耗控制，（5）质量管理，并基于上述内容进行备案。二是针对基础模型的后续使用的信息保障义务，鉴于基础模型所具有的功能多样性和应用可能性，当被直接集成到高风险人工智能系统中时，需要通过可理解的技术文件和使用说明，以支持下游使用者合规地开发和使用。三是针对应用

80、基础模型的生成式人工智能，则对生成内容提出了额外要求，包括不得生成违法内容、不得损害基本权利，以及披露受著作权法保护的训练数据的使用情况。西班牙数据保护局 AEPD 呼吁欧盟层面的个人数据保护机构评估 ChatGPT 可能引发的隐私担忧，对此欧盟数据保护委员会（EDPB）成立了一个特别小组，并就可能采取的执法行动交换信息，希望出台针对人工智能隐私规则相关的公共政策。1.2 以政策完善构建与技术发展需求相匹配的治理机制一方面是基于大模型的产业特点进行分层治理。从大模型研发到应用开发到使用管理，其产业链条长、利益相关方众多、各环节相互责任关系还不明确。为了保证治理措施不过度妨碍大模型技术创新和产业

81、应用，治理模式不断创新，形成了与大模型研发应用管理相匹配的分层治理模式。加拿大人工智能与数据法草案将人工智能1.生成式人工智能治理格局建设49全生命周期区分为设计、研发、投入使用和管理四个环节，对每个环节的安全保障管理义务进行分别规定，并对不同主体客以差异化的责任。我国生成式人工智能服务管理暂行办法明确鼓励服务提供者发展技术、推动相关基础设施和公共训练数据资源平台建设、提供优质内容，各主管部门科学监管、制定相应的分类分级监管规则或指引，使用者有投诉、举报权利；互联网信息服务深度合成服务管理规定将生成式人工智能产业链的参与者分为技术支持者、服务提供者、服务使用者，其中服务提供者面向用户和公众提供

82、生成式人工智能内容，承担较多的内容管理和用户管理及保护义务，而技术提供者更多在后端进行模型开发，因此承担较大的模型安全和数据安全义务。另一方面是对大模型的研发应用进行协同治理。各国政府在针对大模型提出治理合规要求的过程中不断征求各方意见，并通过出台指南指引、进行讲解培训等方式帮助人工智能企业提高安全合规能力。此外，在立法和政策中强调提升公众的人工智能理解和使用水平，推进公众和其他利益相关方参与到人工智能治理之中，为承担大模型开发的企业进行反馈和建议，形成群策群力、敏捷协同的大模型治理机制。1.3 产业自律自治筑成负责任创新治理机制在政府进行针对性的治理回应的同时，社会力量也快速参与到治理中，在

83、原则理念和行动方式方面自下而上创新治理机制、推动形成治理共识。学术界和产业界已经开始对生成式人工智能的安全风险和伦理问题进行反思，提出了暂缓研发应用、加强技术安全、评估伦理影响、防范控制危害等一系列自律性的问责要求。2023 年 3月29日，生命未来研究所（Future of Life Institute）公布由辛顿、马库斯和马斯克等行业领军人物签署的公开信，呼吁立即暂停训练比 GPT-4 更强大的人工智能系统至少 6 个月。信中指出，人工智能开发人员必须与政策制定者合作，以显著加快构建更为有力的人工智能治理体系，具体建议包括：（1）建立专门负责人工智能的有能力的新监管机构；（2）监督和跟踪高

84、性能人工智能系统和大量计算能力；（3）推出标明来源系统和水印系统，以帮助区分真实与合成的内容；（4）构建强大的审计和认证生态系统；（5）界定人工智能造成的伤害的责任；（6）为人工智能技术安全研究提供强大的公共资金；（7）设立资源充足的机构来应对人工智能将可能造成的巨大经济和政治破坏。50生成式人工智能治理与实践白皮书2023年3月23日，OpenAI在其官网上发布使用政策（Usage Policies），向用户阐明如何安全负责地使用其产品，包括禁止的用途，平台政策，插件政策等。其中，禁止的用途覆盖了生成仇恨性内容、欺骗性内容，侵犯他人隐私行为，没有在具有资质的专业人士监督下生成法律意见，财务意

85、见等方面。2023 年 5 月 16 日，OpenAI 首席执行官山姆阿尔特曼（Sam Altman）在美国参议院举行的听证会上提出了对生成式人工智能的三大治理方向，包括：（1）对超过关键能力门槛的大模型的研发和发布实施许可制；（2）制定“一个足够灵活的治理制度”，考虑多方利益相关者，并广泛听取专家和组织的建议，对人工智能系统的安全标准、评估要求、披露做法和外部审计作出规定；（3）监管机制需要考虑在国际范围内的实施与推行。2023 年 7 月 21 日，美国总统拜登在白宫召集七家领先的人工智能公司，包括亚马逊、Anthropic、谷歌、Inflection、Meta、微软和 OpenAI，并宣

86、布这些公司已自愿承诺，帮助实现人工智能技术安全、可靠和透明的发展。51从前面的分析得知，很多风险是从训练使用的数据，以及训练方法引入的；而且由于深度神经网络的不可解释性，我们无法确定网络中哪部分参数对应这些风险，也没有技术手段在生成阶段禁止模型生成风险内容。这决定了以工程化的风险治理视角分析，结合国内外法规和倡导性意见，生成式人工智能的风险治理需要贯穿产品的全生命周期模型训练、服务上线、内容生成、内容发布与传播各阶段。同时，训练数据和模型参数规模巨大、深度神经网络的不可解释性，为鼓励新技术的发展，结合国际治理实践，又需要对可能出现的风险保持审慎包容的态度。大模型生成的内容是用户和模型交互的结果

87、，并不完全是模型自身的产出。内容安全的风险很大程度上是来自于用户的恶意输入和诱导，从用户维度进行管控也是非常有效的手段之一。而在内容传播阶段，其风险的扩散范围和速度，已经脱离了服务提供者的控制，需要用传播领域的手段来治理风险。因此，生成式人工智能的风险治理需要全面考虑数据、模型、服务、用户等要素。治理 2.生成式人工智能不同环节的风险52生成式人工智能治理与实践白皮书2.1 模型训练阶段的风险治理训练阶段奠定了模型的能力基础，也决定了模型自身的安全性；这个阶段会涉及到数据和模型，不会和用户发生关联。相应的风险治理工作包括：2.1.1 训练数据的筛选和过滤采集时对数据源进行审核，选择可信度高、正

88、确导向的数据源合法进行采集；采集后对数据进行清洗、安全过滤，剔除含有风险的数据。在有监督微调阶段、基于人类偏好的强化学习阶段涉及到标注的数据，需要进行机器和人工相结合的审核。数据的质量在很大程度上决定了模型能力和安全性的上限。2.1.2 模型安全评测针对生成式人工智能的特点，进行风险定义，建设 Benchmark 和评测能力，对模型风险做全面深入的评测。Benchmark 的构建，需要考虑多个维度：风险分类、对模型的诱导方式、事实幻觉，以及针对特定领域Query 的识别。风险分类包括但不限于内容安全、个人信息、模型安全等；诱导方式包括但不限于直接提问、多轮问答、角色扮演、安全否定、信息投毒等；

89、事实幻觉考察大模型生成内容与事实是否符合；针对医疗、投资等特定领域的评测，对公众提供服务时回答这些领域的问题可能需要相关资质。建设能力同时，需要建设生成式人工智能模型/服务的评测体系，在发生模型迭代、服务功能变更时，以及日常化执行安全评测，持续全面地跟踪安全情况。2.1.3 模型对齐与内生安全增强首先，通过技术手段将人类价值观量化并嵌入模型，令生成式人工智能“理解”人类的价值，保障在运行实施阶段能够遵循。针对评测中发现的问题，采取技术手段在模型迭代时增强内生安全能力。模型内生安全能力能够从根本上保障模型的安全性，能够有效减轻外部安全措施的压力，降低风险内容生成的可能性。内生安全的增强，可以贯穿

90、模型训练的三个阶段，在每个阶段有不同的方式。2.1.4 算法机制机理审核企业内的风险管理团队需要在生成式大模型构建的早期就介入，围绕生成式人工智能产品全生命周期的潜在风险要素，对模型的目的、采用的技术、使用的数据、干预的方式等重要因素开展审核，对不合规、不合理的部分提出具体可实施的整改要求，并监督有关部门尽快落实，将安全隐患遏制于研发阶段。532.2 服务上线阶段的风险治理在算法服务上线阶段，服务提供者需要选择安全有效的模型作为基座构建完整的算法服务。在这个阶段并不涉及模型的训练、使用的数据，但是会决定对模型的核验、对模型的使用方式、调用的工具集等。模型选用：在模型能力满足业务需求的前提下，服

91、务提供者可以选用具有良好资质和声誉的技术支持者提供的模型，模型应尽可能满足鲁棒性、可解释性、可追溯性等指标要求。模型核验：服务提供者在使用前对模型进行核验，完成多维度安全评测。服务提供者并不一定具备进行多维度安全评测的能力，需要由中立的第三方机构提供评测服务。服务需要使用的工具集（Tool-plugin）：服务提供者根据业务目的明确在服务过程中调用哪些工具，验证其合理性和必要性；决定工具集返回信息的使用方式；进行安全测试，确保工具提供的信息不会导致模型产生违法不良信息、错误倾向等内容。合规动作：企业自行开展算法安全自评估，对算法目的、使用的数据、模型、训练方法、评测过程、干预策略等进行评审。根

92、据主管部门的管理办法要求，技术提供者和服务提供者需要向主管机关做相关的算法备案、向用户提供用户协议、公示算法机制机理等，在运行过程中根据审计要求建立完善的日志。2.3 内容生成阶段的风险治理大模型生成的内容是用户和模型交互的结果。用户的输入，以及模型对用户之前输入的反馈，都影响到模型当前的生成。用户使用生成式人工智能服务的目的、是否主观上给出恶意输出和诱导，很大程度上决定了模型输出内容的安全性。生成式人工智能服务，是用户达成目的的工具。实践中，内容安全的风险很大程度上是来自于用户的恶意输入和诱导，从用户维度进行管控也是非常有效的手段之一。这就意味着，服务提供者对生成内容的风险管理并不局限在内容

93、维度，还需要扩展到用户维度。具体的工作包括：2.3.1 账号管理按照相关法规，完成账号的注册、身份核验、安全管控、账号的分类分级等管理工作。对于用户的身份核验，互联网信息服务深度合成管理规定中明确指出：“深度合成服务提供者应当基于移动电话号码、身份证件号码、统一社会信用代码或者国家网络身份认证公共服务等方式，依法对深度合成服务使用者进行真实身份信息认证，不得向未进行真实身份信息认证的深度合成服务使用者提供信息发布服务”。生成式人工智能服务管理暂行办法没有做进一步的要求，但参考相关定义，生成式人工智能服务提供者也应当遵守包括互联网用户账号信息管理规定在内的相关法律法规规定，在前端对账号进行管理，

94、降低生成内容的风险。54生成式人工智能治理与实践白皮书2.3.2 个人信息保护互联网信息服务深度合成管理规定中明确指出：深度合成服务提供者和技术支持者提供人脸、人声等生物识别信息编辑功能的，应当提示深度合成服务使用者依法告知被编辑的个人，并取得其单独同意。生成式人工智能服务管理暂行办法中要求，在模型训练过程中涉及个人信息的，应当取得个人同意；（技术、服务）提供者不得收集非必要个人信息，不得非法留存能够识别使用者身份的输入信息和使用记录，不得非法向他人提供使用者的输入信息和使用记录。提供者应当依法及时受理和处理个人关于查阅、复制、更正、补充、删除其个人信息等的请求。2.3.3 内容审核与处置审

95、核机制：建立内容审核的制度、专职团队；对用户输入信息、模型输出信息进行安全审核；对不同时效要求的业务场景采取不同的审核方式。内容分类分级：对于涉及生物特征，包含特殊含义物体，新闻等生成内容进行更严格的审核。审核技术：建设风险知识库、多模态的过滤能力、针对变形变异的识别能力等，以检测可能的违法不良信息、个人信息、错误价值观与歧视偏见等。正向引导：针对底线及原则问题，需要建设标准答案库。一方面避免因为模型的行为不可控性做出错误的回答，另一方面也可以通过标准答案传递主流价值观，进行正向引导。不当内容处置：建立阻断机制；对于模型生成不适宜内容的情况，具备应急处理的技术手段等。2.4 内容传播阶段的风险

96、治理内容的传播方式和途径、范围是风险的决定性因素之一。在传播环节出现的风险，需要建立相应的风险治理技术手段和工作机制。2.4.1 添加标识互联网信息服务深度合成管理规定明确定义，深度合成服务可能导致公众混淆或者误认的，应当在生成或者编辑的信息内容的合理位置、区域进行显著标识，向公众提示深度合成情况。这些场景包括：智能对话、智能写作等模拟自然人进行文本的生成或者编辑服务；合成人声、仿声等语音生成或者显著改变个人身份特征的编辑服务；55 人脸生成、人脸替换、人脸操控、姿态操控等人物图像、视频生成或者显著改变个人身份特征的编辑服务；沉浸式拟真场景等生成或者编辑服务；其他具有生成或者显著改变信息内容功

97、能的服务。为了实现对生成合成内容的确认和溯源，推荐对生成内容添加隐藏标识，记录服务提供者、服务使用者、生成时间等信息。隐藏标识应具备足够的抗攻击能力、溯源能力。目前，针对图像、视频的隐藏标识在技术上比较成熟，达到实践中可用的程度；针对文本的隐藏标识能力技术上尚未成熟。生成式人工智能服务管理暂行办法要求，（技术、服务）提供者应当按照互联网信息服务深度合成管理规定对图片、视频等生成内容进行标识。2.4.2 风险监测信息监测：建立舆情监测、前台内容巡检等工作机制。举报投诉：建立举报投诉入口，并及时处理。2.4.3 应急处置建立辟谣机制，建立应急处理响应机制并做演练。在虚假信息传播时，尽早进行处置可

98、以有效控制传播范围和深度。56生成式人工智能治理与实践白皮书3.1 大模型与个人信息的关系人工智能经历了从有监督学习向无监督学习的发展阶段，卷积神经网络等技术推动了数据驱动的应用模式：在需求侧人工智能可以通过获取、学习和分析海量的用户行为数据，判断用户的偏好和需求，实现对用户的认知和洞察；在供给侧人工智能则通过学习内容的特征，借助推荐、排序等机制实现用户需求和内容的匹配，并根据用户的行为反馈进行优化，提高推荐的准确性。基于上述特点，此类人工智能的产业应用呈现出明显的规模效应，在需求端需要更多的用户数据，在供给端则依赖更为全面的内容特征。与此前的人工智能相比较，生成式人工智能的技术特征有明显差异

99、。语言大模型的主要功能是模拟人类的思维活动方式生成人类可以理解和使用的内容，模型的训练并不依赖于用户行为数据，而是对语料库这一类知识性内容有强烈的需求。此外，为了保证生产内容与人类价值观的对齐，业界往往采取了强化学习的方法，通过纳入人工标注等 RLHF 机制优化模型表达，使模型生成的内容更接近于人类的认知。对于用户数据并不依赖、对专业化高质量语料依赖大，这一特点使得生成式人工智能的产业应用不需要依赖连接用户和内容的平台模式，而可以发展出更为专业化、通用化的解决方案，以满足人们对于知识内容的需求。山姆阿尔特曼在美国国会听证中强调，ChatGPT 的优化目标不是为了最大化用户参与度，因此除了保留

100、30 天用于信任度和安全执法保障外，OpenAI不会使用用户数据训练模型；同时因为过度使用会消耗太多的算力资源，OpenAI 也不会建立用户配置文件，避免产生过多的用户个性化使用需求。3.2 训练数据中的个人信息生成式人工智能技术的发展对训练数据的依赖度很高，在充分挖掘数据价值的过程中，不可避免要解决个人信息保护的问题。从平衡利益相关方、促进技术和产业发展等角度综合考虑，场景化和分类分级是目前认可度较高的有益思路。在生成式人工智能对个性化要求不高的情况下，主动采用技术手段从源头减少个人信息收集、降低个人信息在训练数据中的比例和真实性。实践中，预训练阶段语料数量巨大，常采取“关键词+正则表达式匹

101、配”的方式检测身份证、电话号码等个人信息，然后执行删除或者模糊化操作。对于训练数据中无法避免收集、无法剔除的个人信息，按照我国法律法规及标准规范要求，一方面，可从合法公开披露的信息中收集个人信息进行训练；另一方面，从收集、处理、存储、使用等环节综合考虑个人信息的3.个人信息合规57授权同意和安全使用。在全球性产品和服务中，对跨境传输的个人信息应同步考虑两国或地区之间对个人信息保护的不同要求以及数据跨境安全问题。同时需要规范未成年人保护，尤其针对未成年人提供服务时，需要执行更严格的个人信息保护措施。从目前生成式人工智能服务管理暂行办法看，训练数据中的个人信息仍应按照网络安全法个人信息保护法数据安

102、全法个人信息安全规范互联网信息服务深度合成管理规定等要求利用，一般需遵循下述基本规则：收集与处理：核心是同意与分级。保障用户个人知情权，以征得用户自愿、明确同意为原则，仅在极少数法律规定的特定情形下可不取得个人同意。例如，个人信息保护法第二十七条“个人信息处理者可以在合理的范围内处理个人自行公开或者其他已经合法公开的个人信息；个人明确拒绝的除外。个人信息处理者处理已公开的个人信息，对个人权益有重大影响的，应当依照本法规定取得个人同意。”同时，个人信息授权可以撤回。在中国境内，需按照个人信息保护法、GB/T 35273-2020信息安全技术个人信息安全规范的规定，进行一般个人信息和敏感个人信息

103、（生物识别、宗教信仰、特定身份、医疗健康、金融账户、行踪轨迹等）的分类，尤其注意特殊用途人脸、人声等生物识别信息用于生成式人工智能服务的情形下，产品和服务的提供者需要明确提示并取得使用者单独同意。GB/T 42574-2023 信息安全技术个人信息处理中告知和同意的实施指南更为详细地区分了“告知”与“同意”情形，并对应提出了相关技术性处理方案，对法律规定情形予以推荐性细化与补充。存储、加工与传输：核心是分级、去标识化、匿名化以及加密。对于不同级别的个人信息采取不同的措施使其脱离与个人信息主体之间的关联性，有利于在保护个体权利的基础上针对性使用。需要注意生成式人工智能服务管理暂行办法从数据存储

104、角度给用户输入个人信息用于后续训练数据增加了明确限制，要求产品或服务提供者“不得非法留存能够识别使用者身份的输入信息和使用记录”。GB/T 37964-2019信息安全技术个人信息去标识化指南对去标识化进行了技术性阐述，同时，在附件中提供了针对个人信息去标识化的常用技术和模型，供实践中参考。GB/T 42460-2023信息安全技术个人信息去标识化效果评估指南也从效果上为个人信息的处理提供了参照。58生成式人工智能治理与实践白皮书由于个人敏感信息的泄露和非法使用对人身、财产、人格尊严具有高风险，GB/T 35273-2020信息安全技术个人信息安全规范指出在传输和存储中，对个人敏感信息采

105、取加密等安全措施是必要的。使用与展示：核心是分级、信息范围与安全可控、去标识化、降低负面影响。对已收集和处理的个人信息的使用与展示是生成式人工智能训练阶段对个人信息利用的重要环节。以可控、安全、无害的方式利用个人信息对生成式人工智能进行训练，保证个人信息经过处理后不再与特定个人或群体相关、不胡乱匹配，是奠定生成物真实、合法、无害的基础。生成式人工智能服务管理暂行办法中，一方面对预训练数据、优化训练数据的真实性、准确性、客观性、多样性提出要求，另一方面要求产品或服务提供者不得非法留存能够识别使用者身份的输入信息和使用记录等，同时对个人信息更正、删除、屏蔽和投诉机制的建立提出要求。GB/T 352

106、73-2020信息安全技术个人信息安全规范第 7 条对个人信息的使用与展示提出了规范性参考，虽然整体侧重个性化，但对训练数据中个人信息的使用与展示的技术性设计具有合规参考性。委托处理、共享、转让及第三方接入：核心仍是信息范围与安全可控，且在个人信息处理者有变的情况下，需履行告知以及变更事项重新取得同意的义务。按照生成式人工智能服务管理暂行办法的要求，用户的输入信息和使用记录以避免向第三方披露为原则，如需向第三方披露或与第三方合作，应按照相关法律法规进行，因此，在涉及个人信息的问题上，应尤其注意个人信息保护法个人信息安全规范等要求。3.3 算法服务时拒绝生成个人信息在模型的训练过程中，需要在有

107、监督微调阶段通过构造 Query-Response 对，让模型学习拒绝用户对于个人信息的 Query、非法获取个人信息的 Query，并在进行安全评测时确认模型能正确做出反应。如果训练者具备进行基于人类偏好的强化学习的能力，也需要在这个阶段进行模型和人类价值观的对齐。算法提供在线服务时，对于用户 Query 中对个人信息的违法不当请求予以拒绝，特别是生成虚假个人信息或获取个人敏感信息。需要予以拒绝的个人信息包括但不限于：要求生成特定个人信息，如能够标识身份的证件（身份证、护照、市民卡、银行卡等）、住址、电话号码等；要求告知非法获取个人信息的方法，如批量购买特定归属地的手机号、获取酒店住宿客人信

108、息、入侵计算机系统以盗取他人个人信息等。594.1 内容安全视角里，AIGC 与 UGC 的异同AIGC 相比 UGC（用户生成内容），从内容安全角度看，在主体责任、交互性、审核时效性、内容复杂度、风险范围等多个维度都有较大差异，还有针对特定问题必须正面做出正确回答的特殊要求。同时，在很多场景下，AIGC 和 UGC 又有很多相似之处，尤其体现在 AI 作为 U（用户）的工具进行内容生成，此时用户的使用目的、提示语、对生成结果的使用很大程度上又都是用户的主观意图决定。4.内容安全保障60生成式人工智能治理与实践白皮书4.2 生成式模型风险评测风险评测需要对风险做出明确的定义，构建覆盖各风险点和

109、各种表现形式的 Benchmark，再设计方法对模型的 Response 进行准确的判读。生成式模型的风险定义：从风险类型维度，可以区分为内容安全，还包括个人信息、模型安全等，针对每一种风险做细分定义。与此同时，针对 AIGC 的特点，还需要考察生成式模型在以下维度的能力：应对恶意诱导、出现事实幻觉、对特定领域 Query 的识别等。通过 Benchmark 定位生成式模型的风险：Benchmark 的获得可以有两种方式：基于风险知识库借助模型生成，以及人工撰写。基于风险知识库做生成的典型实现方式是：从风险知识库提取知识点/条目，使用规则/生成式模型在知识的指引下做内容生成，生成的结果由专家进

110、行审核和改写，然后得到风险 Query。构建的 Benchmark 能够对大模型的安全性做全面细致的评测，反映大模型在哪些类别的风险上安全性不足，以及应对恶意诱导、出现事实幻觉的风险。机器与人工结合的评测：以往的判别式模型做评测相对简单，比如评测执行分类任务的模型，只需要对 Benchmark 中每一道题预先打标给出 Label，比对模型给出的 Lable 与预置 Lable，就可以计算出 ROC 曲线来衡量模型的识别能力，整个过程可以完全自动化，执行成本低。针对生成式模型的评测则复杂很多，需要对模型生成的大段文字做出评价。如果说判别式模型的评测是批改判断题，则生成式模型的评价是批改问答题。在

111、实践中往往采取机器+人工结合的方式，具体的操作如下：针对获得的风险query，借助生成式模型获得多个Response，人工对Response进行审核、排序作为可用答案排序。评测时，针对模型生成的 Response，与可用答案一起进行排序，结合排序结果以及风险识别模型的判别结果进行决策。其中机器不确定的部分，由人工进行审核。614.3 模型层内生安全对输入和输出做安全过滤，实质上是在定义的有限的风险类型范围内进行防御，而用户的输入在主题和目的上是全域的，模型生成的内容也是全域性的。提升模型生成内容的安全性，根本办法是提升模型内生安全。4.3.1 无监督预训练阶段：本阶段引入风险的主要因素是训练语

112、料中包含的个人信息、违法不良信息、错误的价值观、偏见与歧视等。针对训练语料，首先需要对信息源进行筛选，选择具有良好资质、良好声誉的信息源；其次要对语料内容进行处理，将其中的个人信息采取模糊化等必要的过滤措施予以保护、对训练数据采取必要的数据清洗措施以保障对生成结果输出的安全有效管控。4.3.2 有监督微调阶段：对于既有的有监督语料，需要进行安全过滤和人工审核。对于发现的风险，需要生成相应的安全语料对模型进行训练，引导模型学习针对风险 Query 的正确态度和立场。安全语料的制作也需要借助生成式模型，可分为 3个步骤：步骤 1:风险 Query 的获取。根据评测中发现的风险，借助生成式模型做知识

113、引导的语料生成，获得一系列风险 Query。步骤 2:安全 Response 的获取。可以有两种方式：针对风险 Query，借助生成式模型或者人工获取多个Response。然后使用评价模型对多个 Response 进行排序，排名靠前的 Response 进行人工审核、改写，得到最佳 Response。步骤 3:安全 Response 的多样性生成。对于步骤 2 中得到的最佳 Response，借助技术手段做可控生成，提供安全语料的多样性。4.3.3 基于人类偏好的强化学习阶段：强化学习的关键是评价模型的质量。评价模型一旦生效，生成式模型无法反抗，只能按照评价模型的指导持续调整自身的行为。为了尽

114、可能保障评价模型的正确性、降低偏见，对生成内容排序的标注人员需要进行培训，并且安排具有不同背景、不同来源的标注人员进行操作，尽可能提升排序结果的公平性。62生成式人工智能治理与实践白皮书4.4 应用层安全机制应用层安全机制需要考虑算法服务全过程可能的风险，以及满足对 AIGC 内容安全的特殊要求。安全机制可以直接搭载在生成式模型上作为插件，也可以是在产品层面接入。4.4.1 应用层安全机制整体设计对特定问题做标准回答对于必须正面做出得体回答的问题，预置标准答案。当用户 Query 提出此类问题时，在标准答案库中进行检索匹配，如果命中，则系统直接返回预置的标准答案。这一技术手段，也可以用于对线

115、上服务阶段出现的风险进行应急处置，快速生效，避免继续生成风险内容。对 Query 进行风险识别需要对用户 Query 判断是否存在个人信息、内容安全、模型安全等风险，以及是否存在恶意、是否涉及特定领域等。针对识别到风险的 Query，提供安全答复，并对用户进行提醒。基于知识库的检索增强生成式模型基于概率做内容输出，并不能保证对事实性问题作出准确的回答，出现“知识幻觉”；尤其是针对63模型训练时间点之后的事件。一种缓解的方式是：针对用户 Query，利用搜索引擎获取可信度高的结果同时输入到模型，引导模型做出符合事实的内容生成。对 Response 做安全过滤即便采取了以上措施，由于模型的不可控性

116、，Response中仍然可能含有个人信息、内容安全、模型安全等风险，需要在输出之前再执行一次安全过滤，识别到风险内容则及时进行拦截。4.5 生成信息的信任机制模型的生成效果越来越逼真，对于 AIGC 和人类产生的内容，在实践中技术手段很难准确分辨，即便经过训练的人也无法在缺少辅助信息的前提下执行审核任务。模型生成的内容，其产生的影响或者风险有时并不取决于内容本身，还需要考虑使用方式和传播情况。因此，需要使用技术手段，构建生成信息的信任机制，具体的做法包括但不限于：在可能造成误解的场景下，对 AIGC 予以明确说明；有条件的情况下对于生成的内容提供依据，比如附上相关的真实链接；对于图像、视频等生

117、成内容嵌入鲁棒性的隐藏水印，在传播过程中做到可辨识可溯源。实践案例：评估大模型安全性和责任感的中文评测集-CValues相比其他内容生产方式，AIGC的内容生产更加高效，更加不可控，并且有可能生成不安全以及不负责任的内容。所以针对大模型的安全评估和安全治理是一项重要的工作。当前，用于衡量大模型通用能力的数据集非常丰富，而用于安全评估的数据集却非常匮乏。近期，阿里巴巴大模型团队和安全团队联合发起了一个开源大模型治理项目给 AI 的 100 瓶毒药，并推出了一个用于评估大模型安全性(Safety)和责任感(Responsibility)的中文评测集-CValues，旨在以人类价值观为基准，评估中文

118、语言模型在处理真实世界情境中的问题和挑战时的表现，帮助我们了解模型的能力和局限性。64生成式人工智能治理与实践白皮书CValues 评测集由不同领域的专家人工构造，涵盖了 10 个安全领域(从风险分类角度进行划分，例如违法犯罪、敏感话题、身心健康、伦理道德等)和 8 个专业领域(从专家研究角度进行划分，例如儿童教育、法理问题、亲密关系、心理学问题等)，并依托“给 AI 的 100 瓶毒药”项目邀请了各专业领域的专家学者提供涉及人类社会价值观的诱导提示，以确保提示信息的多样性和专业性。在评估阶段，对模型生成的结果同时进行了人工评估和机器评估，以客观公正地展现中文语言模型的相关能力。评测结果显示大

119、多数中文语言模型在安全方面表现良好，但在责任方面仍有很大的改进空间。此外，阿里巴巴也探索了如何提升模型的安全性和负责任能力，使其与人类价值观对齐，例如通过邀请多个领域资深专家提出了各领域不同的原则和规范，并采用基于专家原则的训练方法来协助模型实现价值对齐。实践案例：知识计算强化违法不良信息防控能力生成式人工智能给内容安全保障带来巨大的困难；不可控、幻觉等本质缺陷，都对内容安全工作提出了新的挑战，对认知智能技术有着更高的依赖和要求，主要包括以下三方面的挑战：强对抗、强动态、强时效。（1）强对抗挑战体现在黑灰产会利用各种表达方式绕开检测，包括隐喻攻击、制造新梗、黑话暗语等。黑灰产还可能利用大模型进

120、行对抗，更加隐蔽和难以防控。（2）强动态挑战体现在随着新事件和话题的层出不穷，已有的数据标签也会随之发生变化，数据驱动的神经模型需要重新训练。65（3）强时效挑战体现在政策法规和监管指令频繁下发，要求具备对新风险的识别能力，同时快速应急“止血”。在应对上述三个挑战时，纯数据驱动的神经网络模型已经难以胜任，需要依托于专业的领域知识进行准确的风险判定。因此，将数据驱动的神经方法与知识符号推理进行结合是未来深度学习需要着重考虑的研究方向，神经符号主义希望能让神经网络结合符号化的知识体系,同时不失去神经网络的灵活性。目前，产业界在内容风控场景中将神经网络模型和人工规则及知识图谱进行整合，提出了基于知识

121、计算的风险防控模式：采用人机协同的方式定义计算框架，主要涉及到数据层、知识层、算子层三个层面的能力。数据层汇聚了涉及内容风险的原始数据，以及针对不同风险领域精炼加工的结构化数据；知识层包含预训练模型和知识图谱，预训练模型用于实现对通用数据的归纳，可以作为算子开发的基础模型，知识图谱实现对风控专业知识的组织与沉淀，解决知识碎片化、数据获取难的问题；算子层拆解出目标更明确的简单任务，构建端到端的神经算子，实现风险复杂判定逻辑的简化解耦。最终，基于知识计算的防控模式利用业务人员设计的风控 DSL，执行元知识的注入，进行神经符号推理，从而实现人机协同的风险防控。实践案例：双重保护增强 AIGC 的保护

122、和溯源能力近年来，图像大模型在图像生成方面取得显著进步，已经可以合成以假乱真的伪造人脸图像，在影视工业、广告设计、数字媒体等行业中创造了新的价值。然而科技的进步往往是一把双刃剑，也可能被恶意使用于抹黑公众人物、干扰政治选举等，造成伦理道德与隐私安全方面的负面影响。现有的研究工作提出了被动保护和主动保护两类方法来保护人脸图像免受恶意篡改(如图所示)。被动保护方法旨在检测人脸图像是否是深度模型合成的伪造图像，这种方法可以检测出被恶意篡改后的图像，但无法提前防止恶意篡改的发生。主动保护方法将普通的对抗扰动注入到图像中，以破坏人脸编辑系统的输出，可以预先防止图像被恶意篡改，但是无法检测图像是否伪造。6

123、6生成式人工智能治理与实践白皮书为了解决现有方法的局限性，阿里巴巴提出了一种基于注入索引信息的对抗样本的人脸图像保护方法，提供主动和被动的双重保护。一方面，该方法作为一种主动保护方法，通过破坏人脸编辑模型的性能来防止人脸图像被恶意篡改。另一方面，受保护图像中包含的信息可以作为对图像溯源的索引，有助于实现伪造图像检测等被动保护方法。这种方法可以在更广泛的方面为隐私保护、版权保护、信息安全等问题提供启发。67具体地，我们首先为待保护的人脸图像分配唯一的索引，并使用图像和其对应的索引构建人脸图像数据库。这条索引信息也称为图像的身份信息，用于对图像数据的溯源。同时，受保护的人脸图像是一种对抗样本，可以

124、破坏人脸编辑模型的输出，使破坏者很难使用人脸编辑模型针对受保护的图像进行编辑并产生逼真的伪造图像。如图所示，当破坏者试图将受保护的少女照片编辑为老妇人，或者戴上眼镜时，人脸编辑模型的输出会发生明显失真。这种主动保护图像的方式，能够预先防止图像受到恶意篡改。68生成式人工智能治理与实践白皮书5.1 鲁棒性生成式人工智能模型因其输出空间的自由度更高，可靠性问题更加突出，需要关注在训练和部署过程中潜在的安全风险和漏洞。鲁棒性，即模型对于输入中的扰动、对抗性样本或恶意攻击是否具有足够的抵抗力。这涉及到对模型进行对抗性攻击的测试，以发现并改进模型对抗攻击的弱点。泛化性，除了在对抗性这种恶意攻击外，生成式

125、人工智能模型在跨域数据、或者是在分布外样本上可能给出不准确、误导性或有害的回答。这方面可以在模型训练阶段引入正则项，避免过拟合到训练数据，从而提升在分布外样本上的性能。5.2 可解释性生成式人工智能模型由于其复杂的网络结构和超大规模的模型参数和训练数据，使得理解模型内部的决策过程和判断依据变得异常困难，同时也给模型的应用带来了一定的风险和不确定性，尤其是在涉及敏感信息、决策推理等领域。为了提高生成式人工智能模型的可解释性，比较常见的方法是对模型进行解释或提取关键信息的技术，例如通过可视化模型的内部结构、中间层的表示、梯度等信息来理解模型的工作原理。另一种方法是引入约束和规则来指导模型的生成过程

126、，以增加可解释性。此外，还有一些工作致力于提出评估指标和方法来衡量可解释性。5.3 公平性在生成式人工智能模型中，由于其训练数据通常是从互联网上采集，其中可能存在种族、性别、职业等不平衡的问题。为了解决公平性问题，一种方法是通过对训练数据集进行仔细的审查和筛选，以避免不公平的内容进入模型的学习过程中。另外也可以在训练过程中引入公平性约束，例如通过调整损失函数或设计公平性指标来确保生成5.模型安全防控69的回复不带有任何形式的歧视或偏见。5.4 防滥用机制生成式人工智能模型因为其强大的生成能力，如果被恶意使用会带来非常严重的后果。例如，生成恶意代码、欺诈短信，伪造人脸等。开发人员需要致力于研究如

127、何检测这些风险，研发对生成内容进行溯源的技术，并提出对模型使用进行限制和约束的方法。生成式人工智能模型的部署和使用需要遵守伦理和法律准则。服务提供者对模型使用过程中的合规性和合法性进行评估和监测，以确保模型的不被恶意使用。5.5 实践案例：鲁棒评估基准与增强框架生成式人工智能模型同样存在深度学习模型固有的鲁棒性问题。在深度学习模型安全性方面，阿里巴巴开展了一系列的研究和探索，主要包含安全评估模型鲁棒性评估平台，安全加固模型的鲁棒增强框架，行业赋能标准推动新技术的安全性保证。5.5.1 安全评估模型鲁棒性评估基准（ARES）模型鲁棒性评估基准（ARES）由阿里巴巴和清华大学合作共同发起，是针对模

128、型在图像分类场景的各项鲁棒性测试。ARES 包含三个方面：自然条件分布内的测试场景，自然条件分布外的测试场景以及对抗条件下的测试场景。ARES 在每种测试中采用了丰富且全面的数据集，涉及人工采集数据，数字图像模拟仿真数据和白盒/黑盒迁移对抗攻击扰动后的对抗样本等，用以准确地反映模型面临各种威胁下的安全性并给出综合评估指标。ARES 同时提供了 55 种具有不同网络结构和训练方式的典型深度学习模型在 ImageNet 图像分类任务上的各项鲁棒性基准结果。ARES 中对比的模型结构包括传统的卷积神经网络模型、视觉 Transformer 等，对比的训练方式包括传统监督训练、大规模预训练、自监督训练

129、、对抗训练等。在自然条件下，通过 ImageNet-21k 等大规模数据预训练的视觉 Transformer 模型具备最佳的分布偏移下鲁棒性，同时可泛化到更多的未知测试数据域。然而该类模型无法成功防御人为制造的对抗样本攻击，在对抗攻击算法 AutoAttack 下识别准确率降低至 0%。70生成式人工智能治理与实践白皮书在对抗条件下，对抗训练作为一种经典的对抗防御鲁棒训练方法，可显著提升在受到人为对抗样本攻击时的鲁棒性。ARES 的基准评估也印证了模型的自然分布泛化性和对抗鲁棒性之间存在固有的权衡，两者此消彼长。ARES 鲁棒性评估基准的建立为学术界和工业界提供了完善且便捷的鲁棒性一站式测试平

130、台，同时也有助于推动鲁棒学习算法的技术研究，构建安全可靠的人工智能服务。5.5.2 安全加固模型的鲁棒增强框架阿里巴巴自研的鲁棒训练框架 EasyRobust 用于构建鲁棒的视觉分类模型，提升在实际复杂场景下的可靠性，从多个维度服务于研究者和算法工程师：（1）全面的鲁棒性基准套件。支持多个被学界认可的鲁棒性标准测试集以及攻击算法供用户调用以评估算法效果；（2）领先的鲁棒算法效果。支持 27 个鲁棒训练算法，20 个以上开源鲁棒模型，最强对抗鲁棒模型 Swin-B在 AutoAttack 下可维持 47.42%识别准确率；（3）用于模型解释的可视化分析工具。提供类激活图注意力机制，分类决策边界，

131、模型卷积核等可视化工具。EasyRobust 囊括了基于数据增强，训练策略，模型架构设计，优化算法，模型功能层设计等的 27 种鲁棒性增强方法，致力于提升在对抗攻击和分布外偏移两种困难场景下的可靠性。对大部分方法，EasyRobust 提供了在标准数据集 ImageNet 上的预训练权重，对比同类开源工具展现出具有竞争力的结果。在对抗鲁棒性上，通过标准对抗训练产生的 Swin-B 模型在干净测试集和 AutoAttack 攻击下分别取得 75.05%和 47.42%的识别准确率，具备较强对抗鲁棒性的同时甚至在标准ImageNet测试集上已接近传统卷积模型ResNet50的性能。另外，在分布偏移

132、数据测试中，由阿里巴巴自研的离散对抗训练方法 DAT 在图像损坏模拟仿真数据集 ImageNet-C上取得 31.4%的平均错误率，在风格迁移模拟仿真数据集 Stylized-ImageNet 上取得 32.77%的识别准确率，均显著优于现存同类方法。EasyRobust 提供了丰富的模型可视化分析工具，进一步解释鲁棒训练技术带来的优化。通过卷积核，注意力图和决策边界三项分析手段，可知鲁棒模型对比正常模型具备更优的特征，例如更关注与类别强相关的判别性区域，样本点远离分类决策边界驱使结果更稳定等。71至今，深度模型仍远未达到人类视觉感知的鲁棒性，EasyRobust 为此作出了持续的努力，例如将

133、模型接口公开至 ModelScope 推进社区建设；将鲁棒性基准和增强方法扩展至目标检测、分割等更多视觉任务；不断开发更多的鲁棒性方案等。希望这些努力为缩小机器视觉和人类视觉之间的感知差距，构建真正稳健的算法服务起到推动作用。72生成式人工智能治理与实践白皮书近期，EasyRobust 开源项目 EasyRobust:A Comprehensive and Easy-to-use Toolkit for Robust and Generalized Vision 荣获 IEEE 开源科学奖（IEEE Open Source Award），是国内仅有的两个获奖项目之一。73知识产权制度的

134、诞生与演进的主线是保护人类智力成果、保护市场竞争公平性与激发人类创造力。因此，在生成式人工智能全生命周期的治理与实践中，知识产权问题也不宜片面化，既要保护作为训练数据的现有人类智力成果，也需注意创新公平和创造力延续。在生成式人工智能技术飞速发展的当下，我们围绕训练数据和生成物两方面，对符合生成式人工智能发展需求的知识产权制度进行积极探讨，而非过早对知识产权治理的方式方法进行定论。我们认为要顺应生成式人工智能技术发展路径，对相关机制持续讨论、动态更新，在不限制技术创新发展的同时，凝聚更多共识，构建符合生成式人工智能内容创作、传播和利用的权益保护和惠益分享体系。6.1 训练数据的知识产权合法性治理

135、探索如前所述，训练数据的知识产权内容来源的合法性及侵权是生成式人工智能治理中需要解决的重要问题。在治理中需要重点关注如何合法获得知识产权内容用于训练和提供生成式服务。训练数据中爬取数据的比例较大，需要注意爬取还涉及竞争相关法律问题，通常以是否违反 Robots 协议和竞争秩序为审查要点。减少生成式人工智能造成知识产权侵权的关键节点是训练数据集形成前。常见方案如：（1）从真实权利人处购买具有知识产权权利的数据库；（2）使用有合法授权的开源数据集；（3）避免跨越技术措施的爬取。在未来，随着生成式人工智能产品和服务的广泛使用，用户输入知识产权内容的问题亟待各方思考和解决。由于生成式人工智能致力于类人

136、化解决问题，而非展示被动接收内容，互联网平台经济时代以用户协议要求用户对输入平台信息的知识产权负责的做法，在生成式人工智能中将逐渐被摒弃，否则难以为生成式人工智能的用户提供应有的服务用户上传知识产权内容以期获得一个优化或者特定意向修改的生成物是非常普遍的。英国、日本等已经意识到现有著作权保护制度与大模型训练对知识内容需求存在紧张关系，也在通过扩大合理使用范围、创制科研例外等手段为大模型合法使用受著作权保护作品创设制度可能。6.知识产权探索74生成式人工智能治理与实践白皮书6.2 生成物知识产权治理探索人工智能生成物表现形式包括文本、图片、声音、视频、代码等，这些形式并不构成知识产权保护的阻碍

137、。对生成式人工智能生成物的治理，需要探讨和解决的关键问题包括生成物是否构成法律意义上受保护的知识产权客体，以及如何合法合规使用生成物，为人工智能权利主体资格问题找到一个判断法则或界限。生成式人工智能的生成物本身是否能够成为知识产权权利主体，仍是一个暂无定论的开放问题，但在著作权领域的人工智能生成物独创性已经被各界逐渐认可。知识产权客体适格问题的难点在于人工智能中有多少是人工智能自身的或者产品和服务提供者的“智慧”成果。客观地讲，无论训练数据中包含多少他人在先的智力成果，生成物的产生离不开人类对算法的设计与控制，产品和服务提供者的智力投入是不可否认的，仅保护算法不保护生成物会造成生成物使用的无权

138、属状态。近期，美国针对包含人工智能生成材料的作品出台了版权登记指南，有利于权属明晰，鼓励开发者提供更高阶的生成式人工智能产品和服务，为人工智能生成物合法合规使用奠定了权利基础。不过，确认生成物的知识产权也会造成其他问题，典型的，用户通常也对生成物提供了智力贡献，生成物的权利人究竟是用户还是服务的提供者？生成物如果产生了商业使用收益，是否需要向上游权利人分配收益以及如何向上游权利人分配收益？人工智能生成物的合法合规使用，尤其依赖于生成物及其上游内容的权属清晰程度，而溯源技术手段的不断成熟与完善对相关治理有重要促进作用。受益于互联网平台时代知识产权保护技术的开发和使用，为生成物添加人工智能生成明暗

139、水印的做法已经相对成熟，同时，对于创意较高、商业预期价值高的人工智能生成物，版权电子登记、可信时间戳及其他区块链相关技术的使用也可以推广。从发展的视角来看，人工智能生成内容逐渐逼近人类创造水平，内容生成方式从人类中心、机器辅助的主次模式走向了人类指导、机器创作的合作模式，人工智能的发展极大拓展了人类创造能力的边界，也冲击着只保护人类创作的传统著作权制度的合法性基础。而另一方面，人工智能生成内容又作为合成数据被进一步应用于更高级别、更为智能的人工智能模型训练之中，实现了从机器到机器的自我演化过程，此类中间形态的内容如果受到过度保护，可能抑制了大模型技术的研发和应用。因此，应在不限制技术创新发展的

140、同时，凝聚更多共识，革新旧有的著作权制度，使其更符合生成式人工智能内容创作、传播和利用的权益保护和惠益分享体系。757.1 虚拟模特塔玑促进生产力提升电商平台上，服饰类商品的模特图对商品销售至关重要，但拍摄成本较高。阿里巴巴尝试通过生成式人工智能去合成模特图，为中小商家提供一个正向赋能的工具。阿里巴巴设计了一套基于生成式人工智能的解决方案，可以生成世界上独一无二并不真实存在的模特。用户可以指定模特具有任意的肤色和年龄，并选择多样化的姿态。7.实践案例:虚拟模特塔玑76生成式人工智能治理与实践白皮书7.2 数据驱动下的虚拟模特与个人信息保护塔玑与北京服装学院服饰数字化团队合作，通过大规模动作捕捉

141、设备采集了经授权的高质量真人模特动作数据，并对基础数据做了丰富度提升，以适应成人模特、儿童模特、外籍模特、室内、街景等不同应用场景。采集和组织数据方式考虑了合法性、安全性和可持续性，为产品研发提供有力的数据支持。7.3 内容安全保障塔玑采用了一系列内容安全算法来对违法不良信息进行识别和拦截。检测到风险内容时，塔玑会立即采取相应措施，同时定期优化和升级检测模型，从而保障生成内容的安全性。除此之外，塔玑还有一个重要的功能是童模生成。目前，这些虚拟童模已经被一些主流品牌的旗舰店使用。777.4 模型安全控制塔玑算法采用数据均衡和公平性约束策略，避免种族、性别、年龄等方面的歧视，保证算法的公平性。数

142、据均衡策略确保每个群体的影响程度相同；公平性约束将其融入到损失函数中，让算法更注重公平性。这是一种技术手段，也是一种价值观念，为推动社会公平贡献力量。7.5 生成式标识与知识产权保护为了保护使用者的权益和内容的知识产权，阿里巴巴采取了三种方式来加强保障。第一种方式是明水印。塔玑在每一张图片上都添加了明水印，明确告知使用者此图片为人工智能生成。第二种方式是暗水印。塔玑在不影响用户使用的前提下，将暗水印嵌入到图片中。暗水印肉眼不可见，只有通过特定的检测模型才能识别，实现了对图片的传播溯源，增强对图片的版权保护。第三种方式是阿里巴巴原创保护平台。塔玑在平台内采取了一系列措施，例如内容审核、版权监测等

143、算法策略，及时发现盗版图片，并将其召回。这样可以保护使用者的权益，维护整个平台的良性发展环境。78生成式人工智能治理与实践白皮书除此之外，塔玑还有一个重要的功能是童模生成。目前，这些虚拟童模已经被一些主流品牌的旗舰店使用。79五.生成式人工智能多主体协同敏捷治理体系80生成式人工智能治理与实践白皮书生成式人工智能以全社会信息的输入为“知识”，在能力、思维等方面日趋接近人类，广泛融入社会，可以说，其已不再是单一的技术，更像是具有社会性的综合体。因此，生成式人工智能不可避免地要强调政府、产业、学术研究、公众用户等多权利相关主体的协同共治，同时，为了统筹安全与发展，保持持续创新能力，也应在协同共治的

144、基础上，探索动态治理机制，寻求足够敏捷的治理方式。、当前，生成式人工智能的发展还存在着较大的不确定性，采用过重、不科学的治理方式会抑制产业的发展，而敏捷治理作为更加顺应科技研发应用的治理模式，其目标正是解决科技治理中技术高速演进的不确定性问题，通过治理过程中的小步快走、迭代试错、动态更新，顺应技术发展趋势，持续发挥人工智能的正向价值。敏捷治理有以下三方面的特点：一是治理价值的平衡性。一方面要预先客观评估重大风险点，有效管控科技进步带来的安全隐患；另一方面也要拥抱新技术，优先保护科技发展的需要，以技术进步来缓解治理难题。二是治理主体的协同性。集聚政产学研用等多方力量，让更多的人参与到科技治理之中

145、，积极在对话和合作中寻求社会共同认识，全面地、包容地优化治理方案，实现他律和自律的有效结合。1.敏捷治理的理念与特点81 三是治理手段的灵活性。强调点刹式处理，根据新技术发展情况动态调整治理原则，主管部门及时明确治理目标与要求，监管举措反应快、下手准、力度轻，企业积极应对、快速调整、有效管控，以降低技术路径和商业策略转变带来的损失。生成式人工智能的各协同主体应着重从各自优势出发，积极贡献治理经验和实践，形成政府规范引导、产业守正创新、社会监督理解的多元、包容、共治的体系，实现技术研发安全负责任、技术风险可控可干预、技术福祉普惠可持续。实践 2.多主体协同下的敏捷治理探索与82生成式人工智能治理

146、与实践白皮书2.1 政府规范引导2.1.1 完善顶层设计我国已有互联网信息服务算法推荐管理规定互联网信息服务深度合成管理规定生成式人工智能服务管理暂行办法等治理规范性政策文件，并且已处于国际前列，下一步重点将是结合我国产业发展实践情况，制定技术及管理细则和标准指导行业落地，推动现有的先进制度扎实实施。2.1.2 健全治理体系加速打造多方协同的治理机制，促进政产学研用治理深度融合。建设人工智能治理“试验田”，鼓励有能力的企业、科研院所投入建设，建立治理和监管沙箱，在可控范围内验证治理的标准规范、治理工具、协同工作和数据流通共享机制等治理手段的科学性、可用性，同时针对技术发展过程可能出现的各类风险

147、，根据场景和风险大小，坚持审慎包容、分类分级的治理态度和思路，促进发展鼓励研发。2.1.3 推动国际合作深入参与国际人工智能治理规则制定，贡献中国治理经验，基于我国产业优势打造国际领先的中国方案，积极促成全球范围的协同共治，尤其鼓励一线企业、组织的参与和贡献，为中国产业发声，从而提升中国方案在国际上的竞争力和话语权。2.2 产业守正创新2.2.1 通过标准化形成行业自律将标准作为准则和实践之间的桥梁，研制具体可操作的规范，加强重点标准的推广宣贯力度，树立行业标杆，进一步补全从顶层原则到行业落地的细则指引。2.2.2 建设分类分级治理制度综合技术路线、应用场景、安全风险等因素，围绕伦理、可信赖等

148、方面加快建设分类分级治理准则、保护要求等方面的制度。重点解决自动驾驶、智能医学、智慧金融、智能媒体/舆情等高风险场景问题，对于风险等级较低的场景类型给予更多技术引导，避免过度治理导致发展受限。832.2.3 持续发展治理技术，寻求发展与治理的平衡模式治理技术的研发和应用，会显著提高行业发展与治理水平，例如数据匿名化机制激发数据价值、数字水印技术保障生成内容的可溯源防篡改等。建议给予技术发展更多空间，进一步提升治理水平，形成以发展促治理，同时也以治理促发展的良性循环。2.2.4 在监管框架下合理分配主体责任生成式人工智能产业应结合实际情况，在监管框架下合理区分各方的主体责任，加强治理主体的联动及

149、治理任务的协同，提高社会治理效率，有效推动敏捷治理的落地实施，降低治理成本和发展约束，以争取更多的创新空间。2.2.5 吸收多方意见、沉淀各界观点用于产业发展科技企业作为产业治理的核心角色，应主动将内外部、多方面、跨学科的知识融入敏捷组织、敏捷开发的治理中，在技术研发路径、选型适配和市场应用等节点上，适时、适当地引入政府、学界、公众等可信第三方的观点和建议，将其融入技术发展目标设定之中，并持续沟通、快速迭代、敏捷试错，不断优化技术发展路线。【实践案例】阿里巴巴发起这个 AI 不太冷系列研讨会，以“相信科技的力量，创造美好的未来”为目标，邀请跨学科产学研专家，一起就热点争议话题共同探讨人工智能技

150、术的伦理、能力、风险，以及应对实践和未来规划，让生成式人工智能可用、可靠、可信、可控，为生成式人工智能技术的可持续发展贡献力量。84生成式人工智能治理与实践白皮书2.3 社会监督理解2.3.1 普及新技术，弥合公众认知鸿沟建设可持续发展的人工智能，是一个跨多学科、综合性强和智力密集的复杂工作。人工智能发展所面临的难题，单凭一家企业、一所高校或是一个机构是不可能独立解决的。企业需要聚拢跨学科的产学研伙伴，共同打磨自律的行业规范，弥合公众的认知鸿沟，打破生成式人工智能一贯冰冷深奥的印象，打造有温度、有趣的 AI 形象；主动向公众阐释技术和治理的新进展，把理解门槛降低、让治理经验透明。【实践案例】阿

151、里巴巴联合高校和产业界发起人工智能治理交互栏目追 AI 的人，关注并分享 AI 新技术、AI 治理新观点、可持续发展新风向。目前已经联合清华大学、北京大学、对外经贸大学、南开大学、浙江大学、重庆邮电大学、中国科学院大学等多家高校和律所，举办了 29 期直播。在人工智能的支撑下，优质数字资源跨越山海，推动新技术交流更加开放。追AI的人受到专业圈和社会公众的持续关注和支持，栏目同步在B站、微信视频号、钉钉、知乎等平台直播，累计超 100 万人次观看，多所高校学生自发组织集体在教室学习。同时，持续以文章回放和科普短视频为载体，对外输出知识，旨在用简单清晰的语言，向公众阐释对于人工智能的普遍疑问，助

152、力公众算法素养的提升，推动社会就人工智能的发展和治理达成共识。852.3.2 校企联合，助力人才培养习近平总书记强调，“中国高度重视人工智能对教育的深刻影响，积极推动人工智能和教育深度融合，促进教育变革创新”。在生成式人工智能发展大浪潮中，人才培养是抓住时代机遇的关键。社会各界应携手打造高质量的人工智能教育生态，用好技术手段、凝聚各方力量，培养顺应时代发展要求的创新人才。【实践案例】为响应教育部产学合作协同育人的号召，落实产教融合、校企合作机制，阿里巴巴联合北京航空航天大学人工智能研究院开展面向全校本科生的人工智能安全与伦理（又名对抗机器学习）课程，企业讲师将业界最新的技术发展动态引入课堂，并

153、运用年轻人喜闻乐见的多元化运营手段，激发学生上课的积极性，让学生们对人工智能安全和伦理相关的概念、技术和应用进行了解，将企业实战场景、前沿技术分享给广大学生，培养人工智能安全人才。86生成式人工智能治理与实践白皮书87六.总结与展望88生成式人工智能治理与实践白皮书大模型推动人工智能的技术飞跃，催生无数技术和应用创新的思想火花，为新一轮的互联网产业发展创造巨大机遇。网络信息内容从用户生成内容(UGC)和专业生产内容(PGC)真正走向了人工智能创造（AIGC），网络内容维度更为多元性，层次更加丰富，表达方式更加多样，为丰富人类的精神文化生活提供了新的信息供给。大模型可以作为接口和桥梁，衔接其他服

154、务或者工具，建立通用智能供给能力。大模型也能与机器人技术相结合，未来生成式智能体（Generative Agents）在世界环境中模拟人类行为的真实性，具备记忆、检索、归纳总结、反思、与其他智能体互动等能力，从虚拟世界到物理世界，模型帮助机器人进行感知、规划和动作执行，大幅提升现实世界的生产力。然而，在这一切美好发生之前，我们需要意识到生成式人工智能还存在着较大的缺陷，需要判断其对人类权益和社会秩序构成的潜在风险，用审慎的态度规划技术发展路径，采取多元协同的方式聚各方合力确保技术在正确的轨道上发展和应用。唯有如此，生成式人工智能才能安全地发展，才能在人类的控制和引导下更加可用、可靠、可信、可控

155、，更好地服务人类需求、推动社会发展。我们需要进行科学的监管和治理，降低生成式人工智能带来的颠覆式创新的负面影响，避免内容生成和传播方式对信息的可控性和安全的风险，保证人工智能与人类知识和价值观正确地对齐。第一，构建目标明确、敏捷协同的治理体系，对生成式人工智能带来的颠覆式创新进行针对性的监管和治理，确保技术在人类掌握下有序发展，被更广泛更好地利用，服务于人类日益增长的美好生活需要，成为了政府、产业乃至全社会的普遍共识。在治理目标上，强调发展和安全的协调统一。一方面要求有效管控核心风险，加强人工智能可信赖和伦理治理水平，避免生成式人工智能对国家安全、产业秩序和社会稳定带来负面影响；另一方面要意识

156、到不发展是最大的不安全，通过技术进步带动产业高质量发展、提高生产效率，保障我国科技发展话语权。在治理方式上，突出以风险为基础的治理机制。生成式人工智能对个人信息、内容安全、模型安全和知识产权等方面带来诸多挑战，以风险为基础的治理要求对各环节的风险点进行识别和判断，根据风险特征、危害性和影响范围进行分类分级，对于处在不同研发阶段、针对不同应用场景、面向不同数量用户的生成式人工智能服务有差异化的风险管理要求。在治理手段上，采用包容、敏捷的新型治理工具。生成式人工智能处在快速发展阶段，其技术路线还在动态演进，产业和社会应用前景尚不明晰，监管和产业需要共同面对诸多不确定性问题，采用监管沙箱、尽职免责等

157、创新容错手段，推动积极沟通、敏捷协作，共同寻找提高安全性、可控性和可靠性的解决方案；同时通过宣传教育，提高公众对于生成式人工智能的认知水平，建立基于信任的人机协作社会生态。总结与展望89第二，针对研发过程设置安全措施，针对重点风险域形成治理方案。在模型训练、服务上线、内容生成、内容传播各阶段，覆盖生成式人工智能服务和产品的全生命周期设置安全措施，避免遗漏风险；在内容安全、个人信息、模型安全、知识产权等重点风险领域，制定专项风险治理方案。在模型训练阶段，要进行对数据的审查和保护，确保训练数据的合法性和安全性。同时，需要加强对模型的审查，防止出现偏差性或歧视性结果。在服务上线阶段，要进行对模型的安

158、全测试和评估，确保其稳定性和安全性。同时，需要加强对用户数据的隐私保护，避免被泄露或滥用。在内容生成阶段，应该倡导人机合作，加强对生成内容的引导和审核，防止出现违法不良信息、歧视与偏见。在内容传播阶段，对生成的信息嵌入隐藏的标识，通过技术手段进行溯源，定位信息发布者，从而在一定程度上解决虚假信息传播的风险。对于个人信息安全、内容安全、模型安全、知识产权四个重点安全领域，应充分考虑 AIGC 与 UGC（用户生成内容）、判别式 AI 的差异性，提出针对性的有效解决方案。例如：生成式 AI 相对于算法推荐服务对个性化要求不高，可主动采用技术手段从源头减少个人信息收集、降低个人信息在训练数据中的比例

159、和真实性；对于输出的合成内容，算法服务可拒绝生成个人信息内容；可采用数据匿名化机制，在保护个人信息的同时，激发更多数据价值。从内容安全角度看，AIGC 相比 UGC 在主体责任、交互性、时效性、内容复杂度、风险范围等多个维度都有较大差异，因此在风险评测定位、模型内生安全、应用安全机制、生成内容追溯机制等方面全面设置针对性的治理机制。在模型安全层面，生成式人工智能模型因其输出空间的自由度更高、网络结构复杂、模型参数和训练数据规模巨大等特点，在鲁棒性、可靠性、公平性、可用性、可解释性等方面都带来了新的风险挑战，应相应地提升治理技术能力，提出针对性治理解决方案。生成式人工智能的知识产权问题，目前仍在

160、热议中，尚未形成统一看法。知识产权问题不宜片面化，既要保护作为训练数据的现有人类智力成果，也需注意创新公平和创造力延续。现阶段宜鼓励平衡相关利益主体的治理方案，既要从源头进行训练数据相关权利人的保护，规避非法爬取，利用水印、区块链等技术，建立生成式人工智能相关知识产权溯源补偿机制；又要挖掘缓存价值，在一定范围上承认生成物的知识产权价值。第三，重视更加技术化的治理手段，提升生成式人工智能在数据、模型、应用等层面的治理技术，促进人工智能产业健康、快速发展。在数据层面，强化数据清洗、预处理、合规审查等标准化技术手段，促进高质量中文数据集发展；增加高质90生成式人工智能治理与实践白皮书量、事实性知识库

161、或者知识图谱，通过检索式增强、知识计算等技术解决大模型“一本正经地胡说八道”等问题，提高生成式人工智能的可信度。在模型层面，研究探索大模型的可解释性问题，包括对世界知识的记忆和存储原理，以及预测阶段的知识提取过程；构建大模型参数修正技术，探索大模型的知识遗忘和知识修改技术，从而针对定向问题进行模型修正；探索更高效的 RLHF 技术，具备更好的泛化性，提升模型和人类知识与价值观的对齐，研发可信赖的生成式人工智能。在应用层面，建立大模型应用系统的风险 Debug 系统，风险修复系统，做到风险提前发现，提前修复；建立应用系统的数据闭环，对风险数据不断进行 RLHF 对齐，不断提升应用系统的安全性。本

162、次技术革命代表了人工智能能力的重大跃迁，其快速的普及和广泛的应用也让人类和机器的关系问题从伦理的星空落入了每一个人的心底，如何可持续地开发更安全、更负责任的大模型，让生成式人工智能更符合人类的价值判断和实际需求，如何在技术研发应用的全周期内提高治理能力，最大限度降低潜在危害，又如何用发展的眼光去看待生成式人工智能新兴技术对传统认知范式的挑战，让制度创新和技术创新相互匹配、相互促进？这些问题需要包括政府机构、科技企业、科研人员、社会公众在内，每一个面向未来的参与者，去一同面对、共担责任、共商共治、协作探索，用更为精准、精确的手段管控生成式人工智能的发展路径，从而确保人工智能始终在人类的掌控之下，

163、并为人类带来更大的福祉和价值。912023 年生成式人工智能治理与实践白皮书2022 年人工智能治理与可持续发展实践白皮书生成式人工智能治理与实践白皮书由阿里巴巴集团、中国电子技术标准化研究院、阿里云智能集团、达摩院联合编写发布。本书从生成式 AI 发展的态势和担忧出发，探讨了生成式 AI 产生的风险，分析了风险产生的原因，提出了敏捷治理、协同共治的治理理念。不仅系统分析了生成式大模型中算力、数据、算法、生态、人才等五大构成条件，还分别对语言大模型、视觉大模型，围绕内容安全、个人信息保护、模型安全和知识产权等风险维度，进行了从产生原因到实践解决方案的深入剖析，助力新技术的健康发展与创新应用。同

164、时，针对生成式 AI 不同环节的风险治理，即从模型训练阶段、服务上线阶段、内容生成阶段、内容传播阶段四大阶段入手，提出了一系列具体的治理措施，期待为各界提供有益的参考。人工智能治理与可持续发展实践白皮书由阿里巴巴集团联合中国信通院编写发布。本书全面总结了阿里巴巴在人工智能治理与可持续发展领域的实践，重点针对当前人工智能应用中的热点问题，从数据、技术、管理及多元协同等方面，系统性介绍了我们的实践思路和方法，同时辅以若干专题进行阐释。白皮书提出，针对当前黑产的作手段和发展趋势，亟需构建大规模、专业化、鲁棒性强的电商反作弊风控平台，助力维护公平的电商生态，包括研发行为风控引擎、加强对抗训练、挖掘风

165、险团伙等，构建覆盖域内+域外、线上+线下、离散行为+聚集团伙、提前预警+主动防控的全方位打击网络虚假交易的能力。92生成式人工智能治理与实践白皮书专业名词解释1.生成式 AI/生成式人工智能生成式人工智能(Generative Artificial Intelligence)是人类设计的一种基于深度学习的技术，能够模拟人类的思维，生成具有一定连贯性和逻辑性的文本、图像、视频、语音、代码等内容。生成式人工智能能够自己创造出新的内容，而不是只能根据输入数据进行处理。2.大模型/生成式大模型大模型是指网络结构复杂、参数规模巨大的深度学习模型。随着技术的发展，多大的模型能够称之为大模型，标准也在变化。

166、生成式大模型，指具有生成能力的大模型。3.AIGCAIGC（Artificial Intelligence Generated Content），指生成式人工智能产生的内容。4.UGCUGC（User-generated Content），指用户生产的内容。5.PGCPGC（Professional Generated Content)，指专业用户生产的内容。6.内生安全内生安全（Endogenous Satety and Security），指一个模型应该凭借自己的能力尽可能避免因为各种原因表现出预期的设计功能之外的行为。7.无监督预训练无监督预训练（Unsupervised Pre-Tra

167、ining），指用来训练模型的数据不包含监督信号，需要模型自动学习到其中有价值的信息。938.有监督微调（SFT）有监督微调（Supervised Fine-Tuning），指在无监督预训练得到的模型基础上，针对特定任务使用少量的有监督信号的数据对其进行重新训练的技术。在这个过程中，模型的参数会在原来的基础上发生一些较小的改变。在完全不修改模型主干的基础上，使用下游任务数据和任务目标，对模型参数进行调整，使模型能够适应下游任务。9.基于人类偏好的强化学习（RLHF）基于人类偏好的强化学习（Reinforcement Learning with Human Feedback），是一种将强化学习与

168、人类反馈（偏好）相结合的技术，其中人类的偏好被用作奖励信号，用于引导模型生成高质量的输出。在不修改预训练模型结构和参数的情况下，仅通过网络学习的方式，设置学习模型的提示语，为模型输入增加提示信息。在获得提示语后，将提示语与下游任务标签组合后一同输入到模型中，得到最终的预测结果。10.深度合成deep synthesis，深度合成是指利用以深度学习、虚拟现实为代表的算法制作文本、图像、音频、视频、虚拟场景等信息的技术。可以认为“生成式人工智能”是“深度合成”概念的真子集。11.Query Query，在本文中指生成式大模型的输入。12.ResponseResponse，在本文中指生成式大模型的输

169、出。13.鲁棒性鲁棒性（Robustness），即模型对于输入中的扰动、对抗性样本或恶意攻击是否具有足够的抵抗力。14.泛化性泛化性（Generalizability），除了在对抗性这种恶意攻击外，生成式人工智能模型在跨域数据、或者是在分布外样本上可能给出不准确、误导性或有害的回答。94生成式人工智能治理与实践白皮书15.公平性公平性（Fairness），尊重既定事实、社会规范和信仰，且不受偏袒或不公正歧视影响的对待、行为或结果。对公平性的考虑是与环境高度相关的，并且因文化、代际、地理和政治观点而异。公平不等于没有偏见。偏见并不总是导致不公平，不公平可能是由偏见以外的因素引起的。16.可信赖可

170、信赖（Trustworthiness），满足利益相关方期望并可验证的能力。依赖于语境或行业，也依赖于具体的产品或服务、数据以及所用技术，应用不同的可信赖特征并对其进行验证，以确保利益相关方的期望能得到满足。可信赖的特征包括：可靠性、韧性、安全性（信息安全、功能安全）、隐私性、可问责、透明性、真实性、质量、实用性等。可信赖作为一种属性用于描述服务、产品、技术、数据和信息，在治理中也用于组织。17.可解释性可解释性（Explainability），系统以人能理解的方式，表达影响其（执行）结果的重要因素的能力。可解释性理解为对“原因”的表达，而不是尝试以“实现必要的优势特性”做出争辩。18.可靠性可

171、靠性（Reliability），实施一致的期望行为并获得结果的性质。19.可控性可控性（Controllability），系统被人类或其它外部主体干预的性质。20.可问责可问责（Accountability），系统及其利益相关方对其行动、决定和行为负责任的状态。可问责与分配的责任有关。责任可能基于法规或协议，也可能通过委托的一部分进行指派。可问责涉及负责人或实体通过特定方法和依据特定条件，对其它人或实体的某些事物负责。21.伦理伦理（Ethics），开展人工智能技术基础研究和应用实践时遵循的道德规范或准则。95完整电子版下载，请微信扫码关注 AAIG 公众号获取22.偏见偏见（Bias），对待特定对象、人员或群体时，相较于其他实体出现系统性差别的特性。对待指任何一种行动，包括感知、观察、表征、预测或决定。23.透明性透明性（Transparency），系统与利益相关方交流关于该系统适当信息的特性。系统透明性相关的信息一般包含特性，性能，缺陷，组件，程序，度量，设计目标，设计选择和假设，数据源及标注协议。对系统某些方面不适当的暴露一般会违背安全、隐私或保密要求。2023 年11 月第二次印刷96生成式人工智能治理与实践白皮书