标签归档:AI

AI 大时代要懂的 2 种「编程范式」

2023 年 AI 新突破导出不穷,隔两个月就会有一个爆点出来,AI 迎来了一个新的里程碑时刻。从 OpenAI 推出的 ChatGPT 到 Midjourney 发布的 V5/V6 版本,AI 在各个领域都取得了突破性的进展。随着 AI 技术的日益成熟,我们也开始思考如何更好地利用 AI 工具来提高工作效率。

到 2024 年, AI 应用、AI 配套的框架和工具如雨后春笋。

在这个 AI 大时代,有两种「编程范式」值得我们关注。为什么要打上引号呢?

因为这里所说的编程,已经不再局限于传统意义上的写代码,而是泛指利用各种工具和模型,将它们灵活组合,创造出新的应用和价值。

第一种范式是基于 ComfyUI 的编程。ComfyUI 是一个模块化的 AI 图像生成工具,它允许用户通过拖拽和连接不同的节点,轻松创建出令人惊艳的 AI 艺术作品。在 ComfyUI 上编程,你无需掌握复杂的代码知识,只需要理解每个模块的功能,并将它们以合理的方式组合在一起,就能得到理想的结果。这种直观、易用的特点,使得 ComfyUI 成为了平面设计、插画创作等领域的得力助手。

第二种范式则是基于 LangChain 的编程。与 ComfyUI 注重视觉创作不同,LangChain 的重点在于自然语言处理。通过 LangChain,开发者可以将语言模型与外部数据源相结合,快速构建功能丰富的聊天机器人、智能文档助手等应用。LangChain 提供了一系列现成的模块和接口,使得即使是非 NLP 专业的程序员,也能在短时间内上手并应用到实际项目中。从客户服务到数据分析,LangChain 正在各行各业发挥着重要作用。

相比传统的编程范式,AI 编程更加注重模块化和灵活组合。我们无需从零开始构建一个完整的系统,而是站在巨人的肩膀上,将现有的模型和工具进行拼装和优化。这种方式不仅大大降低了开发门槛,也极大地提高了开发效率。当然,AI 编程范式也并非完美无缺。对于一些需要高度定制化的场景,传统的代码编程仍然不可或缺。此外,AI 工具的使用也对开发者提出了更高的要求,需要我们对各种模型和算法有更全面的理解和把控。

接下来,简单聊一聊这两种「编程范式」,

comfyUI

ComfyUI 是一个基于 Stable Diffusion 的开源 AI 绘图工具,采用了模块化的节点式工作流设计。它通过将 Stable Diffusion 的各个组件和处理步骤抽象为独立的节点,使得用户可以通过直观的拖拽、连接操作来构建复杂的图像生成流程。

ComfyUI 解决了传统 AI 绘图工具易用性差、扩展性低的问题。其模块化设计和直观的 Web 界面大大降低了用户的使用门槛,无需深入了解底层技术细节,即可快速构建和调整工作流。同时,ComfyUI 还提供了强大的自定义节点机制,允许开发者轻松扩展新的功能和模型,使其能够适应不断发展的AI绘图领域。

ComfyUI 最初由开发者 Comfyanonymous 在 2022 年末发起,旨在提供一个简单、直观的 Stable Diffusion Web UI。早期版本实现了基本的节点类型和 Web 界面,展示了其模块化设计的优势,吸引了一批 AI 绘图爱好者的关注。

在 2023 年春夏,ComfyUI 进入了快速发展阶段。项目不断增加新的节点类型,如 ControlNet、Inpaint、Upscale等,支持更多的图像控制和后处理功能。同时,ComfyUI 引入了自定义节点机制,大大扩展了其功能和适用范围。项目也集成了更多 Stable Diffusion 衍生模型,为用户提供了更多选择。

随着用户社区的不断壮大,ComfyUI 的生态也日益丰富。社区成员积极贡献工作流、节点脚本、训练模型等资源,推动项目的发展。ComfyUI 举办了一系列社区活动,促进了用户间的交流和创作。项目代码库也迎来了更多贡献者,社区力量成为 ComfyUI 发展的重要推动力。

2023 年冬至今,ComfyUI 开始着眼于生态融合和应用拓展。项目与其他 AI 绘图工具建立了联系,支持工作流的导入导出和 API 集成。ComfyUI 也开始探索更多应用场景,如虚拟主播、游戏 mod 等,拓宽了 AI绘图的应用范围。越来越多的开发者和公司开始关注和使用 ComfyUI,其发展前景备受看好。未来,ComfyUI 将继续完善节点系统,引入更先进的 AI 技术,并加强生态建设,有望成为 AI 绘图领域的重要基础设施。

ComfyUI 中节点之间的关联是通过连接节点的输入和输出端口来实现的。每个节点都有预定义的输入和输出端口,用户可以在 UI 界面上将一个节点的输出端口连接到另一个节点的输入端口,从而建立节点之间的数据流和执行顺序。

在 ComfyUI 的后端实现中,这种节点关联是通过一个有向无环图来表示的。DAG 是一种常用的数据结构,用于描述一组节点之间的依赖关系和执行顺序。

当用户在 UI 界面上连接两个节点时,实际上是在 DAG 中添加一条边,表示数据从源节点流向目标节点。ComfyUI 会根据 DAG 的拓扑结构,确定节点的执行顺序,并在运行时将数据在节点之间传递。

ComfyUI 中节点关联有一些关键实现细节:

  1. 端口类型匹配:每个节点的输入和输出端口都有预定义的数据类型。在连接节点时,只有类型匹配的端口才能建立连接
  2. 数据传递:当一个节点执行完毕后,它会将结果数据发送到所有连接到其输出端口的节点的输入端口。
  3. 执行调度:ComfyUI 会根据 DAG 的拓扑顺序,确定节点的执行顺序。当一个节点的所有输入数据都准备好时,该节点就可以开始执行。
  4. 并行执行:无依赖关系的节点可以并行执行,提高执行效率。ComfyUI 会自动分析 DAG,找出可以并行执行的节点。
  5. 缓存优化:对于某些计算量大的节点,ComfyUI 会缓存其计算结果,避免重复计算。当节点的输入数据没有变化时,就可以直接使用缓存的结果。

ComfyUI 通过将节点组织成 DAG 的方式,实现了节点之间的关联和数据流控制。这种设计使得用户能够以可视化的方式创建复杂的图像处理工作流,同时也为并行优化和缓存优化提供了便利。

comfyUI 中核心工作都是围绕其节点,其主要节点如下。

  1. Text Prompt(文本提示)节点:提供文本描述,指导图像生成,输入是用户输入的文本提示如”1girl, brown hair, smile”;输出是编码后的文本向量(tokens)。几乎所有的绘图工作流都需要文本提示节点,它是指定图像内容的主要方式。
  2. Latent Image(潜在图像)节点:表示潜在空间中的图像,可以是随机初始化的噪音,也可以来自其他节点的输出。输入是噪音参数(如seed、尺寸等),或其他节点传递的潜在图像。输出是潜在空间中的图像表示。作为采样起点(初始噪音)或中间结果(如图像修补、图生图等)。
  3. Sampler(采样器)节点:根据条件迭代优化潜在图像,使其解码后符合要求。输入是潜在图像、文本向量、其他条件(如 ControlNet 输出等)、采样步数、采样方法等参数。输出是优化后的潜在图像。采样是图像生成的核心,不同的采样器节点可以权衡生成质量和多样性。
  4. ControlNet 节点:根据附加条件(如边缘、姿态、深度等)控制生成图像。输入是潜在图像、条件图(如 Canny 边缘图)、ControlNet 模型参数等。输出是融合条件控制的潜在图像。用于生成满足特定结构、布局或属性要求的图像,如人像、动漫线稿上色等。
  5. VAE Encode(VAE编码)节点:将 RGB 图像编码为潜在空间表示。输入是 RGB 图像,如用户上传的图片。输出是潜在空间中的图像表示。用于图生图、图像修补、图像融合等需要以图像为起点的任务。
  6. VAE Decode(VAE解码)节点:将潜在空间表示解码为 RGB 图像。输入是潜在空间中的图像表示,通常来自采样器节点。输出是 RGB 图像。用于生成最终可见的图像结果。
  7. Upscale(放大)节点:增加图像分辨率,提高细节。输入是 RGB 图像,放大方法和倍数等参数。输出是放大后的 RGB 图像。用于生成高分辨率图像,常在VAE解码后使用。
  8. Inpaint(图像修补)节点:根据 mask 和提示,对图像的指定区域进行编辑。输入是原始图像、mask 图像、修改区域的文本提示等。输出是修改后的图像。用于对生成图像进行局部编辑,如去除伪影、修改细节等。

除了以上常用节点,comfyUI 还有许多其他节点,如图像保存、剪裁、格式转换等,用于图像的后处理和输出。不同节点可以灵活组合,构建多种多样的绘图工作流,满足各类需求。

举个例子,一个常见的工作流是:文本提示节点 -> 潜在图像节点(初始噪音) -> ControlNet节点(添加结构条件) -> 采样器节点(优化潜在图像) -> VAE解码节点(生成RGB图像) -> 放大节点(提高分辨率) -> 图像保存节点(输出最终结果)。

如下图所示:

+-------------------+     +------------------+     +------------------+
|                   |     |                  |     |                  |
|  Load Model Node  |---->|  Text Encode Node|---->|  Latent Image Node |
|                   |     |                  |     |                  |
+-------------------+     +------------------+     +-------------------+
                                                             |
                                                             |
                                                             v
                                                   +-------------------+
                                                   |                   |
                                                   |  ControlNet Node  |
                                                   |                   |
                                                   +-------------------+
                                                             |
                                                             |
                                                             v
+------------------+     +------------------+     +------------------+
|                  |     |                  |     |                  |
|  Upscale Node    |<----|  VAE Decode Node |<----|  Sampler Node    |
|                  |     |                  |     |                  |
+------------------+     +------------------+     +------------------+
         |
         |
         v
+------------------+
|                  |
|  Output Image    |
|                  |
+------------------+

通过对节点的连接配置和参数调整,用户可以精细控制每个步骤,实现理想的 AI 绘图效果。同时,comfyUI 也鼓励用户开发和分享自定义节点,不断扩展其功能和应用领域。

在理解 ComfyUI 的原理时,其核心还是理解 SD 的原理,简单来讲是通过大模型、CLIP 和 VAE 编码器以及采样器的协同工作,将文本提示转换为特征马赛克,再通过 VAE 解码器还原成图像,从而实现基于文本描述生成图像的功能。

LangChain

什么是 LangChain?

LangChain 是一个开源的 Python 框架,旨在帮助开发者更容易地构建基于大语言模型(LLM)的应用。它提供了一系列工具和组件,可以方便地与各种 LLM 模型集成,如OpenAI GPT、Anthropic Claude、Google PaLM等,而无需从头开始构建或进行大量的微调。

LangChain 旨在简化和统一语言模型与外部数据和应用程序的集成过程。它为开发者提供了一套灵活的工具和组件,可以轻松地将 OpenAI、Hugging Face 等流行的语言模型与知识库、API 等数据源相结合,从而快速构建功能强大的自然语言处理应用,如聊天机器人、智能文档助手、问答系统等。

LangChain 解决了语言模型应用开发中的诸多痛点。在 LangChain 出现之前,开发者需要编写大量的胶水代码来处理不同模型和数据源之间的交互,这不仅耗时耗力,也容易引入错误。LangChain 通过提供一致的接口和预构建的组件,大大简化了这一过程。它还引入了 Prompt Engineering 的理念,允许开发者通过设计优化的提示模板来引导模型生成更准确、更符合需求的输出。

LangChain 的发展历程可以追溯到 2021 年底。最初,它只是一个简单的概念验证项目,旨在探索如何将语言模型与外部数据集成。随着 ChatGPT 等大语言模型的出现和 NLP 技术的快速发展,LangChain 的潜力开始受到关注。

2022 年,LangChain 迎来了重大更新和扩展。它引入了更多的集成选项,支持了更多种类的数据源和下游应用。同时,LangChain 的社区也在不断壮大,越来越多的开发者开始贡献代码和分享经验。

2023 年,伴随着 AI 的大爆发,LangChain 迎来了爆发式增长。它成为了开发 AI 应用的必备工具之一,在各大技术论坛和社交平台上频频被提及。LangChain 也加速了版本迭代和功能更新,引入了更多高级特性,如 Agent 和 Memory,进一步增强了其适用性和性能。

如今,LangChain 已经发展成为一个成熟而强大的 NLP 应用开发框架。它不仅帮助开发者大幅提高了开发效率,也为各行各业带来了前所未有的智能化应用。展望未来,LangChain 还将持续演进,与最新的 AI 模型和技术保持同步,为开发者和用户带来更多惊喜。

LangChain 的核心是将 LLM 与外部数据源连接,并通过 prompt engineering 技术来优化 LLM 的输入输出,从而生成更加准确、相关的结果。它的主要组件和功能如下:

  1. 模型输入输出(Model I/O):对接各种 LLM 模型的 API,提供统一的接口。支持 OpenAI、Anthropic、Hugging Face 等主流 LLM 服务商。
    • 语言模型(Language Models):支持大型语言模型(LLM)和聊天模型(ChatModel)的交互接口。
    • 提示模板(Prompt Templates):用于生成模型输入的预定义配方,支持两种主要类型是:PromptTemplate:生成字符串提示 和 ChatPromptTemplate:生成聊天消息列表提示。
    • 示例选择器(Example Selectors):提供训练、调优、测试和控制模型行为的示例输入输出。
    • 输出解析器(Output Parsers):用于将模型返回的文本结果格式化为目标对象、JSON 或数组等。
  2. 数据连接(Data Connection):在许多 LLM 应用程序中,用户特定的数据不在模型的训练集中,这可能是通过检索增强生成(RAG)实现的。RAG 的主要方法是检索外部数据,并在生成步骤中传递给 LLM。这样,LLM 就可以使用外部数据来增强生成的结果,从而提高应用程序的性能和准确性。
    • 文档加载器(Document Loaders):将不同数据源的非结构化文本加载为文档对象,并支持延迟加载。
    • 文档转换器(Document Transformers):对加载的文档进行处理,包括文本拆分、冗余过滤、元数据提取等。
    • 文本嵌入模型(Text Embedding Models):将文本转换为向量表示,用于文本检索、信息推荐、知识挖掘等。
    • 矢量存储(Vector Stores):负责存储嵌入数据并执行矢量搜索。
    • 检索器(Retrievers):从大规模文本库中检索与查询相关的文本段落,提供问答系统的额外上下文支持。
  3. 链(Chains):组件化的方式将一系列操作连接在一起形成数据处理的工作流,如数据检索、内容生成、翻译等可复用的任务执行流程。常见的链包括 LLMChain、SequentialChain、RouterChain 等。
    • 基础链(LLMChain):围绕语言模型的简单链。由提示模板和语言模型组成,用于格式化提示并返回 LLM 输出。
    • 路由链(RouterChain):可以动态选择下一条链,包括 LLMRouterChain 和 EmbeddingRouterChain。
    • 顺序链(SequentialChain):将多个链顺序连接,支持 SimpleSequentialChain 和更通用的 SequentialChain。
    • 转换链(TransformChain):在链之间添加自定义转换函数。
    • 文档链(DocumentsChain):处理多个文档输入。
  4. 记忆(Memory):为 Chains 和 Agents 提供对话状态记忆能力,用于在链之间存储和传递信息,实现上下文感知。常见的包括 ConversationBufferMemory、ChatMessageHistory 等。
  5. 代理(Agents):一种特殊的 Chain,可根据目标进行工具选择、动作规划和迭代求精。使用 LLM 作为大脑自动思考和决策,执行动作完成任务。包括 ZeroShotAgent、ReAct、Self Ask With Search 等。
  6. 回调(Callbacks):连接到 LLM 申请的各个阶段,用于日志记录、监控等。

LangChain 主要解决了以下问题:

  • 简化了与不同语言模型的交互。
  • 提供了标准化的方法来生成和管理提示。
  • 允许用户为模型提供示例输入输出,以优化模型性能。
  • 支持非结构化文本的加载、转换和处理。
  • 使文本嵌入和检索更加方便,支持向量空间中的各种运算。
  • 通过链的概念,允许将多个组件组合成复杂的工作流程。
  • 实现了对话的上下文感知能力。
  • 通过代理自动执行任务,提高了应用的智能化水平。

那如何使用呢?

使用 LangChain 的一般步骤可能包括:

  1. 根据需求选择合适的组件,如语言模型、提示模板等。
  2. 使用文档加载器加载数据,并利用文档转换器进行预处理。
  3. 配置链,将不同的组件组合起来,创建工作流程。
  4. 利用记忆组件在链之间传递上下文信息。
  5. 定义代理,使用 LLM 进行自动决策和执行。
  6. 设置回调,进行日志记录和监控。
  7. 根据具体应用场景进行调整和优化。

在使用过程中有一些注意的事项:

  1. 根据任务选择合适的 LLM:不同的 LLM 适用不同任务,并有不同的使用成本,需要根据实际情况权衡。在使用 LangChain 前,需要明确了解自己的需求和应用场景,选择和配置合适的组件和模型。
  2. 注意提示工程:LLM 的效果很大程度取决于提示的设计,需要遵循最佳实践,多进行实验和迭代。
  3. 数据的隐私和安全:在涉及用户数据时,注意数据的安全性和隐私保护,遵循相关法律法规和最佳实践。特别是在 fine-tuning 或者数据索引时,要注意数据的隐私和版权问题。
  4. 模型的公平性和伦理性:LLM 可能会放大数据中的偏见,产生有害或者不道德的内容,需要谨慎使用。
  5. 应用的可解释性:端到端的 LLM pipeline 往往是个黑盒,要考虑如何向用户解释其工作原理和局限性。
  6. 成本和效率优化:要密切关注 LLM 调用次数、向量检索等环节的耗时和费用,权衡精度和成本。对于大规模数据处理或高吞吐量的应用,需关注性能优化,可能需要并行处理、缓存机制、硬件加速等手段。

通过合理的使用和配置,LangChain 可以极大地简化复杂 AI 应用的开发流程,提高开发效率和应用性能。LangChain 的设计使得开发者可以灵活地构建和定制 AI 应用程序,以适应不同的业务需求。

LangChain 适用于构建各种 LLM 驱动的应用,比如智能对话助手、知识库问答、数据分析、文案创作等。LangChain 正在成为 LLM 应用开发领域的生产力工具,促进更多创新产品和服务的诞生。

小结

AI 编程范式正在为我们开启一个全新的创作空间。ComfyUI 让设计变得前所未有的简单,LangChain 则让智能对话唾手可得。站在时代的十字路口,拥抱 AI,学习新的编程范式,我们就能更从容地迎接未来的挑战与机遇。

但,纸上得来终觉浅,绝知此事要躬行。

在实际的工作中,这些要用起来,才能有更深刻的体会。

以上。

快速了解文生图 AIGC 的 15 个关键词

冯唐在《成事心法》中提到过这样一个观点:「只要你把这 100 个相关的关键词搞清楚,而且每个关键词,你都能给出合理的答案,那么你也可以成为这个领域的专家」。

想要快速了解 AIGC 文生图,从了解下面的 15 个关键词开始吧。

AI 概念名称

AI

AI,Artificial Intelligence,人工智能

人工智能这个词在大众想象中常常会勾起有关自主思考的机器人和智能机器的画面。但核心上,AI 是关于创建智能算法的学科,目的是执行通常需要人类智慧才能完成的任务。人工智能的概念自 20 世纪中叶以来就已存在,但它是在 1956 年的达特茅斯会议上,由约翰·麦卡锡正式提出的术语。

从那时起的几十年里,AI 已经从理论概念演变成一个涵盖机器学习、神经网络和深度学习等的强大领域。如今,AI 不仅仅是一个研究领域;它已成为我们日常生活中不可或缺的一部分,改变着行业并创造出曾经只存在于科幻小说中的新可能性。

AGI

AGI,Artificial General Intelligence,人工通用智能,也称为强人工智能或全能 AI

AGI 指一种具有普遍的认知能力的机器智能,它能在各种领域和任务中表现出与人类相当或更高的效能。与目前的人工智能系统(被称为弱 AI 或专用 AI )不同,这些系统通常设计用来解决特定问题或执行特定任务,AGI 将能够像人类一样学习、理解、推理和应用知识于新的和多样化的情境中。

AGI 的概念和 AI 一起发展,但成为独立研究的重点是在 21 世纪初

AIGC

AIGC,AI Generated Content,AI 生成内容

AIGC 指的是通过人工智能算法自动创建的内容,这些内容可以包括文字、图像、音频、视频和其它多媒体格式。

现在主要是利用了像生成对抗网络(GANs)和 Transformer 模型等技术,这些工具能够生成逼真和具有创造性的输出。

在文本领域,AIGC体现在自动撰写新闻、小说创作、营销文案编写等;在视觉艺术领域,AIGC 则能够创作出新的图像作品、动画和视频。

AIGC 技术的优势在于其高效性和能够处理大量内容的能力,从而在一定程度上减轻了人类内容创作者的负担,并为他们的工作提供辅助。例如,新闻机构可以利用 AIGC 生成初稿或基于数据的报告,艺术家可以使用 AI 来生成新颖的素材或灵感,而企业可以通过 AIGC 定制个性化的广告内容或提供客户支持。

然而,AIGC 也带来了一些挑战和风险。在版权和创意归属方面,AIGC 生成的内容可能引起版权所有者的争议。此外,AIGC 产生的内容可能被滥用,例如制作虚假新闻或所谓的深度伪造内容,这些都可能对公众信息的真实性和信任造成影响。

尽管存在挑战,AIGC 的未来发展前景依然被广泛看好。随着算法的不断进步和创作工具的日益智能化,AIGC 有望在提高内容创作效率、降低成本以及驱动创新方面发挥重要作用。同时,它也将促进新的艺术形式和娱乐方式的产生,为人类文化和创意表达开辟新的可能性。

GPU

图形处理单元 (GPU) 是一种专门设计来处理计算机图形和图像处理任务的芯片。

GPU 的历史可以追溯到 1990 年代初,但是它作为通用计算设备在 21 世纪初开始流行。NVIDIA 在 1999 年推出了市场上第一个真正的GPU,名为 GeForce 256。

GPU 最初是为了加速电脑游戏中的图形渲染而设计的,但它也已经成为现代人工智能和深度学习领域的核心硬件组件。

GPU 的设计理念是处理成千上万的并行任务,这使得它在执行大规模且复杂的计算时特别高效。与 CPU 的少量核心相比,GPU 拥有大量的小核心,它们可以在同一时间处理大量的数据。

GPU 内部的核心可以分为不同的类型,包括着色器核心、纹理单元和渲染输出单元等,共同执行复杂的图形处理操作。这些核心特别适合执行深度学习所需的高度并行的矩阵和向量运算。此外,GPU 的高内存带宽允许快速的数据读取和写入,这对于处理大型深度学习模型和数据集是必需的。

在 AI 应用中,GPU 显著加速了深度学习模型的训练和推理过程。训练过程涉及到数据的前向传播和反向传播算法,用以计算损失函数并且更新网络的权重。这些计算步骤需要重复进行,并且每一步都要处理大量的数据。GPU 可以同时执行这些步骤中的多个操作,从而大大减少了训练时间。

除了硬件上的优势,GPU 制造商还提供了专门优化的软件工具和库,如 NVIDIA 的 CUDA 和 cuDNN,这些工具为深度学习任务提供了额外的加速。这些软件库简化了在 GPU 上编程的过程,使研究人员和开发人员能够更容易地利用 GPU 进行大规模并行计算,而不需要深入了解其底层硬件架构。

无论是在科学研究、游戏渲染、多媒体内容创作还是 AI 和机器学习的推进中,GPU 都已经成为不可或缺的计算工具。它的并行处理能力、高速内存带宽和专用软件库共同推动了当今最前沿技术的发展,使得AI的训练和部署更加快速和高效。随着技术的进步,GPU 在现代计算生态系统中的作用将继续扩大。

AI 产品

DALL-E 系列

DALL-E 是一个由 OpenAI 研发的人工智能系统,能够根据文本描述生成相应的图像。这个名字是对艺术家萨尔瓦多·达利(Salvador Dalí)和动画片《WALL-E》的致敬。

DALL-E 于 2021 年 1 月 5 日由 OpenAI 首次发布;2022 年 4 月,OpenAI 宣布了新版本的DALL-E 2,声称它可以从文本描述中生成照片般逼真的图像,另外还有一个允许对输出进行简单修改的编辑器。2023 年 9 月份发布 DALL・E ‍3,与 2 相比,它可以利用 ChatGPT 生成提示,然后让模型根据该提示生成图像。

DALL-E 能够生成各种风格的图像,从照相写实主义图像到绘画和表情符号。它还可以「操纵和重新排列」图像中的对象。其创作者指出DALL-E 的一项能力是在没有明确指示的情况下将设计元素正确放置在新颖的作品中

DALL-E 使用了 Transformer 架构,这种架构最初是为了处理自然语言处理任务而设计的。OpenAI 通过将 Transformer 与生成对抗网络(GANs)等图像生成技术结合,使 DALL-E 能够理解文本提示并创造出新颖的、与文本内容相符的图像。

DALL-E 的技术架构基于 GPT-3 的多模态版本,它具备 120 亿个参数,并通过网络上收集的大量文本-图像对进行训练。这种训练使得 DALL-E 能够进行零样本学习,即在没有额外训练的情况下根据描述生成图像。生成的图像随后由 CLIP 模型进行评分和筛选,以提供最高质量的输出。CLIP 自身是一个强大的图像识别系统,它使用了超过 4 亿对图像和文本对进行训练,从而能够将图像与大量文本相关联,并识别出训练集之外的图像内容。

Midjourney

Midjourney 是由 Midjourney 公司开发的一种基于扩散模型的图像生成平台,于 2022 年 7 月进入公测阶段,面向大众开放。

Midjourney 的绘画能力很强,几乎无需 prompt 能力即可得到效果很不错的图,人像、细节方面尤为突出。

与大部分同类服务不同,Midjourney 选择在 Discord 平台上运行,用户无须学习各种烦琐的操作步骤,也无须自行部署,只要在Discord 中用聊天的方式与 Midjourney 的机器人交互就能生成图片。这一平台上手门槛极低,但其生成的图片效果却不输于 DALL·E 和 Stable Diffusion ,于是很快赢得了大量用户。据 Midjourney 的创始人大卫·霍尔兹(David Holz)介绍,仅在发布一个月之后,Midjourney 就已经盈利。

在 2022 年 9 月 5 日,在美国科罗拉多州博览会的年度美术比赛中,一张名为《太空歌剧院》的画作获得了第一名,然而这幅画并非出自人类画家之手,而是由游戏设计师杰森·艾伦(Jason Allen)使用 Midjourney 生成,再经 Photoshop 润色而来。它是首批获得此类奖项的人工智能生成图像之一。

Midjourney 创始人 David Holz 在说到关于 Midjourney 背后的理念时有说到:

MJ 的目标是成为新的人类基础设施,这样才能支撑更多人构建新事物。所以 MJ 的主题是反思、想象和协调。反思自己是谁,想要什么;想象会是什么;协调大家如何抵达。同时也会思考其人性的一面,例如人类通过计算机来想象就能像汽车旅行一样,这意味着什么;又或者人类在想象的过程中以什么方式互动等。

MJ 其实是水。人们误解了人工智能是什么,就像认为其是一只老虎,会吃掉我们。但其实水也很危险,能淹死我们,但流动的河水和老虎完全不同,水是危险的,但是你可以在其中游泳,造船,建造发电站等。水虽然是危险的,但却是文明的驱动力,作为知道如何与水共处的人类,我们能过的更好。水没有意志,也没有恶意,你可以淹死在其中,但并不能应该因此惧怕并禁止水。所以 MJ 试图弄清楚的是,我们如何将其用于人们?我们如何教人们游泳?我们如何造船?我们怎么把它堵起来?我们如何从害怕溺水的人变成未来冲浪的孩子?我们正在制造冲浪板而不是制造水。这才是一些深刻的意义。

困难和有趣是事情的两面,MJ 面临的许多问题无法量化。比如什么是一张「好的狗狗照片」,这很难回答,但也因此有趣。类似的问题还有「什么是好的图像」「人们想从图像中得到什么」「他们是如何沟通的」「他们如何通过文字描绘出他们想要的东西」 —— 这些问题几近哲学,但却很让人喜欢。

关于愿景,希望能以某种方式创造一个更有想象力的世界。因为今天世界最大的问题是信仰崩溃,包括对自己的,对未来的信念。而造成这种问题的主要愿意那就是缺乏想象力,缺乏自己可以成为什么人的想象力,缺乏对未来的想象力。所以想象力才是我们在世界上所需要的东西的重要支柱。所以我想通过 MJ 来将其变成一种可以「扩展人类想象力的力量」

当计算机比 99% 的人类更善于视觉想象时,这意味着什么?这并不意味着我们将停止想象。汽车比人类快,但这并不意味着我们停止步行。当我们远距离运输大量物品时,我们需要发动机,无论是飞机、轮船还是汽车。我们将这项技术视为想象力的引擎。所以这是一个非常积极和人性化的事情。

midjourney.com/showcase

Stable Diffusion

Stable Diffusion 是由 CompVis、Stability AI 和 LAION 的研究人员实现并开源的。从 Stable Diffusion 模型应用用户的角度来看,其核心是根据文本生成图像,可以通过一些技巧,或通过调整用户参数,来改变文本生成图像的过程,从而达到优化最终生成图像的目的。

得益于其卓越的图片生成效果、完全开源的特点以及相对较低的配置需求(可在消费级GPU上运行),在推出后不久它就流行开来,大量开发者以及公司加入它的社区参与共建,同时,还有很多公司基于 Stable Diffusion 推出了自己的 AI 绘画应用。

Stable Diffusion 是 AI 绘画最为重要的开源力量,创业生态的基石

Stable Diffusion 在多个方面表现出色,尤其是在图像质量和生成速度方面。它能够根据复杂的文本描述生成高分辨率和高质量的图像,这在以前的模型中往往难以实现。Stable Diffusion 还能够处理多样化的艺术风格和主题,从现实主义到超现实主义,从肖像画到风景画,甚至是科幻和奇幻的主题。用户可以通过详细的文本提示,引导模型创造出各种各样的视觉内容。

Stable Diffusion 的核心技术包括变分自编码器(VAE)和转换器网络。它通过大规模的图像和文本对数据集进行训练,学习了如何解释文本提示并将其转换为相应的图像。这种结合了自编码器和转换器的架构,不仅使得图像生成过程更为高效,而且还有助于保持生成图像的多样性和创造性。此外,Stable Diffusion 的模型训练采用了强调数据质量和多样性的方法,以确保生成的图像既准确又引人入胜。

AI 公司

OpenAI

OpenAI 成立于 2015 年 12 月,由埃隆·马斯克、萨姆·奥特曼、格雷格·布罗克曼、伊莱亚·萨斯克、约翰·舒尔茨菲尔德等科技行业领袖共同发起。OpenAI 的初衷是作为一个非营利组织,旨在推动和发展友好的人工智能,确保人工智能的发展能够惠及全人类。

在成立之初,OpenAI 提出了一系列雄心勃勃的目标,包括在人工智能领域进行开创性的研究,并且将研究成果公开分享,以促进整个领域的发展。OpenAI 迅速在人工智能研究领域崭露头角,特别是在强化学习和深度学习的应用上取得了显著的成就。

OpenAI 原本是以非营利组织的身份成立的,但在 2019 年初,OpenAI 宣布将采取一种新的「有限利润」公司结构,即 OpenAI LP,这是为了吸引更多的投资以支持其研究和开发。这个结构允许外部投资者投资,但限制了投资回报率。OpenAI LP 的创始投资者包括 Kholsa Ventures、Reid Hoffman 的基金、微软等。

所以,OpenAI 这个美国人工智能研究实验室由非营利组织OpenAI Inc,和其营利组织子公司 OpenAI LP 所组成。

OpenAI 已经推出了多个影响深远的产品和技术,其中包括 GPT 系列、DALL-E 系列、CLIP、Codex等。

除了这些产品,OpenAI 还在多个领域进行研究,包括机器人、强化学习、游戏(如Dota 2中的AI)、自然语言理解和生成等。

Stability AI

Stability AI 是由首席执行官 Emad Mostaque 创立的初创公司。Mostaque 毕业于牛津大学,拥有数学和计算机科学硕士学位(据福布斯的爆料说,其仅为学士学位)。他曾在多家对冲基金担任分析师,后来转向更加公众化的工作。Mostaque 在 2020 年创立了 Stability AI,旨在解决开源人工智能社区中的「组织」问题。

Stability AI 拥有超过 4,000 个 Nvidia A100 GPU 的集群,用于训练 AI 系统,包括 Stable Diffusion。然而,维护这个集群非常昂贵,据报道,Stability AI 的运营和云计算支出超过了 5000 万美元。但是,Mostaque 反复表示,公司的研发将使其能够更高效地训练模型。

除了 Stable Diffusion,Stability AI 还可能提供包括自然语言处理工具、数据分析服务以及 AI 模型定制和咨询服务在内的多种产品和解决方案。公司倡导开源精神,通过提供开源工具和资源,鼓励技术社区的参与与合作,以促进人工智能技术的创新和发展。

为了支持更大规模的用户定制版本的 Stable Diffusion,并投资更多的超级计算能力,Stability AI 在最近一轮融资中筹集了1.01 亿美元。这笔资金还将用于招聘更多员工,Mostaque 预计在未来一年内将员工规模从 100 人增加到 300 人。此外,Stability AI 还计划开发其他可商业化的项目,包括用于生成音频、语言、3D 和视频的 AI 模型。

模型相关

VAE

VAE,Variational Auto-Encoder,变分自编码器

VAE 是一种深度学习模型,用于学习输入数据的概率分布,并生成新的数据样本。它由两大部分组成:编码器将输入数据转换为潜在表示,解码器则将这些潜在表示转换回原始数据空间。VAE 的目标是通过最小化重构误差和正则化潜在空间来训练模型,从而能够生成与训练数据相似的新样本。

VAE 是在自编码器的基础上发展而来,它引入了概率图模型的概念,使得生成的数据能够具有多样性和连续性。自从 2013 年由 Kingma 和 Welling 提出以来,VAE 成为了无监督学习和生成模型领域的一个重要里程碑,催生了一系列相关研究和更复杂的模型变种。

VAE 模型是一个经典的生成式模型,在传统深度学习时代,GAN 的风头完全盖过了 VAE,但 VAE 简洁稳定的 Encoder-Decoder 架构,以及能够高效提取数据 Latent 特征和 Latent 特征像素级重建的关键能力,让其跨过了周期,在 AIGC 时代重新繁荣。

VAE 在 AIGC 领域中非常有用,尤其是在图像生成、文本生成、音乐创作等创造性任务中。它的特点是能够创建一个平滑且连续的潜在空间,使得我们可以通过遍历这个空间来生成具有细微变化的数据样本。此外,VAE 的正则化特性也使其在处理复杂数据分布时具有鲁棒性,并且能够有效防止过拟合。

技术上,VAE 的核心是基于神经网络的编解码器架构。编码器网络将数据映射到潜在空间的参数(均值和方差),而解码器网络则从潜在空间中采样点并重构数据。这个过程中,VAE 使用变分推断来逼近真实数据的概率分布,并通过一种特殊的损失函数(结合重构损失和KL散度)来训练网络。

CLIP

CLIP,Contrastive Language-Image Pre-training,对比图文预训练模型

CLIP 是 OpenAI 开发的一种多模态深度学习模型,设计用来理解图像内容及其对应的文本描述。通过将图像与文本匹配,CLIP 学会了识别图像中的物体、场景和动作,并理解相关的自然语言描述,如标签、说明和标题。

CLIP 包含两个主要部分:一个图像编码器和一个文本编码器。这两部分编码器在一个统一的向量空间内进行对比学习,以便最小化匹配文本和图像对之间的距离。这种方式允许 CLIP 在视觉和语言任务上表现出色。

CLIP 通过对比学习的方法进行预训练,学习了大量图像和文本对的共同表示。它超越了传统的图像分类模型,因为它不仅能够识别图像内容,还能理解与之相关的复杂文本信息。

CLIP 的主要特点是其对抗学习方式,类似于生成对抗网络(GAN)。在训练过程中,图像编码器致力于最小化匹配的文本和图像之间的距离,而文本编码器则尝试最大化它们之间的距离。这种方法有助于模型学习到更丰富、更准确的图像和文本表示。CLIP 在各种图像分类任务上都表现出色,并能够理解图像中的复杂概念,这使得它在多种视觉应用中非常有用。

CLIP 的应用非常广泛,包括但不限于图像检索、视觉问答、视觉导航以及图像生成。此外,基于 CLIP 的原理,OpenAI 还开发了 DALL-E 模型,该模型能够根据文本描述生成相应的图像。

Diffusion

Diffusion 模型是一种生成模型,用于在人工智能生成内容(AIGC)中创建高质量的图像、音频或其他数据形式。

Diffusion Model 的灵感来自 non-equilibrium thermodynamics (非平衡热力学), 理论首先定义扩散步骤的马尔可夫链,缓慢地将随机噪声添加到数据中,然后学习逆向扩散过程以从噪声中构造所需的数据样本。

与传统的生成模型如 GANs 不同, Diffusion 模型通过模拟数据的概率分布来生成新的实例。这些模型从一个随机噪声分布开始,逐渐引入结构,最终生成与训练数据类似的样本。扩散模型是通过固定过程学习,并且隐空间具有比较高的维度。

Diffusion模型建立在去噪自编码器等前期工作的基础上,并因其在生成高质量样本方面的卓越性能而受到关注。与容易出现训练困难和模式崩溃的生成对抗网络(GANs)相比,Diffusion模型的训练过程更加稳定,能够更可靠地生成多样化的高质量内容。

技术上,Diffusion模型包含正向扩散过程和逆向扩散过程。正向过程逐步加入噪声,直至数据完全随机化;而逆向过程则是学习如何从随机噪声中重建数据,这是通过训练一个神经网络来实现的,它能够在每一步预测并减少噪声,逐渐恢复出清晰的数据。

Diffusion 模型在过去几年中得到了快速发展,部分原因是它们在生成高质量样本方面的能力,尤其是在图像和音频生成上。它们在质量和多样性方面逐渐超过了 GANs,这是因为 Diffusion 模型在训练过程中更加稳定,并且它们生成数据的方式更加符合数据的内在分布。

Diffusion 模型在多种场景下都有应用,例如在图像生成领域,可以创造出不存在的逼真物体、场景和人物图像;在文本到图像的合成中,可以根据文本描述生成相应的图像;还可以用于音频合成,生成音乐和语音;或用于数据增强和图像超分辨率等领域。

Disco Diffusion

Disco Diffusion 是一个开源项目,它是一种结合了多种人工智能技术的扩散模型,旨在将文本描述转换为详细的图像。它通过理解语言提示,并将这些提示映射到丰富的视觉表现上,实现了从抽象概念到具体图像的创造性转换。该模型可以接受复杂的文本输入并生成与之相匹配的高质量图像,使用户能够直观地表达和实现他们的创意构想。

Disco Diffusion 的发展是建立在深度学习和生成模型领域的一系列创新之上的。最初的扩散模型在生成逼真图像方面已经取得了突破,但当结合了理解文本和图像关系的 CLIP 模型时,这些生成模型的能力得到了极大的扩展。Disco Diffusion 是这一进展的产物,它不仅继承了先前模型生成高质量图像的能力,还加入了对文本的理解,从而实现了更为直观和创造性的图像生成。

Disco Diffusion 的技术架构是基于扩散模型的,这是一种逐步引入并去除噪声以生成数据的方法。在这个基础上,Disco Diffusion 集成了 OpenAI 的 CLIP 模型,后者训练用于理解图像内容与自然语言描述之间的关联。该模型可能还结合了类似于生成对抗网络(GANs)的组件来提升最终图像的质量,以及变分自编码器(VAEs)来增强图像的多样性和创意表达。

Disco Diffusion 的主要特点是其能够将文本描述转化为高分辨率、高质量的图像。它通过灵活地理解和应用文本提示,结合了随机性和算法控制,生成独一无二的艺术作品。与传统的生成模型相比,Disco Diffusion 在保留图像真实感的同时,提供了更丰富的细节和更深层的创造性探索,使其成为 AIGC 领域中的一个创新和有影响力的工具。

Disco Diffusion 在艺术创作、媒体制作、设计和教育等多个领域都有广泛的应用。艺术家可以使用它来将他们的诗歌或故事变成视觉艺术作品;设计师可以通过它快速生成设计概念图;媒体制作者可以利用它为视频或游戏创造复杂的背景;教育者可以用它来激发学生的创造力并解释抽象概念。

Imagen 系列

Imagen 是 2022 年 5 月 Google Brain 团队研发的一个先进的文本到图像生成系统,它通过深度学习模型将文字描述转换为视觉图像。这种模型的核心功能是捕捉和解析人类语言中的复杂概念,并将这些概念以图像的形式表现出来,生成与文本描述高度一致且视觉上引人入胜的图像。

根据发布在 arXiv 的研究论文中,Imagen 使用了 Transformer 语言模型将文本转换成嵌入向量序列,三个连续的扩散模型将这些向量转换成高清图片。研究团队还开发了 U-Net 改进型扩散模型(Efficient U-Net)以及新的评估工具 DrawBench。Imagen 在 COCO 基准上取得了 7.27 的 FID 分数,优于 DALL-E 2。

与使用图像-文本数据集训练不同,Imagen 仅使用文本编码器(如T5)来处理输入文本。然后,扩散模型将嵌入向量转换为图像,通过迭代去噪过程生成高质量图片。

在 2023 年底 Google 发布 Imagen 2。Imagen 2 最与众不同之处在于,它能够以惊人的准确性,理解复杂抽象的概念,然后把这个概念可视化,细腻之程度令人惊叹!

Imagen 2 的核心,还是复杂的神经网络架构。经过微调的 Transformer 模型,在文本理解和图像合成上,都表现出了无与伦比的性能。

SDXL

SDXL,Stable Diffusion XL,该模型是在 2022 年 AIGC 元年后推出的。其开发历程包括从 0.9 测试版到基于用户反馈的1.0正式版的逐步迭代,不断优化以提高图像质量。

SDXL 是 Stable Diffusion 模型的进阶版,由 Stability AI 发布。这个模型通过双阶段扩散过程,即 Base 和 Refiner 模型,提供了高分辨率的图像生成和精细化处理。SDXL 特别适用于要求高细节图像的应用场景,如 AI 绘画和高级设计任务。

与原版 Stable Diffusion 相比,SDXL 引入了多项技术优化。其 U-Net 参数量显著增加,达到 2.6B,显著提高了模型的学习和图像细节处理能力。Refiner 模型的加入进一步提高了图像的精细度,而新的训练技巧,如多尺度训练,优化了整体模型性能。

当输入是图片时,Stable Diffusion XL 和 Stable Diffusion 一样,首先会使用 VAE 的 Encoder 结构将输入图像转换为Latent 特征,然后 U-Net 不断对 Latent 特征进行优化,最后使用 VAE 的 Decoder 结构将 Latent 特征重建出像素级图像。除了提取 Latent 特征和图像的像素级重建外,VAE 还可以改进生成图像中的高频细节,小物体特征和整体图像色彩。

当 Stable Diffusion XL 的输入是文字时,这时我们不需要 VAE 的 Encoder 结构,只需要 Decoder 进行图像重建。

Stable Diffusion XL 使用了和之前 Stable Diffusion 系列一样的 VAE 结构(KL-f8),但在训练中选择了更大的 Batch-Size(256 vs 9),并且对模型进行指数滑动平均操作(EMA,exponential moving average),EMA 对模型的参数做平均,从而提高性能并增加模型鲁棒性。

GPT-4 发布了,关于 AIGC 产品上线前后技术管理者要注意的五个重要事项

GPT-4 于 2023 年 3 月 14 日发布。目前 GPT-4 没有免费版本,仅向 ChatGPT Plus 的付费订阅用户及企业和开发者开放。

如比尔盖茨在 reddit 回答网友提问时回答时说的:「AI is the big one. I don’t think Web3 was that big or that metaverse stuff alone was revolutionary but AI is quite revolutionary」,我们可能又到了一个历史性的转折点

现在各家企业,包括 Google、微软,以及国内的 BAT 等大厂都在大量投入,一些中小厂也在垂直的应用赛道拔城攻寨,作为一个技术管理者一定会面对这样一个洪流,在洪流之中我们需要注意什么呢?

如果你所在企业要上线 AIGC 的产品,或者已经上线 AIGC 的产品,以下的五个重要事项需要特别注意。

1 安全

安全是产品的生命线,特别是对于 AIGC 产品来说,没有安全守护,不仅仅是产品玩完,甚至会连累其它产品甚至公司存续。

1.1 内容安全

这里内容安全的定义是指 AIGC 生成内容影响产品本身存在的领域。

在国内与内容安全相关的场景包括涉政、色情、性感(性感和色情在内容安全中是不一样的)、暴恐、违禁、恶心、涉价值观等。其中每一项都需要检测,部分项出现问题甚至会关站和约谈。

在 chatGPT 大火后,网络上有各种和 chatGPT 相关的段子,特别是一些场景下,对输入措辞的调整或多次尝试相同的提示很敏感,只要稍作改写,就可以以另一种方式回答出来。

据最新发布的 GPT-4 的 OpenAI 工程师们们说,GPT-4 的训练在去年 8 月完成,剩下的时间都在进行微调提升,以及最重要的去除危险内容生成的工作。由此可见内容安全是一个多么重要且复杂的事情。

GPT-4 在 RLHF 训练中加入了一个额外的安全奖励信号,通过训练模型拒绝对此类内容的请求来减少有害的输出。奖励是由 GPT-4 的零样本分类器提供的,它判断安全边界和安全相关 prompt 的完成方式。为了防止模型拒绝有效的请求,团队从各种来源(例如,标注的生产数据、人类的红队、模型生成的 prompt)收集多样化的数据集,在允许和不允许的类别上应用安全奖励信号(有正值或负值)。这是 OpenAI 的工程师在训练 GPT-4 时做的一些努力。

GPT-4 现在是闭源的,模型本身我们做不了什么。

除了 GPT-4 ,还有许多的 AIGC 的模型,并且更多的人只是作为一个应用开发方来实现一些功能。

除了在训练时对模型本身危险内容生成的去除,在技术应用侧,我们可以考虑如下一些方面:

  1. 接入内容安全审核平台,在输入和输出两个层面进行双重过滤。公司大的接自己的,公司内没有的接第三方,依靠审核平台的积累,规避掉涉政、色情等风险极大的情况。
  2. 实名可追溯,类似于工厂里面的批号跟踪,对于用户上传图片、文字或视频、使用 AIGC 生产出来的内容、传播的内容进行跟踪,有系统支撑后台的查询和追溯,在后台中注意对用户敏感信息的保护,保持脱敏的逻辑。
  3. 控制传播,控制传播一方面是在功能层面保证传播的内容是在上面安全审核平台的前置约束下进行,另一方面在传播进行多级防控,比如播放量达到不同的级别进行不同规格的检测,如播放量达到 10 万,需要重新进入审核等等。

在互联网行业,内容安全一直面临着挑战,各内容平台不断提升对于内容安全的治理能力,随着 AIGC 的发展,内容爆炸式的增长,内容安全的挑战将会更大。

1.2 虚假信息

在对 chatGPT 深度体验后,往往会生成一种「一本正经的胡说八道」的感觉,甚至它会编造一些事实或者不存在的东西出来回答。对于模棱两可的问题,chatGPT 通常会猜测用户的意图,而非让用户澄清问题。

举个例子,我在 chatGPT-3.5 中问: 「有没有什么现成的库可以检测图片清晰度,对原图和 avif 图进行清晰度检测」,它回答了三个库可以,Sharp、ImageJS和 Pica

我接着问:「 Pica 的什么方法可以检测」,它告诉我 quality 方法可以,并给出了详细的示例,从代码上来看,像那么回事,并且代码前面的引入,输入的格式转化都没有问题,有问题的只是没有 quality 方法而已。

又或者你随便取一个书名,问他是谁写的,比如我的问题是: 「《不想开车的夜晚,我在听歌》这本书是谁写的」,它的回答是:「 “不想开车的夜晚,我在听歌” 这本书的作者是中国作家韩寒。这本书是一本散文集,收录了韩寒的一些散文作品,其中包括《像少年啦飞驰》、《三重门》、《我所理解的生活》等等。这本书出版于2002年,是韩寒的第一本散文集。韩寒是中国当代著名的作家、音乐人、导演和投资人,他的作品包括小说、散文、音乐和电影等多个领域,深受年轻读者和网民的喜爱和追捧。」

除了 chatGPT 以外,图片或视频生成领域有更多的虚假信息,如诈骗团队利用 DeepFake,通过截取马斯克在 TED 采访的视频,并为其配音,为的就是推出 BitVex 比特币诈骗平台。诈骗分子还伪造了方舟投资(Ark Invest)CEO 凯瑟琳·伍德、以太坊联合创始人查尔斯·霍斯金森等多位币圈名人推荐BitVex的视频。另外,2021 年初光是靠 DeepFake 技术换脸马斯克喊出「给我一个币,我给你两个」的骗局在一周内就达到 24.3 万美元,诈骗总额高达 3000 万美元(约人民币2亿)。

诈骗团伙以及不法份子使用 AIGC 恶意使用,甚至滥用,引发新型的诈骗、色情、诽谤、假冒身份等违法犯罪行为。 AIGC 让其效率更高,鉴别难度更大。这样可能会引发人们对于个人身份的盗用,冒用,以及在网络上,或在元宇宙中数字身份安全的担忧。

以上是在 GPT-4 出现之前,在 GPT-4 出来后,情况有所改变,如前面个问题:「《不想开车的夜晚,我在听歌》这本书是谁写的」,GPT-4 的回答是:「很抱歉,我无法找到与《不想开车的夜晚,我在听歌》这本书相关的作者信息。这本书可能不存在,或者没有足够的知名度。如果您能提供更多信息,我会尽力帮助您找到相关内容。」

技术在进步,会越来越好,但是我们仍然需要结合实名制、内容安全检测等手段,我们只能尽量减少虚假信息在平台的产生和传播。

1.3 模型安全

现在 AIGC 内容生成对于我们来说是一个黑盒子,我们无法完全预知其过程和结果。我们所能做的是控制模型的参数和模型的数据输入,这里可能会导致安全问题。

算法的公正性和透明度。AI 系统的决策往往是基于其算法的结果,但是,如果这些算法存在偏见或不公平的因素,将会对用户的权利和利益造成损害。因此,AIGC 需要确保 AI 算法的公正性和透明度,避免对用户造成不公平的影响。

  • 对模型的攻击:通过某种方式向模型中注入恶意样本、有毒数据或有误导性的数据,来破坏模型;或者以某种方式篡改或操纵模型的训练数据,以达到改变模型输出的目的。
  • 模型后门:在模型的训练中,攻击者通过修改模型的训练数据和权重信息使模型学习到了隐藏的规则,以达到放置后门的目的(我也不知道怎么实现)。举个例子,假设有个开源的项目不想让人商用,于是采用了 GPL 的协议,但是如何判断有人商用了呢,于是在项目生成的模型中隐藏一些规则,比如某些特殊的输入能显示和特定的结果,以举证。比如「左耳朵耗子」在 Twitter 上分享的「百度的“文心一格”AI生成图片:“一只爱国的猫”,看来不但政治不正确,而且可以推测后面用的图片训练集的来源也不是自主可控的」,那只猫身上的国旗是美丽国的。不过现在你无法生成了,因为在输入层面做了限制,现在输入只会显示「请您更换输入后试试~」,这也就是我们前面说的在输入层面做一些控制。

除了模型本身的安全问题,对于模型衍生的个人隐私保护,数据安全和标准,甚至后面可能会出现的模型病毒等等都需要持续关注起来。

2 容量

AIGC 产品在面对大量用户使用时,可能会面临以下容量问题:

  1. 存储容量: AIGC 产品生成的内容包含了大型文本、视频、图像等多媒体数据。如果用户数目众多,这可能需要大量的存储空间。假设用户生成的这些内容都是放到公有云上,随着用户的增加,这些内容将会成为一个巨大的成本,因此我们在项目设计之初就考虑存储容量的问题,给每个用户的容量,总的容量,以及存储的时长,因为成本是随着时间而变化的。
  2. 处理容量: AIGC 产品处理大量数据,包括数据的采集、整合、分析和后期制作处理等多个环节。因此,AIGC 需要具备高质量的计算设备和计算能力来支持项目,将应用的各个环节结合起来,处理更多最终输出结果。如果计算能力不足,则可能会给用户带来等待时间过长的使用体验,增加流失率。
  3. 带宽容量: AIGC 产品生成内容的访问请求峰值会在高峰期不断攀升,这需要具备良好的带宽容量来实现。如果网络峰值超过供应时,将影响用户体验和产品稳定性。 因此,就需要整合具有强网络连接性和容量传输能力的网络设备,包括高带宽和低延迟的数字通信方式,例如光纤和高性能互联网符合AIGC产品的要求。
  4. 内容审核容量:AIGC 产品生成的内容需要进行审核和精细化调整,以确保内容的准确性和完整性。这需要大量的人工审核,提供符合要求的人选加入审核容量的组合当中。此外,随着 AIGC 的规模发展,产品审核过程的效率和质量也需要考虑如何优化。

在应对容量问题时,AIGC 产品需要全面优化和规划系统架构、数据处理和存储、计算和运维等方面,以实现产品的高可靠性和高性能。同时,需要持续跟进技术发展和创新,以保持 AIGC 产品的竞争力和创新性。

基于这些考虑我们在应用开发过程中需要考虑以下系统的实现:

  1. 用户级的容量限制,包括存储容量,存储时长,使用次数等等。
  2. 用户试用灰度,如邀请机制,分批次邀请用户进来,以控制容量的发展,不仅仅是存储、还有处理容量和带宽的容量。
  3. 接入多个第三方审核平台,在增加灾备的同时,增加内容审核的容量。

3 成本

对于大模型,一般的企业是没有能力开发的,这种情况我们一般是接第三方的接口。

以 OpenAI 为例,3.1 日,OpenAI 开放了 ChatGPT 的 API 接口,成本优化了 90%,百万 token 只需要 2 美元,并且提炼 otken 能力也大幅优化。新上的 GPT-4 要贵一个数量级,从 0.002 到 0.06,涨了 30 倍。

此外,OpenAI 还提供了图像生成和编辑的服务,如 DALL·E。这些服务的价格取决于图像的分辨率。例如,1024×1024 的图像每张 0.02 美元,而 256×256 的图像每张 0.016 美元。

更多详情见官网: https://openai.com/pricing

在国内也有一些厂商的提供了完整方案报价,大概是 0.1 到 0.13 每张图。

除了接入 API,有时我们也会基于开源的模型微调后上线自己的服务,这部分成本主要是训练的算力成本和上线后的 GPU 机器。以 ControlNet 模型为例,在公有云上,一台带有 v100 显卡的机器也就能跑一个大模型,且单台机器只能同时为一个用户提供服务。而这样一台 v100 的机器一个月的原价为 7000 多。

不管是调用第三方的 API 还是自行构建模型服务,对于创业公司来说,成本都挺高的。

如果想在 AIGC 中创业,从一开始就需要想好商业模式和变现手段,并且对于免费用户需要从一开始就限制其试用频率,以控制成本。

从应用工程角度,我们大概可以做以下的一些事情:

  1. 排队系统,在成本方面主要是应用于自己搭建的服务,其主要是在用户体验和成本之间寻找一个平衡,通过排队的方式将用户的请求量消峰填谷,以尽可能提升机器的利用率。
  2. 限频限额,对每个用户在使用次数或产出物的量上做限额,以防止恶意的攻击或者某个用户大量占用资源的情况。在限额方面我们一般可以采用对使用次数,如做图次数,或者对产出物的数量,如生成图片的数量或生成文字的数量等等。可以是日限或者总量限制
  3. 预约系统,提高用户的使用门槛,仅针对目标用户发放资格,减少用户量,提升用户精准度的同时能控制成本。
  4. 存储限制,第 2 点的限制主要是针对使用的,如果产品有存储的需求,那么在应用上需要对存储空间的大小或者存储的时长做一些限制,最好是在商业化的逻辑里面把这块加上,因为存储的成本是一个递进累加的成本,随着产品的发展,其成本会越来越大,如果生成的内容中有视频,且你有几百万上千万的用户,这将是一个非常大的成本。

以上主要是应用开发领域的成本,除了这些,其数据成本也是非常大块的成本。而数据是人工智能的基础,没有数据就没有模型。AIGC 需要大量的高质量的数据来训练模型,比如文本、图像、音频、视频等。这些数据的获取和处理是一个巨大的挑战,需要投入大量的时间和金钱。

一方面,数据的来源可能不容易找到或者不免费。比如想要生成游戏场景或者角色,就需要收集各种类型和风格的游戏素材;想要生成影视剧本或者小说,就需要收集各种类型和风格的文学作品;想要生成音乐或者歌曲,就需要收集各种类型和风格的音乐素材。这些数据可能涉及版权问题,需要付费购买或者授权使用。

另一方面,数据的质量可能不够高或者不一致。比如想要生成逼真的人脸图像,就需要收集各种角度和表情的人脸照片;想要生成流畅的语音或者歌声,就需要收集各种语言和口音的语音样本;想要生成合理的对话或者故事情节,就需要收集各种场景和情感的对话或者故事文本。这些数据可能存在噪声、错误、重复、缺失等问题,需要进行清洗、标注、对齐等处理。

因此,在 AIGC 中使用现有数据是一种常见而有效的方法。通过利用公开可用或者自行采集整理好了格式统一且质量较高且数量较多且符合目标任务需求且无版权争议(例如:Common Crawl) 的数据集来训练模型可以节省很多时间和金钱。

4 法律法规和版权

4.1 法律法规

2022 年 11 月 25 日,国家网信办、工信部、公安部联合发布《互联网信息服务深度合成管理规定》(以下简称《规定》)。其中提出,深度合成服务提供者和技术支持者提供人脸、人声等生物识别信息编辑功能的,应当提示深度合成服务使用者依法告知被编辑的个人,并取得其单独同意。《规定》自 2023 年 1 月 10 日起施行。

该规定的第五章第二十三条,对「深度合成技术」做了规定:「利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术。」,这也就是我们所说的 AIGC 的范畴了。

在《规定》的第六条、第七条、第十一条等对服务提供主体责任进行了明确的定义,具体包括:

  • 不得利用深度合成服务制作、复制、发布、传播法律、行政法规禁止的信息,或从事法律、行政法规禁止的活动。
  • 建立健全用户注册、算法机制机理审核、科技伦理审查、信息发布审核、数据安全、个人信息保护、反电信网络诈骗、应急处置等管理制度,具有安全可控的技术保障措施。
  • 制定和公开管理规则、平台公约,完善服务协议,落实真实身份信息认证制度。
  • 加强深度合成内容管理,采取技术或者人工方式对输入数据和合成结果进行审核,建立健全用于识别违法和不良信息的特征库,记录并留存相关网络日志。
  • 建立健全辟谣机制,发现利用深度合成服务制作、复制、发布、传播虚假信息的,应当及时采取辟谣措施,保存有关记录,并向网信部门和有关主管部门报告。

将上面的条文翻译成技术上的点就是要构建以下的系统或服务

  1. 用户实名注册及管理系统。
  2. 数据安全及敏感信息管理系统和体系。
  3. 内容安全管理系统,这里我们常规会采用第三方的服务,而不是自己开发。

4.2 版权

AIGC 的版权一直存在争议,其根源在于 AIGC 模型的形成和完善依赖于大量的数据训练,而用于训练的数据往往包含受版权法保护的内容。AIGC 这种不同于传统的创作方式,目前尚未有明确的法律规定和司法裁定来界定其版权归属和保护范围。

2023 年 1 月 23 日,美国三名漫画艺术家针对包括 Stability AI 在内的三家 AIGC 商业应用公司,在加州北区法院发起集体诉讼,指控 Stability AI 研发的 Stable Diffusion 模型以及三名被告各自推出的、基于上述模型开发的付费 AI 图像生成工具构成版权侵权。

这应该算是全球首例知名的 AIGC 商业化应用领域,算法模型及训练数据版权侵权案。其主要争议点在于当前国内外对于 AIGC 获取与利用版权作品进行算法训练是否合法存在诸多争议,尚无立法和司法层面的明确共识,并且对于模型训练过程中利用版权作品的方式、利用行为的版权定性仍有待分析明确。

在中国,计算机软件和作品的著作权属于开发者或者相关机构,而现行的《著作权法》框架难以直接认定人工智能或电脑算法为作品的作者。但是现阶段各界对于人工智能技术创作物的著作权保护整体上呈现积极的态度,主流的司法实践持相似的立场。AIGC 版权保护的是使用 AI 系统的人,不是 AI 本身,其保护的前提还是使用 AI 创作的人,在创作过程中付出了智力或创造性的劳动。

目前,一些机构和个人在使用 AIGC 作品时,通常会尽力寻找并遵守相应的版权规定和道德准则,尊重原作者的知识产权,同时也会尝试探索 AIGC 版权的可行性和保护方式。

我们需要持续的关注版权方面的进展。

对于版权保护我们可以做如下的一些事情:

  • 数据授权和许可:在使用受版权保护的数据进行模型训练时,尽量获取数据所有者的授权和许可。这可以通过签订合同、购买许可证或加入版权组织等方式实现。
  • 数据脱敏和匿名化:在使用受版权保护的数据进行模型训练时,尽量对数据进行脱敏和匿名化处理,以降低侵权风险。例如,可以删除文本中的作者名、作品名等敏感信息,或将图像中的人物、地点等特征进行模糊处理。
  • 版权标识和归属:在发布和传播 AIGC 生成的作品时,明确标注作品的版权归属和来源。例如,可以在作品页面上添加版权声明、原作者名和许可证信息等。
  • 遵循道德准则:在使用 AIGC 技术进行创作时,遵循行业道德准则和社会公序良俗。例如,不要使用 AIGC 技术制作和传播违法、侵权、淫秽、暴力等不良内容。

5 模型的偏见性

现在大家常用到的 AIGC 技术的核心都是在大规模数据集上预先进行训练的模型,大多数的使用者都是在特定领域或垂直场景下进行微调。这种预训练模型,对比完全由人工规则控制的专家系统来说,预训练模型就像一个黑盒子。没有人能预知其生产出来的内容是什么。

预训练模型的偏见性通常来自训练数据集中的样本分布不均或者存在系统性的偏差。比如:

  • 在 chatGPT 模型中的语言性偏见,中文的内容语料只占了 0.1% 不到,更准确来说应该是 0.09905%,从而使得使用中文的效果远不如英文。
  • 2.14 日情人节前夕发布的 ControlNet 模型,在测试过程中发现其会生成较多的性感卡通类图片,一些没有问题的照片或者词语都能生成极度「性感」的图片,比如痛苦这个词语。
  • 对于时间的偏见性,模型只能了解其生成之前的情况,或者说只能了解其数据集中的信息,在其生成后就没有信息了,除非快速迭代模型。
  • DALL·E 2 具有显著的种族和性别刻板印象。

除了以上的例子,还有在性别、地域、文化等的偏见性,这些都是因为训练得到的模型并不是非常可控的,模型可以看做对训练集分布的一个拟合。那么反馈到生成模型中,训练数据的分布便是影响生成内容的质量最重要的一个因素。于我们可以采取一些措施来规避将模型的偏见展示给用户。

  1. 数据收集阶段:收集更多多样化的训练数据,以确保训练数据集具有平衡性和代表性,对训练数据进行分析和筛选,排除可能引入偏见的因素。
  2. 模型训练阶段:在微调阶段使用公平性指标,从而评估模型在不同群体中的表现是否公平和平衡;不断监控和更新模型,及时发现并纠正偏见性问题。对一些特定的任务,可以使用迁移学习等技术,以减少偏见的影响。
  3. 产品应用阶段:通过人工或者基于深度学习的模型判断生成的内容是否具有偏见性,以规避一些极端的场景。

我们在上线 AIGC 产品时一定需要深刻的理解其偏见性,及时使用一定的措施规避或者减少其偏见性。

想起网上看到的一句话:「在这个历史性的转折点,只能向前走,不能往后看,过往都被冲得看不着了。