月度归档：2025年02月

从 DeepSeek R1 的联网搜索和 RAG 聊起

在最早 ChatGPT 应用到 Bing 时我们就体验到了联网搜索的能力，最近大火的 DeepSeek R1 在其官网或者腾讯元宝的版本中部署了带有联网搜索的版本，甚至私有化部署的版本也可能通过 Page Assist 实现联网功能。

当用户勾选 联网搜索 功能时，可以将其视为一个 能够理解任何自然语言问题的智能搜索引擎，相比传统搜索引擎仅支持关键词匹配，LLM 结合联网搜索可以更智能地解析问题，并返回更精准的结果。特别是在 R1 的推理加持下，整个过程显得更为丝滑。

联网搜索不仅能够提升模型的实时信息获取能力，还能与 RAG 技术结合，使模型在回答问题时参考最新的搜索结果，提高准确性和可靠性。

之所以要增加联网搜索，增加 RAG 的逻辑，这些都是由大模型本身的问题造成的。

1. 大模型的问题

大语言模型（LLM）的知识来源于海量的离线数据训练，因此其信息具有时效性滞后问题。

一般来讲，主流 LLM 的训练数据通常滞后于其发布时间半年到一年以上。例如，GPT-4o-latest 的训练数据截止于 2024 年 6 月，而 DeepSeek-R1 的最新数据截止于 2024 年 7 月（问 DeepSeek-R1，它自己回答的）。这意味着 LLM 无法直接获取训练完成后发生的最新事件、科技进展或行业动态。

1.1 知识局限性

由于 LLM 依赖于静态数据集进行训练，其知识范围受到以下限制：

无法获取最新信息：模型的知识仅限于训练数据中的内容，因此对于训练完成后发生的事件，它无法直接回答或提供准确的分析。
缺乏实时数据支持：LLM 无法访问最新的网络信息，如新闻报道、财务数据、政策变动等。
受限于训练数据的覆盖范围：即便是训练数据范围内的知识，LLM 也可能因为数据筛选、公开性限制等原因而无法掌握某些领域的最新进展。

为了解决这一问题，许多 LLM 引入了 联网搜索 机制，使得模型能够动态检索最新的网络信息，从而提供更具时效性的回答。

联网只解决了部分大模型的信息实时性的问题，除此之外， LLM 还面临 幻觉问题、私有数据匮乏、内容不可追溯、长文本处理能力受限以及数据安全性 等挑战。

1.2 模型幻觉

由于 LLM 的底层原理是基于 数学概率 进行文本生成，其回答并不是基于事实推理，而是对最可能的词序列进行预测。因此，LLM 可能会在自身知识缺乏或不擅长的领域 一本正经地胡说八道，即产生幻觉。这种现象在 事实性要求较高的业务应用（如法律、医疗、金融等）中尤其需要被关注，因为错误信息可能导致严重后果。同时，区分 LLM 生成的正确与错误信息 需要使用者具备相应领域的知识，这也提高了使用门槛。

1.3 私有数据匮乏

LLM 主要依赖 互联网公开数据 进行训练，而在 垂直行业、企业内部 等场景中，很多专属知识并未包含在模型的训练集中。这意味着 LLM 无法直接回答涉及 企业内部文档、行业专属知识库 或其他非公开信息的问题，导致其在 专业化应用场景 中的表现受限。

1.4 内容不可追溯

LLM 生成的内容通常 缺乏明确的信息来源，用户难以验证其答案的准确性和可靠性。这种不可追溯性影响了 内容的可信度，尤其是在需要引用权威信息的场景（如学术研究、法律咨询等）。

1.5 长文本处理能力较弱

LLM 受限于 上下文窗口的长度，在处理长文本时 容易丢失关键信息，并且 输入文本越长，处理速度越慢。这对需要分析 长文档、长对话或复杂背景信息 的应用场景构成了挑战。

1.6 数据安全性

对于企业而言，数据安全至关重要，没有企业愿意将私有数据上传到第三方平台 进行训练或推理，以避免数据泄露的风险。因此，完全依赖 通用大模型 进行知识问答和分析，往往需要在 数据安全性与模型能力之间 做权衡。

2. RAG 的出现

随着大语言模型（LLM）在各类任务中的广泛应用，人们逐渐发现它们的局限性，如时效性滞后、幻觉问题、私有数据匮乏、内容不可追溯、长文本处理能力受限，以及数据安全性等挑战。为了解决这些问题，Retrieval-Augmented Generation, RAG 技术应运而生。

2.1 什么是 RAG？

RAG（检索增强生成）是一种结合信息检索与文本生成的 AI 方案，旨在利用外部知识库或文档存储，实现更准确、实时且可追溯的内容生成。其核心思想是：

检索（Retrieval）：在 LLM 生成答案之前，首先从外部知识库或数据库中检索相关信息。
增强（Augmented）：将检索到的信息与用户的原始问题结合，形成一个更丰富的输入。
生成（Generation）：将增强后的输入提供给 LLM，使其基于最新信息进行回答，而不是仅依赖于模型固有的知识。

2.1.1 RAG 的发展历史

RAG 由 Meta AI 团队于 2020 年提出，最初是为了提高 LLM 在特定任务中的表现。随着 LLM 在各类应用中的扩展，RAG 技术逐渐成为提升模型响应质量的重要手段。

在 RAG 之前，主要有三种方式来提升 LLM 的能力：

微调：通过额外训练数据调整 LLM 的参数，使其更适应特定任务。
提示工程：通过优化输入提示（Prompt）来影响 LLM 的输出。
知识注入：在 LLM 训练阶段直接加入结构化知识，以增强其知识覆盖范围。

然而，这些方案都有各自的局限性，例如微调成本高昂、提示工程在复杂任务下效果有限，而知识注入无法解决最新信息的获取问题。因此，RAG 逐渐成为一种更灵活、高效的解决方案。

2.2 RAG 解决了哪些问题？

解决知识局限性：RAG 通过外部检索，可以动态获取最新的信息，而不像 LLM 仅依赖静态训练数据。例如，在金融、法律、医疗等领域，LLM 需要访问最新法规、市场动态或医学研究，RAG 能够提供这些最新信息，从而提高回答的准确性。
缓解模型幻觉：LLM 生成的内容基于概率计算，当其遇到没有见过的内容时，会凭空捏造不存在的信息。RAG 通过提供真实的外部数据作为参考，降低了模型「胡说八道」的风险。例如，在法律咨询场景中，RAG 可以直接引用相关法规，而不是让 LLM 「猜测」答案。
访问私有数据：企业通常拥有大量的内部专有数据，如客户档案、财务报表、技术文档等，RAG 可以让 LLM 在不重新训练的情况下，动态查询这些私有数据并提供个性化回答。例如，企业可以使用 RAG 让 LLM 访问内部知识库，实现智能客服或决策支持。
提高内容可追溯性：LLM 生成的内容通常无法溯源，而 RAG 允许模型在回答时引用具体的数据来源，例如检索到的网页、论文或数据库记录，使用户可以验证答案的真实性。这在医疗、法律等领域尤为重要。
优化长文本处理能力：LLM 的上下文窗口有限，难以处理超长文本，而 RAG 可以分段检索相关信息，并将重要片段提供给 LLM，从而提高长文档的分析能力。例如，在法律案件分析中，RAG 可以从海量判例中检索关键案例，而不是让 LLM 直接处理整个数据库。
增强数据安全性：企业往往不愿意将私有数据上传到第三方 LLM 平台，而 RAG 允许模型在本地或私有云环境中访问内部数据，避免数据泄露风险。例如，某些金融机构可以利用 RAG 构建私有化的 AI 助手，而无需担心数据安全问题。

2.3 RAG 与其他方案的对比

技术	适用场景	优势	劣势
微调	需要针对特定任务优化 LLM	提高任务适应性	训练成本高，难以适应变化快的知识
提示工程	通过优化输入提示提升输出质量	无需重新训练模型	适用性有限，难以解决知识更新问题
知识注入	在模型训练阶段加入额外知识	提高 LLM 的知识覆盖范围	训练数据越多，计算成本越高
RAG	需要动态获取最新信息、私有数据或长文本分析	低成本、高灵活度，解决时效性和私有数据问题	依赖高质量的检索系统，检索速度可能影响响应时间

从对比可以看出，RAG 结合了信息检索的强大能力，为 LLM 赋能，使其能够访问最新、权威的信息，同时避免了高昂的训练成本。

2.4 RAG 的核心技术

RAG 主要由以下三个模块组成：

增强数据处理
- 对文本、图片、音频等多模态数据进行预处理。如 OCR 解析 png、jpg、PDF，文本解析 docx、pptx、html、json 等。
- 进行数据切分、去重、向量化转换，提高检索效率。如文本向量化，多模态支持（clip 等图片 Embedding）
增强语义检索
- 采用向量搜索（Vector Search）提高检索精准度。
- 结合混合搜索（Hybrid Search）实现关键词和语义匹配。
增强召回
- 通过精细排序算法优化检索结果。
- 结合知识图谱、推理引擎增强答案的准确性。

除此之外，一般 RAG 的服务商还会支持私有化部署、多租户隔离和访问控制等安全控制能力。

以在阿里云 PAI 平台构建 RAG 问答系统为例，有以下 4 种方案：

Retrieval：直接从向量数据库中检索并返回 Top K 条相似结果。
LLM：直接使用LLM回答。
Chat(Web Search)：根据用户提问自动判断是否需要联网搜索，如果联网搜索，将搜索结果和用户问题一并输入大语言模型服务。使用联网搜索需要给EAS配置公网连接。
Chat(Knowledge Base)：将向量数据库检索返回的结果与用户问题合并填充至已选择的 Prompt 模板中，一并输入大语言模型服务进行处理，从中获取问答结果。

2.5 RAG 的应用场景

RAG 适用于需要高精准度、实时性、可追溯性的 AI 任务，广泛应用于智能搜索、知识管理、内容生成、教育培训、法律/医疗检索等领域。例如：

智能客服：结合企业知识库，实现实时检索 + LLM 生成，提供更精准、动态的客服回复。如银行客服可以基于最新政策，提供个性化贷款咨询，而非仅限于静态文档。
内容创作：结合外部数据源，自动生成高质量内容，提升创作效率。如电商平台可利用 RAG 生成符合 SEO 规则的商品描述，提高搜索排名。
知识管理：结合全文检索 + 语义搜索，快速查找相关文档，并生成摘要。如律师事务所可基于以往案例库，高效检索相关判例，提高办案效率。
教育培训：结合课程内容，自动生成个性化练习题、案例分析、教学材料。如在线教育平台可根据学生的知识点掌握情况，动态调整练习内容。
智能搜索引擎：结合 LLM 和 RAG，实现更自然的搜索体验。

3. 小结

RAG 作为 LLM 的重要补充，极大地扩展了大模型的能力边界，使其能够动态获取最新信息、降低幻觉、支持私有数据访问，并增强内容的可追溯性。随着 AI 技术的不断发展，RAG 预计将在搜索、问答、智能助手等领域发挥越来越重要的作用，为 LLM 提供更强的知识支撑和应用落地能力。

以上。

一行代码没写，我用一天的时间做了一个网站

发表回复

★AI 编程真的能做到一天写完一个网站吗？ 这听上去像科幻小说里的情节，但事实证明，借助字节的 Trae，我真的在一天之内完成了一个网站的开发。本篇文章主要分享这次 AI 编程的完整实战经验，包括踩过的坑、用到的技巧，以及如何最大化 AI 的生产力。

整个写代码的过程有点钢铁侠里面的场景，只是没有那么炫，大概是这样：

网站已经上线，有兴趣的同学可以访问：开发哥 AI 编程工具箱 https://www.kaifage.com/

完工后的界面如下：

纯前端项目，使用了 Vue 框架

AI 编程的核心思路

在这次沉浸式 AI 编程过程中，主要使用了 Trae 作为 AI 编程助手，并结合 Claude 3.5 Sonnet 和 GPT-4o 进行代码生成和优化。整体思路如下：

让 AI 发挥创造力：先给 AI 一个大致的需求，让它自己发挥，生成一个完整的功能雏形。
分步细化需求：每次只修改一个小地方，比如调整颜色、优化布局或添加某个功能，而不是一次性提出复杂需求。
查漏补缺：AI 生成的代码通常会有小问题，需要自己细心检查并修正。
多模态交互：可以用截图标注问题，让 AI 直接针对修改点进行调整，而不是仅靠文字描述。
灵活切换 AI 工具：Claude 3.5 Sonnet 在代码生成上的表现比 GPT-4o 更稳定，但有时候 GPT-4o 也能提供不同的实现思路。

AI 编程的最佳实践

在这次 AI 编程过程中，有以下的一些体验点，能极大提升开发效率：

1. AI 对于前端生成效果比较好

在前端（HTML/CSS/JavaScript）方面，AI 生成的质量较高，尤其是像 React、Vue 这样的框架，AI 处理起来相对流畅。实际使用体感，传统的前端方案略差一些。

2. 遇到死循环？换个方法！

如果 AI 一直在重复错误，或者陷入死循环，不妨试试：

换个 AI 问，让另一个 AI 重新理解问题。
Google 搜索，找到正确的解决方案后，再喂给 AI，让它基于正确的信息继续优化。
直接问 AI：有没有其它办法？你再想想？ 适当「PUA」 AI，往往能让它跳出思维定式。

3. 抽象表达 vs. 精确指令

有时候，AI 对于具体代码的理解会有偏差，但如果用抽象表达，它反而能给出更好的优化方案。例如：
✅ ❌ 直接写代码请求：「请调整 div 的 padding 为 20px。」这种还不如自己直接调。

✅ ✔️ 抽象表达：「当前的界面布局不合理，请优化为更合理的布局。」

4. 结合多模态能力，提高沟通效率

如果界面某个地方不合理，可以 截图+红框标注，让 AI 直接修改。
视觉化的反馈比纯文本描述更直观，减少沟通成本。

5. 让 AI 直接修改具体文件

如果 AI 生成的代码分散在多个文件里，可以 指定文件路径，让它直接修改，而不是让它自己找文件，有时候会出错，特别是有某些文件相似的时候。

⚠️ 踩坑记录

当然，AI 编程并不总是生成你想要的代码，这次编程过程中也遇到了不少问题：

「正在为当前文件写入变更」真的太慢！
- 有时候 AI 生成代码的速度很快，但写入修改的时候却非常慢，甚至会提示「网络故障」。
- 解决方案：如果长时间没反应，手动复制代码粘贴到文件里，或者让 AI 直接输出完整代码。
代码不准，得自己检查！
- AI 生成的代码 80% 以上是可用的，但仍然会有小错误，比如少了一个逗号，无法跑通，时序问题等。
- 解决方案：自己多测试、多 Debug，不要 100% 依赖 AI。
AI 生成的代码风格不一致
- 可能前后使用的变量名不统一，或者代码风格参差不齐。
- 解决方案：事先定义好代码风格，然后让 AI 统一格式，或者使用代码格式化工具。
AI 把原来已经跑通的模块搞坏了
- AI 在修改代码时，可能覆盖已有代码，导致逻辑混乱，甚至让原本能跑通的功能失效。
- 解决方案：使用 Git 进行版本管理，当一个功能调通后，先提交，建立一个可用的基线。同时如果过程中发现不可用了，可以取消本次编辑结果。

以下为本次写代码过程中的一些记录和截图。

比如做密码生成功能的时候

比如做二维码功能的时候

会把其它功能弄坏掉，需要修复

移动端的适配

实际上他只改了布局，具体的页面内容还是不行

单独对这个页面增加响应式布局。

同样，对于其它页面也一个一个任务的要求 AI 修改。如：

这句话 DeepSeek 一定和你说过

发表回复

春节期间，DeepSeek 的相关信息铺天盖地。从应用场景到实战演练，从论文解读到原理分析，从行业发展到国际局势，各路神仙各有观点，应接不暇，都看不完了。

我自己也深度使用了，包括文章撰写和代码输出，说实话，思考的过程确实惊艳了我。它的思考逻辑比我更完善，推导路径也更显性。

但今天我们聊的不是这些「高光时刻」，而是我们在实际使用过程中常常遇到的不可用场景：

“服务器繁忙，请稍后再试。”

是的，DeepSeek 的繁忙（也可以叫故障？）提示几乎成了高频词。无论是免费用户还是付费 API 调用者，都可能在关键时刻遭遇「空文本返回」、「响应超时」、「重试多次仍异常」等问题。

1. DeepSeek 的可用性表现

首先我们看一下官方的记录： https://status.deepseek.com/

总结起来如下：

网页/API 性能异常（Web/API Degraded Performance）
- 持续时间： 2025 年 1 月 27 日至今（2 月 5 日仍在监控中）
- 影响范围： API 和网页服务同时出现性能下降，部分用户请求超时或失败。从实际使用体验来看，基本属于不可用的状态了，但是官方的状态还是可用，仅性能问题，这里的状态指标和实际还是有一些出入。
API 持续故障（Major outage/Partial outage）：
- 持续时间：2025 年 1 月 27 日到 2 月 5 日
- 影响范围：持续影响 API 调用，故障持续时间较长，作为一个付费的能力，这是不合格的。
网页对话服务不间断故障：
- 持续时间：2025 年 1 月 27 日到 1 月 31 日
- 影响范围：持续影响网页用户的使用，在用户的反馈中

从结果来看，DeepSeek 还没有做好应对海量用户的情况，不管是从资源部署，还是工程建设方面，都不是一个合格的状态。

在写这篇文章的时候，除了第一次正常返回，后续都是「服务器繁忙，请稍后再试。」如下图所示：

从用户能看到的表象来看，自 2025 年 1 月底至 2 月初，DeepSeek 多次出现服务中断：

深度思考与联网搜索功能失效：用户使用核心功能时频繁提示「技术原因暂不可用」，仅保留基础对话能力。
API 服务波动：付费用户调用接口时返回空文本或延迟异常，甚至因「服务器资源紧张」暂停充值。
注册与登录拥堵：因恶意攻击导致注册功能瘫痪。

DeepSeek 官方将问题归因于突发流量、系统升级适配、底层基础设施波动，并强调「稳定性是首要任务」。但用户更直观的感受是：服务可用性不足，容错机制缺失。

2. AIGC 产品和互联网产品的天然差异

DeepSeek 作为一个 AIGC 的产品，其和传统的互联网产品就存在天然的差异：

2.1 响应时间与计算资源消耗

传统互联网产品

主要依赖数据库查询、预定义的业务逻辑和缓存，响应时间通常较短，且可预测。
计算资源需求相对稳定，系统可扩展性较强。

AIGC 产品

依赖深度学习模型进行推理，计算量大，响应时间较传统产品长，且可能因模型复杂度、输入长度等因素波动。
需要强大的 GPU 计算资源，服务器负载高，可能导致响应延迟或服务不可用。
可能需要异步处理或流式输出（如 ChatGPT 的逐字生成），以改善用户体验。

2.2 可靠性与稳定性

传统互联网产品

由于功能是规则驱动的，系统行为可预测，崩溃或异常情况较少。
依赖负载均衡、CDN、数据库复制等机制，保障高可用性（通常可达 99.99% 以上）。

AIGC 产品

生成式AI的输出不确定，在不同运行环境、不同模型版本下可能产生不同结果，影响用户体验的一致性。
可能受到模型崩溃、推理失败、内存爆炸、API 速率限制等问题的影响，导致服务不可用或部分功能异常。
需要额外的故障检测、自动重试、回退机制（如降级到预定义模板或缓存内容）来提升系统可用性。

2.3 可控性与一致性

传统互联网产品

业务逻辑是确定性的，相同输入通常会产生相同输出，保证用户体验的一致性。虽然有「千人千面」的算法，但是其本质上是可控的
开发人员可以精确控制系统行为，便于调试和优化。

AIGC 产品

AI 生成内容的不可预测性导致相同输入可能产生不同的输出，影响可控性和一致性。
需要温度参数（Temperature）、Top-K 采样等技术来调整生成稳定性，但仍无法完全保证一致性。
可能需要缓存机制、提示词优化（Prompt Engineering）或微调模型来提高可控性。

2.4 可扩展性

传统互联网产品

主要依赖水平扩展（如增加服务器、数据库分片）来提升性能。
由于业务逻辑固定，扩展后的系统可保持较高的一致性。

AIGC 产品

由于深度学习推理的计算密集型特性，水平扩展难度较高，需要依赖专用硬件（如 GPU）。
高并发场景下，可能需要分布式推理、模型量化、边缘计算等优化策略来提升可扩展性。
可能采用多级缓存（如存储常见问题的预生成答案，在产品中是否能使用待确认）来减少推理开销。

2.5 错误处理与恢复机制

传统互联网产品

由于逻辑清晰，错误通常可以通过日志分析、异常处理机制快速排查和修复。
具备回滚机制，当系统发生故障时，可以回退到稳定版本。

AIGC 产品

由于模型的黑箱特性，错误较难追踪。
可能需要人机协同（Human-in-the-loop）机制，让人工审核关键任务的生成内容。
需要自动调整机制（如 RAG，Retrieval-Augmented Generation），结合外部知识库提高准确性。

2.6 可维护性与升级

传统互联网产品

代码和数据库可以模块化升级，通常只影响部分功能。
版本管理清晰，可通过灰度发布、A/B 测试等方式进行平滑更新。

AIGC 产品

模型升级可能导致行为变化，新模型可能生成完全不同的内容，影响可用性。
需要持续微调（Fine-tuning）或增强检索（RAG），以适应新需求。
可能需要模型版本管理（如 OpenAI API 的 GPT-4.0 vs. GPT-3.5），让用户可选择不同模型版本，以保证兼容性。

AIGC 产品在系统可用性上面临更大的挑战，主要在于响应时间、可靠性、可控性和错误处理等方面。为了提升可用性，需要结合缓存优化、模型优化、人工审核、错误监测、版本管理等策略，从而确保系统的高效性和稳定性。

3. 借鉴传统互联网产品的可用性策略

在面对 DeepSeek 这样 AIGC 产品的可用性挑战时，我们可以借鉴传统互联网产品的高可用性策略。以下是三种核心策略：隔离、限流和弹性扩展，它们对于提升整体服务的稳定性和可靠性至关重要。

3.1 隔离

隔离是指将不同类型的流量、服务和资源进行物理或逻辑上的分离，以减少单点故障的影响，提高系统的稳定性。

（1）传统互联网产品的隔离策略

数据库读写分离：使用主从数据库架构，将读请求和写请求分离，提高数据库吞吐能力。
微服务架构：将不同的业务模块拆分为独立的微服务，避免单个模块的故障影响整个系统。
多数据中心部署：在不同地域部署多个数据中心，确保某个数据中心故障时，服务仍然可用。

（2）AIGC 产品中的隔离策略

模型推理服务隔离：不同的 AI 任务（如文本生成、代码补全、图像生成）使用独立的推理服务，以避免相互影响。
缓存与实时推理分离：对于常见问题或高频请求，使用缓存存储预生成的答案，减少对 AI 推理的依赖。
免费用户和付费用户隔离：将高优先级的计算资源分配给付费用户，确保他们在高负载时仍能获得稳定的服务。
企业用户和个人用户隔离：针对企业用户的部署资源和个人用户的资源做隔离，甚至对于企业用户做多个隔离泳道。

（3）隔离策略解决的问题

减少单点故障，避免某个服务异常影响整个系统。
优化资源利用，确保高优先级任务不会被低优先级任务拖累。
提高系统韧性，即使部分服务故障，核心功能仍可正常运行。

（4）隔离策略的注意事项

隔离的粒度需要合理设计，过度拆分可能导致管理复杂度上升，系统之间的通信成本增加。
监控与调度，确保不同隔离层的资源调度合理，避免出现某些区域资源过载，而其他区域资源空闲的情况。

3.2 限流

限流是指在高并发情况下，对请求进行限制，以防止系统过载，保障关键用户和服务的稳定性。

（1）传统互联网产品的限流策略

令牌桶/漏桶算法：限制请求速率，确保系统不会被短时间内的流量高峰压垮。
IP 级限流：对单个 IP 地址的请求频率进行限制，防止恶意爬虫或 DDoS 攻击。
用户级限流：根据用户级别（普通用户、VIP 用户）设置不同的 QPS 上限。

（2）AIGC 产品中的限流策略

API 访问限流：对于 DeepSeek 这样的 AI API，限制每个用户的最大请求频率，防止个别用户占用过多计算资源。以及对于 IP 的访问限流。
任务队列管理：对于高计算消耗的任务（如长文本生成、复杂代码推理），采用任务排队机制，避免瞬时请求超载。排队机制在文生图的场景下属于通用方案，以 MJ 为例，其商业模式就在于任务数，任务能力的不同，底层还是资源的不同。
用户限流：以某种代币的方式发放给免费用户，使其有一定的使用次数限制，增加浏览器指纹等用户级的限制，减少用户的并发使用情况，以及增加对话数的限制等。
动态限流：根据服务器的当前负载自动调整限流策略，在资源紧张时降低 QPS，在资源充足时放宽限制。

（3）限流策略解决的问题

防止系统崩溃，确保 AI 服务在高并发情况下仍能稳定运行。
优化资源分配，优先保证高价值用户的服务体验。
抵御恶意攻击，防止 DDoS 攻击或恶意爬取 API 造成的资源滥用。

（4）限流策略的注意事项

限流策略需要动态调整，不能一刀切，否则可能导致正常用户体验下降。
需要提供合理的错误反馈，例如「当前请求过多，请稍后重试」而不是简单的「服务器错误」。
与缓存结合使用，对于常见请求，优先返回缓存结果，减少对 AI 推理的调用次数。这个点在产品层面需要考虑，确实，和传统互联网产品相比，缓存在 AIGC 产品中的使用需要更谨慎一些。

3.3. 弹性扩展

弹性扩展 是指根据实际流量动态调整计算资源，以提高系统的可用性和响应速度。

（1）传统互联网产品的弹性扩展策略

自动扩容：使用云计算（如 AWS Auto Scaling、Kubernetes HPA）自动增加或减少服务器实例。
负载均衡：使用 Nginx、CDN、反向代理等技术，将流量均匀分配到不同的服务器节点上。
冷/热数据分离：将访问频率高的数据放入高速缓存，减少数据库查询压力。

（2）AIGC 产品中的弹性扩展策略

GPU 资源动态调度：由于 AI 推理高度依赖 GPU，可以采用动态 GPU 分配策略，根据请求量调整 GPU 负载。
多模型并行推理：对于高负载场景，可以部署多个副本的 AI 模型，采用负载均衡策略分配请求。
推理任务分批处理：对于大规模生成任务，采用批处理方式，提高计算效率，减少单次推理的成本。

（3）弹性扩展策略解决的问题

避免资源浪费，在低流量时减少计算资源，降低运营成本。
提升系统吞吐能力，在高流量时快速扩展计算能力，确保服务稳定。
提升响应速度，减少高并发情况下的请求排队时间，提高用户体验。

（4）弹性扩展策略的注意事项

扩容速度需要优化，如果扩容响应过慢，可能导致短时间内大量请求失败。
成本控制，GPU 计算资源昂贵，需要权衡服务质量与成本。
监控与预警，需要实时监控系统负载，提前预测流量高峰，避免突发情况导致系统崩溃。

AIGC 更多的问题还是算力资源的问题，从 DeepSeek 的服务器 IP 来看，其使用的是华为云，后端推理算力不确定是哪家的。基于多云的弹性调度是一个可以考虑的方案，当然，前提是成本能够扛得住。

4. 从故障看 AIGC 可用性策略的四大核心矛盾

算力需求与资源调度的失衡
AIGC 模型的推理成本极高。当用户量激增或遭遇攻击时，弹性伸缩能力不足可能直接导致服务崩溃。
功能复杂度与稳定性的博弈
DeepSeek 的「深度思考」依赖多模态数据处理和强化学习技术，但功能越复杂，系统耦合性越高，单点故障风险越大。
用户预期与容灾能力的落差
用户对 AIGC 的期待是「类人级响应」，但实际服务常因网络抖动、模型加载延迟等问题降级为「机械式回复」。
商业化压力与技术投入的冲突
尽管 DeepSeek 登顶多国应用商店榜单，但其快速扩张可能透支了技术团队的运维能力，导致故障频发后被迫暂停 API 充值。

DeepSeek 的故障并非个例，而是 AIGC 行业集体面临的挑战。从技术角度看，模型能力与系统稳定性需同步进化；从用户角度看，容忍度与预期管理同样关键。

未来，AIGC 服务的竞争不仅是「谁更聪明」，更是「谁更可靠」，特别是在企业应用的场景。毕竟，再惊艳的思考过程，若总以「服务器繁忙」收场，终将消磨用户的耐心与信任。

以上。