标签归档:风险治理

关于前端稳定性建设的系统性思考

【说明】全文约 15000 字,阅读需要约 30 分钟。是关于前端稳定性建设的系统性思考,从可观测体系、全链路监控、高可用架构、性能管理、风险治理、流程机制、工程建设等 7 个方面做了详细的表述。

随着前端技术的不断发展和前端应用工程的日益复杂化,前端系统的稳定性已经成为一个不容忽视的话题。

从技术站位来看,前端是连接用户与后端的重要桥梁。前端的稳定性直接关系到用户体验和产品形象。

如此,我们可以定义前端稳定性是指从用户的角度出发,检测到的整个系统的稳定性,系统任何一个环节的缺失都会对体验造成影响。

在实际业务中,我们经常看到有内部或外部的用户反馈,图片没有显示、页面点不了,卡住了,白屏了等等。这都是从用户的角度出发,发现的问题,但是常常我们没有一个体系来观测这些问题以及去跟踪解决这些问题。

这些问题直接关系到用户的使用体验和企业的业务发展。如果前端应用经常出现崩溃、卡顿、响应慢等问题,不仅会降低用户的满意度和忠诚度,还可能导致用户流失和业务损失。因此,前端稳定性建设是保障用户体验和业务发展的基础性工作。

前端稳定性建设面临的挑战主要来自于以下几个方面:

  1. 浏览器兼容性问题:和后端不同,后端的运行环境是在后端开发同学可控范围内的,而前端应用需要在各种不同的浏览器上运行,而不同浏览器厂商对前端技术的支持程度和实现方式存在差异。这就要求前端工程师在开发时要考虑各种兼容性问题,并进行大量的跨浏览器测试和调试工作。否则,可能导致某些浏览器上出现页面显示异常、功能不可用等稳定性问题。

  2. 网络环境复杂多变:前端应用的运行依赖于网络环境,除了自身资源的加载,还有后端请求等。然而,用户的网络条件千差万别,如弱网、断网、高延迟等问题时有发生。这些网络问题如果处理不当,会严重影响页面的加载速度和交互体验。同时,前端还需要考虑不同网络环境下的离线化方案,确保核心功能的可用性。

  3. 第三方服务不可用:CDN、云存储、广告等第三方服务故障或变更也会影响前端的稳定性。

  4. 代码质量参差不齐:前端代码通常由多人协作完成,开发人员的技术水平和编码习惯差异较大。这导致项目中经常存在大量的遗留代码和技术债,代码质量难以保证。低质量的代码不仅难以维护,还可能引入各种 bug 和性能问题,成为影响稳定性的重要因素。

  5. 业务需求快速变化:在快速的业务发展中,前端需求也在不断变化。频繁的需求更新和版本迭代,给前端开发和测试带来了很大压力。一方面,需要在有限的时间内快速响应需求;另一方面,又要尽可能保证每个版本的质量和稳定性。两者之间如何平衡,是一个不小的挑战。

  6. 缺乏完善的监控和报警:相对于后端,前端在监控和告警方面相对薄弱一些,并且前端错误和异常的表现形式多种多样,如白屏、卡顿、闪退等,而且难以通过后端日志发现和定位。如果没有完善的前端监控和报警机制,这些问题很可能被延迟发现甚至遗漏,从而酿成严重的线上事故。因此,构建全面的前端监控体系,是稳定性建设的重要一环。

  7. 缺少专门的稳定性团队和机制:很多团队缺少专门的稳定性工程师来推动前端稳定性建设,也没有将稳定性纳入考核机制。这导致稳定性工作容易陷入「重功能,轻质量」的误区。没有专人推动和持续投入,前端稳定性很难真正做起来、做下去、做出效果。

  8. 技术更新迭代加快:前端领域的新技术和新框架层出不穷,更新迭代速度非常快。但新技术在给开发带来便利的同时,也可能引入新的稳定性风险。团队需要在引入新技术时,充分评估其稳定性,并制定风险应对预案。同时,对遗留项目的老旧技术栈,也需要有计划地进行升级和重构,化解潜在的不稳定因素。

以上这些都会导致前端稳定性建设的风险发生,基于过往实践的一些经验,尝试系统性思考和梳理前端稳定性建设,总共有 7 点:可观测体系、全链路监控、高可用架构、性能管理、风险治理、流程机制和工程建设。

1 可观测体系:稳定性的前提

可观测性指一个系统在其外部输出的辅助下,推断其内部运行状态的能力。

可观测体系是前端稳定性建设的前提。它通过对前端应用的各个环节进行全方位的数据采集和分析,让系统的运行状态变得「可见」、「可度量」、「可诊断」。

只有建立完善的监控、日志、告警等可观测手段,才能及时发现和定位问题,为稳定性保驾护航。

主要包括四大支柱:

  1. 监控:全方位采集前端业务和系统的关键指标,实时呈现系统的运行状态。
  2. 告警:基于预设阈值规则,对异常指标进行告警,通知相关责任方及时处理。
  3. 日志:记录各种事件的详细上下文信息,用于问题的事后复盘和审计。
  4. 追踪:通过分布式链路追踪,梳理请求的完整调用链路,快速定位性能瓶颈。

其中监控作为可观测体系的核心,又可细分为 4 个层次:

  1. 基础监控:核心指标监控,如 JS 错误、接口请求等。
  2. 业务监控:结合业务语义,定制化采集业务指标,如登录成功率、XXX 转化率、访问量等。
  3. 行为监控:面向用户行为和业务流程,采集用户的行为轨迹和业务漏斗等数据。
  4. 体验监控:关注用户的主观感受,采集性能指标、页面稳定性等,评估用户体验。

监控的实施落地在下个小节详细聊,这里主要聊一下指标体系。

监控的核心是建立一套全面、有效的指标体系。指标体系要有清晰的分层架构,我们从「用户体验、页面健康、业务转化」三个维度,设计了以下关键指标:

  1. 用户体验相关

重点关注性能指标,度量页面在用户设备上的真实体验。

  • 首屏时间: 以用户为中心的性能指标,可以测试用户感知到的页面加载速度。反映页面的可见速度。常见的细化指标包括 LCP、FCP、TTFB 等
  • 白屏时间:从页面请求开始,到页面开始有东西呈现为止。反映页面的响应速度。
  • 可交互时间:从页面请求开始,到页面可以响应用户交互。反映页面的可用速度。常见的细化指标包括 TBT 等
  • 加载时间:从页面请求开始,到页面全部资源加载完成。反映页面的完整速度。常见的细化指标包括
  • 体积大小:页面加载的资源文件大小。影响页面加载速度和首屏时间等。常见的细化指标包括 页面 CSS 总文件大小、页面 JS 总文件大小、页面 HTML 体积(主要是 SSR 模式下),
  • 卡顿率:页面交互过程中出现卡顿的概率。反映页面交互中的用户的使用流畅度。
  1. 页面健康相关

重点关注异常指标,度量页面的异常情况及其影响面。

  • 白屏率:单位时间内,页面白屏不可用的 UV 与总 UV 的比值。反映页面的整体可用性。
  • JS 错误率:单位时间内,JS 错误的发生次数与 PV 的比值。反映页面的整体稳定性。
  • JS 错误影响率:单位时间内,发生 JS 错误的 UV 与总 UV 的比值。反映 JS 错误对用户的影响面。
  • 接口错误率:单位时间内,接口报错的次数与总请求次数的比值。反映接口的整体健康度。
  • 资源错误率:单位时间内,资源加载错误的次数与总资源请求次数的比值。反映资源的可用性。
  • CDN 请求成功率:CDN资源请求的成功率。反映第三方 CDN 等的资源加载的可用性。
  1. 业务转化相关

重点关注业务指标,度量页面的核心业务表现。

  • 跳出率:只浏览一个页面就离开的 Session 占比。反映页面的受欢迎程度。
  • 退出率:某个页面作为 Session 最后一个访问页面的占比。反映页面的挽留能力。
  • 转化率:完成预期动作(如注册、下单)的用户数与总用户数的比值。反映页面的转化效率。

指标体系制定过程中,指标需要符合 「SMART」 原则。

指标体系只是起点,要让它真正发挥作用,还需要监控平台、告警机制、故障诊断等配套能力,形成一套闭环的稳定性保障机制。

2 全链路监控:稳定性的守护者

前端是直接面向用户的端,除了自身的工程部分,其还依赖于后端、第三方、以及整个业务链路中所有通路。

一个前端请求的处理流程,从浏览器发起请求,到服务端接收请求并返回响应,再到浏览器接收响应并渲染页面,贯穿多个不同的技术栈和系统。任何一个环节出现异常,都可能导致请求失败或响应缓慢,影响到最终的用户体验。

因此,光有前端侧的监控数据是不够的,还需要建立端到端的全链路监控体系。全链路监控是端到端追踪请求流程、发现性能瓶颈、定位异常根源的利器,是确保整个前端服务稳定运行的守护者。

  1. 请求追踪:在请求从前端发起时,植入唯一的 TraceID。该 ID 贯穿整个请求的处理过程,前后端服务通过传递该 ID,将一次完整的请求串联起来。利用 OpenTelemetry 等开放标准,统一不同服务的追踪数据格式,实现全链路可观测。

  2. 接口监控:在前后端的接口调用处,监控请求量、成功率、错误码、响应时间等指标。当某个接口的关键指标出现异常时,及时报警通知相关责任人。对高频调用、高敏感度的核心接口,设置更加严格的监控规则。

  3. 网络监控:前端请求的响应时间,很大一部分消耗在网络传输上。通过 Navigation Timing、Resource Timing 等 API,采集请求各个阶段的耗时,如 DNS 解析、TCP 连接、SSL 握手、响应等待等。当某个阶段耗时异常时,说明网络环节可能存在问题。

  4. 服务监控:除了前端自身,还需要监控前端所依赖的后端服务的运行状态,包括接口的可用性、负载情况等。当某个服务出现不可用、响应变慢等情况时,前端要能快速感知,并触发相应的告警和降级策略,避免影响到用户。服务的监控更多的依赖于后端或者 SRE 同学的构建,只是从前端的角度,其作为我们监控的一个关联方或者说链路中的一环。

  5. 业务监控:从业务的视角设置监控,如用户的登录成功率、订单的支付转化率等。一旦这些关键业务指标出现异常波动,就有可能说明某个环节出了问题,需要及时介入分析和处置。

  6. 智能关联:海量的监控指标,很容易产生”告警风暴”,淹没真正的问题。利用机器学习算法,智能关联不同来源的监控数据。比如,当某个接口响应缓慢,再结合网络监控数据,发现同一时间网络延迟升高,响应时间和延迟的波动趋势一致,那问题的根源可能在于网络,而非程序代码。

全链路监控从整体上提升了前端异常的可发现性,能够以更全局、更系统的视角审视请求的健康状况。它让监控不再局限于单一的技术范畴,而是拓展到了端到端的业务链路,从而更加贴近用户的真实体验。

以上是我们需要监控的部分,但是如何从头开始构建整个全链路监控系统,大概需要有如下的步骤:

2.1 需求调研与方案设计

每一家公司对于监控的诉求都不一样,特别是全链路这种大而全的监控系统,往往是一个牵连甚广的事项,最好从上到下来实施落地。

而且,需要结合当前业务所处的阶段,当前业务形态来明确需要做什么,以及能做什么

这个过程主要是以下两个部分:

  1. 梳理监控需求:深入调研业务和技术团队,了解他们对监控的需求和期望。识别关键的业务流程和核心技术指标,明确监控的目标和范围。这一点特别重要,明确目标,考虑整体的 ROI,以及结合公司战略。

  2. 设计监控方案:基于调研结果,设计全链路监控的整体方案。方案要覆盖前端、网络、后端、基础设施等各个环节,涵盖性能监控、错误监控、业务监控等各个维度。要明确数据采集、数据处理、数据存储、可视化展示、告警通知等各个流程的技术选型和实现方案。这些内容是要考虑,但是并不是要一次性做完,全链路监控和稳定性建设一样都是一个长期的事情,需要不停的打磨和持续的投入。

2.2 监控 SDK 开发

要想做监控系统,其作为一个通用的能力,需要有特定的 SDK,以及系统支撑,从规范和模型开始保持统一,这样后续的的报表、监控等才能统一处理和跟进。

  1. 定义数据模型:基于监控需求,设计监控数据的结构化模型。数据模型要能覆盖各类监控场景,如性能指标、错误日志、请求追踪等,同时要易于扩展和维护。

  2. 开发采集 SDK:针对不同的监控对象和环境,如 JS 端、Node 端、iOS 端、Android 端等,开发对应的数据采集 SDK。SDK 负责以最小侵入的方式,采集各种监控指标。要保证 SDK 的稳定性和性能,不影响业务功能。

  3. 设计数据上报:采集到的监控数据,要高效、可靠地上报到服务端。设计合理的数据上报策略,如本地缓存、定时上报、断点续传等,提升数据的完整性。数据格式要轻量化,减少网络传输的开销。

2.3 搭建日志和监控服务

和 SDK 以及数据模型相关的是日志以及整个监控系统,大概包括如下的部分:

  1. 数据接收服务:搭建数据接收服务,如 Nginx、Kafka 等,负责接收 SDK 上报的监控数据。服务要能承载大量并发的数据写入,保证数据不丢失。

  2. 数据处理服务:搭建数据处理服务,如 Flink、Spark 等,对接收到的原始监控数据进行清洗、转换、聚合,生成各类统计指标。处理过程要尽可能实时,减少数据处理的延迟。

  3. 数据存储服务:根据数据的特性和查询需求,选择合适的存储服务。如对实时性要求高的核心指标,存入时序数据库如 InfluxDB;对聚合统计数据,存入 ElasticSearch;对明细数据,存入 Hive、Druid等。

  4. 配置告警规则:基于业务的 SLA 要求,配置各类监控指标的告警规则。如设置核心性能指标的阈值、错误率的上限等。告警规则要定期回顾,持续优化。

2.4 可视化展示搭建

数据存储及分析后,需要展示出来,通用我们会使用监控大盘、报表以及告警的形式。

  1. 监控大盘开发:使用 Grafana 等可视化工具,开发监控指标的展示大盘。大盘布局要清晰,核心指标放在显著位置。图表类型要直观,如用仪表盘展示实时数据,用折线图展示趋势数据。

  2. 监控报表开发:使用 BI 工具(优先考虑公司内已有的),开发监控数据的统计报表。报表维度要全面,如按时间、地域、终端等多个维度统计核心指标。报表要定期发送给相关干系人。

  3. 监控告警开发:接入钉钉、Slack、短信、电话等告警渠道。当监控指标触发告警规则时,自动发送告警通知。告警内容要明确,如告警对象、告警原因、告警等级等。同时要有告警升级和恢复的机制。

以上的搭建过程,可以结合公司实际情况,使用开源项目搭建,也可以考虑使用公有云服务提供的日志、监控等组件,或者购买专业的第三方日志监控系统,可以更快的实现想要的效果。

在搭建完以上这些后,后续可以考虑根因分析模型,故障自愈机制,以及对于监控的标准处理流程,这些处理流程我们在后面的流程机制中再展开聊。

全链路监控系统的构建涉及方方面面,需要前端、后端、算法、运维等各领域通力合作。从需求调研,到方案设计,再到开发搭建、优化运营,每一步都要细之又细。尤为关键的是,监控系统的构建不是一蹴而就的,而是一个持续迭代、不断优化的过程。只有持之以恒地优化和完善,才能真正发挥监控系统的价值,为业务保驾护航。

3 高可用架构:稳定性的核心

前端的高可用,不仅要「治已病」,还要「防未病」。通过合理的架构设计,提高系统对各种异常情况的容错能力,让系统在局部出现问题时,仍然能维持整体的可用性,避免发生雪崩效应:

3.1 请求冗余

请求冗余是一种常见的高可用架构设计,旨在提高系统对网络故障和服务异常的容错能力。它通过在前端应用中增加请求的副本数量,确保在某个请求失败或超时的情况下,其他请求仍然能够正常执行,从而保证系统的可用性。

具体实现方式包括:

  • 备用请求:在前端应用中,当一个请求地址不可用性,可以请求备用的地址,如多域名或多入口策略。这样可以避免因网络、链路故障而导致的系统不可用。
  • 请求重试:在请求失败或超时的情况下,自动进行重试。重试策略可以根据具体情况进行配置,如指数退避、固定间隔等。
  • 请求缓存:对于一些非实时性要求较高的请求,可以在前端进行缓存。这样即使后端服务出现故障,前端仍然可以返回缓存的结果,提高用户体验。

通过请求冗余的设计,可以有效减少因网络故障或服务异常而导致的系统不可用情况,提高系统的稳定性和可靠性。

3.2 服务降级

服务降级不仅是一个后端的高可用策略,同时也是一个前端的高可用策略。

服务降级是一种在系统负载过高或服务异常时,通过降低服务质量或减少服务功能来保证系统可用性的策略。在前端高可用架构中,服务降级可以应用于以下几个方面:

  • 功能降级:在系统负载过高时,可以暂时关闭一些非核心功能,如评论、分享等,以减轻服务器压力。
  • 数据降级:在数据获取失败或超时的情况下,可以返回默认数据或历史数据,避免因数据缺失而导致的页面错误。
  • 界面降级:在页面渲染失败或加载缓慢的情况下,可以简化页面布局或隐藏部分内容,提高页面的加载速度和可用性。

通过服务降级的设计,可以在系统出现异常情况时,保证核心功能的可用性,提高用户体验。

3.3 灾备切换

灾备切换是指当系统发生故障或灾难时,能够快速切换到备用系统或备用数据中心,以保障业务的连续性和数据的安全性。在前端高可用架构中,灾备切换通常包括以下几个关键点:

  • 多活数据中心:在不同的地理位置建立多个数据中心,每个数据中心都具备完整的业务处理能力。当某个数据中心发生故障时,可以快速切换到其他数据中心继续提供服务。
  • 数据同步:通过数据同步机制,确保不同数据中心之间的数据保持一致。这样在切换到备用数据中心时,用户的数据不会丢失或出现不一致的情况。
  • 自动切换:建立自动化的灾备切换机制,当检测到故障时,系统能够自动切换到备用数据中心,减少人工干预和故障恢复时间。
  • 故障演练:定期进行故障演练,验证灾备切换机制的有效性,并及时发现和解决潜在的问题。

3.4 前端限流

参考服务端的限流理念,对一些高频触发的前端操作,也可以在前端侧进行限流。比如对某个按钮的点击,在一定时间内只允许触发一次。或对某个输入框的提交,限制提交频率。前端的限流一方面减少了无谓的请求,另一方面也避免了重复请求对服务端的冲击。

常见的前端限流策略包括:

  • 请求频率限制:限制单位时间内的请求次数,超过限制的请求将被拒绝或延迟处理。
  • 并发请求限制:限制同时处理的请求数量,避免过多的并发请求导致系统资源耗尽。
  • 熔断机制:当后端服务出现故障或响应时间过长时,自动熔断前端请求,防止故障扩散和系统雪崩。

3.5 离线化方案

离线化方案是指通过在前端应用中增加离线功能,使得在网络不可用或不稳定的情况下,用户仍然可以正常使用部分功能。

如 PWA (Progressive Web App) 等离线化技术,将关键的静态资源、数据缓存在本地,即使在无网络的情况下,也能打开页面,执行部分核心功能。这在移动端尤其有用,可以抵御弱网、断网等网络异常。

常见的离线化策略包括:

  • 资源缓存:将静态资源(如HTML、CSS、JS 等)缓存在本地,使得在离线状态下可以正常加载和渲染页面。
  • 数据缓存:将常用的数据缓存在本地,使得在离线状态下可以正常访问和操作数据。
  • 断点续传:在网络恢复后,自动恢复未完成的操作或数据同步,提高用户体验。

3.6 故障隔离

利用微前端架构,将一个庞大的前端应用拆分成若干个松耦合的子应用。不同子应用独立开发、独立部署,运行在不同的运行时环境中。当某个子应用出现故障时,不会波及到其他子应用。也可以考虑为每个子应用分配独立的错误监控和告警渠道,做到故障的精细化管理。

故障隔离可以通过合理的架构设计和故障处理机制,将故障的影响范围限制在最小范围内,避免故障扩散和系统崩溃。

3.7 后端容错

除了前端要做好容错,还要反向要求后端服务也要有足够的容错能力,比如接口的幂等性设计、请求的重试机制、服务的主从切换等。只有前后端协同,共建稳定,才能真正实现全链路的高可用。

后端容错是指通过在后端服务中增加容错机制,提高系统的稳定性和可靠性。常见的后端容错策略包括:

  • 幂等性设计:幂等性是指对同一个接口的多次调用,返回的结果是一致的,不会因为多次调用而产生副作用。幂等性是容错的基础,可以确保在请求重试或者并发调用时,不会引入数据不一致或者重复处理的问题。
  • 请求重试机制:当请求失败时,自动进行重试,直到请求成功或者达到最大重试次数。重试可以提高请求的成功率,减少因为网络抖动、服务瞬时不可用等原因导致的请求失败。但重试也要把握好度,避免无休止的重试加剧系统的负载。
  • 服务降级:当服务负载过高或者出现故障时,主动关闭非核心功能,释放资源确保核心功能的可用性。降级可以防止服务因为过载而完全瘫痪。
  • 数据校验:在接收到前端请求时,对请求参数进行校验,避免因参数错误而导致的系统异常。
  • 异常处理:在服务内部增加异常处理机制,当出现异常时能够进行合理的处理和恢复。
  • 服务熔断:当依赖的下游服务出现故障时,主动切断对下游服务的请求,避免故障传递和放大。熔断可以防止因为个别服务的故障而引发整个系统的级联失败。
  • 服务限流:对请求的速率进行控制,避免服务因为突发的高并发流量而过载。限流可以保护服务的稳定性,避免因为个别客户端的异常流量而影响其他客户端。
  • 服务隔离:将不同的服务部署在不同的机器或者容器中,避免单个服务的故障影响到其他服务。隔离可以提高故障的隔离性和系统的可扩展性。

3.8 模块化与组件化

模块化和组件化是高可用架构的重要实践,对于提高代码质量、降低维护成本,提高整体可用性有着重要意义。

模块化是指将前端代码划分为独立、可复用的模块,每个模块有明确的职责和边界。通过模块化,可以解决前端代码的耦合、重复问题,提高代码的可读性和可维护性。常见的前端模块化规范有 CommonJS、AMD、ES Module等。

组件化是指将 UI 和功能封装为独立、可复用的组件,每个组件有自己的状态、属性、事件等。通过组件化,可以提高UI开发的效率和一致性,方便进行功能复用和扩展。现代前端框架如 React、Vue、Angular 等,都提供了组件化的开发模式。

要实践好模块化和组件化,需要遵循以下原则:

  1. 单一职责:一个模块或组件只负责一个功能,避免职责混乱。
  2. 松耦合:模块或组件之间的依赖关系要明确、最小化,避免紧耦合。
  3. 可复用:模块或组件要提供通用的接口,方便在不同场景下复用。
  4. 可测试:模块或组件要容易编写单元测试,保证功能的正确性。
  5. 易维护:模块或组件的代码要简洁、易读、易修改,降低维护成本。

除了技术实现,模块化和组件化还需要有配套的管理机制,如模块注册、版本管理、文档生成等,以提高复用效率和降低维护成本。

通过模块化和组件化,可以将复杂的前端应用划分为清晰、可管理的模块和组件,提高代码的质量和复用性,降低Bug引入的风险,最终提升前端的稳定性。

通过以上几个方面的综合设计和优化,可以有效提高前端应用的高可用性,保障业务的连续性和用户体验。

4 性能管理:稳定性的保证

性能问题是稳定性的重要威胁之一。页面加载缓慢、交互反馈慢等性能问题,会极大影响用户体验,造成用户流失。因此,性能管理也是稳定性建设的重点领域:

4.1 性能指标

建立完善的性能指标监控和分析体系。关注各项性能指标,包括白屏时间、首屏时间、用户可交互时间、页面完全加载时间等。根据行业标准和自身业务特点,确立性能的目标值和衡量标准。当某个性能指标达不到目标值时,及时告警并分析原因。

在前面的指标体系和全链路监控中我们有详细讲,这里就不展开了。

不过需要明确的一点是,性能指标是性能管理的开始和结束,是一个闭环,从指标开始,也从指标结束,但是过程中不要盲从于指标,需要多方面的观测及洞察,发现问题及时处理。

4.2 性能优化

性能问题是影响用户体验和系统稳定性的重要因素,性能管理贯穿于前端应用的整个生命周期,通过性能监控、优化、回归等手段,持续保证系统的性能表现。

通过优化资源、代码、渲染、网络和交互等方面,可以有效提高应用的加载速度、响应速度和运行效率。

1. 资源优化

  • 图片优化:选择适当的图片格式,如 WebP 或 JPEG XR,以减小文件大小。根据实际需求调整图片尺寸,避免不必要的大图加载。
  • CSS/JS 优化:合并和压缩 CSS/JS 文件,减少 HTTP 请求次数。使用CDN加速静态资源加载,并启用浏览器缓存以减少重复加载。
  • 资源懒加载:对于非首屏展示的图片、视频等资源,采用懒加载技术,在用户滚动到可见区域时才进行加载。

2. 代码优化

  • 减少DOM操作:频繁的DOM操作会导致页面重绘和重排,影响性能。应尽量减少DOM操作,或使用 DocumentFragment 等技术进行批量更新。
  • 事件委托:使用事件委托技术,将事件处理函数绑定到父元素上,减少事件监听器的创建和内存占用。
  • 节流和防抖:对于频繁触发的事件,如窗口大小变化或滚动事件,使用节流和防抖技术,减少事件处理函数的执行频率。

3. 渲染优化

  • 避免布局抖动:减少布局和绘制的频率,避免频繁的样式变化和DOM操作。
  • 使用 CSS 动画:相比于 JavaScript 动画,CSS 动画更高效,可以减少 JavaScript 的计算和渲染压力。
  • 虚拟滚动:对于长列表或表格,使用虚拟滚动技术,只渲染可见区域的内容,提高渲染性能。

4. 网络优化

  • HTTP/2:使用 HTTP/2 协议,利用多路复用和服务器推送等特性,提高网络传输效率。
  • 预加载和预渲染:对于即将访问的页面或资源,进行预加载或预渲染,减少用户等待时间。
  • 优化网络请求:减少不必要的网络请求,合并请求,使用合适的请求方法和数据格式。

5. 异步加载

  • 异步加载 JS/CSS:将非关键的 JS/CSS 文件设置为异步加载,避免阻塞页面渲染。
  • 代码分割:使用代码分割技术,将代码拆分为多个模块,按需加载,减少初始加载时间。

6. 交互优化

  • 及时响应用户操作:确保用户操作得到及时的反馈,包括出错情况的处理。
  • 过渡动画平滑自然:使用平滑自然的过渡动画,提升用户体验。
  • 减少用户等待:优化加载和响应时间,减少用户等待。
  • 优化卡顿情况:确保交互响应迅速,避免卡顿,提供流畅的用户体验。

7. 兼容性和健壮性

  • 兼容不同设备、系统和浏览器:确保应用在各种设备、系统和浏览器上都能正常运行。
  • 异常和错误处理:对异常和错误进行妥善处理,保证页面稳定。
  • 代码规范和质量控制:使用代码规范和质量控制流程,减少 bug,提高代码质量和可维护性。

在实施性能优化时,应根据具体情况选择合适的策略,并进行充分的测试和验证,确保优化效果符合预期,同时不会引入新的性能问题或兼容性问题。

5 风险治理:稳定性的屏障

风险治理是稳定性建设的重要防线和屏障,通过系统化的风险管控措施,最大限度规避和降低风险的影响。 风险治理主要包括告警管理和风险冒泡两大板块。

5.1 告警管理

告警是风险的重要信号,高效的告警管理可以显著提升风险发现和处置的效率。告警管理主要包括以下环节:

前端的告警和后端

  1. 告警规则管理
    • 根据系统架构和业务特点,设置合理的告警规则和阈值。
    • 定期评估和优化告警规则,持续提高告警的准确性和时效性。
  2. 告警通知管理
    • 建立告警通知渠道,确保告警及时、准确送达相关责任人。
    • 设置告警通知策略,根据告警级别和时段,采用短信、电话、邮件等多种通知方式。
  3. 告警分析
    • 建立告警分析机制,对告警数据进行统计和分析,识别告警的规律和根因。
    • 对高频告警进行重点关注,找出优化方向,制定改进措施。
  4. 告警闭环管理
    • 建立告警处理流程,明确告警分派、处理、反馈、总结等环节的职责和要求。
    • 跟踪告警处理进展,确保每个告警都得到及时、有效地处置和闭环。

前端的告警及风险和后端不同,其有自己独特的特点:

  1. 用户直观感受:前端性能问题直接影响用户体验,如页面加载慢、交互卡顿等,用户可以直观地感受到。相比之下,后端性能问题可能不会立即被用户察觉。
  2. 设备和网络多样性:前端运行在各种设备和网络环境下,如不同的浏览器、操作系统、屏幕尺寸、网络状况等。这增加了前端性能问题的复杂性和不可预测性。
  3. 报错收集难:前端错误发生在用户的设备上,不像服务端错误那样可以直接在日志中捕获。需要专门的前端错误收集和上报机制,如Sentry、FrontJS等。并且,线上环境的代码通常是压缩和混淆后的,错误堆栈信息难以定位到原始代码。需要通过sourcemap 映射,将错误信息还原到开发环境的代码中,方便问题定位和修复。
  4. 用户操作路径多:用户在前端有多种操作路径和使用方式,不像后端那样请求路径相对固定。这增加了前端性能问题的复现难度和定位难度。

针对这些问题,我们需要做更多的事情来处理以达到告警出来后的内容可分析,可定位,可优化。

5.2 风险冒泡

风险冒泡是一种主动的风险管理机制,通过自下而上地识别和评估风险,实现风险的早发现、早处置。风险冒泡主要包括以下环节:

  1. 风险识别
    • 在架构设计、变更管理、故障处理等环节中,鼓励团队主动识别风险点。
    • 建立风险登记机制,为风险识别提供渠道和工具支撑。
  2. 风险分析
    • 对识别出的风险进行分析评估,判断风险的可能性和影响程度。
    • 根据风险分析结果,确定风险的优先级和处置策略。
  3. 风险闭环
    • 建立风险处置机制,明确风险处置的流程、职责和要求。
    • 跟踪风险处置进展,确保风险得到有效管控和闭环。
    • 定期回顾风险管理成效,持续优化风险管理流程和机制。

通过告警管理和风险冒泡等机制,提高风险管理的主动性和有效性,筑牢风险防范的堤坝,为系统稳定性提供坚实保障。

6 流程机制:稳定性的保障

稳定性建设不是一蹴而就的,需要长期的制度建设和流程固化。要形成一套体系化的工作机制和规范流程,让稳定性建设成为全员的自觉行动,常抓不懈、警钟长鸣:

6.1 前端质量周洞察

前端质量周洞察是一种定期回顾和总结前端质量状况的机制。通过每周或每两周一次的质量洞察会议,团队可以及时发现和解决前端稳定性方面的问题。质量洞察的主要内容包括:

  1. 监控数据回顾:回顾上周的前端监控数据,包括错误率、性能指标、用户体验指标等。重点关注数据的异常波动和恶化趋势,分析其原因并制定改进措施。

  2. 热点问题分析:总结上周的热点问题,包括影响较大的线上故障、用户反馈集中的痛点等。深入分析问题的根本原因,评估现有的解决方案,必要时进一步优化或重新设计。

  3. 版本质量评估:评估上周发布的新版本的质量情况,包括发布后的前端稳定性指标、用户满意度等。总结版本发布过程中的经验教训,优化发布流程和质量控制措施。

  4. 优化方案讨论:针对前端稳定性的薄弱环节,讨论和制定优化方案。优化方案可以涉及前端架构、开发流程、测试策略、监控体系等各个方面。明确优化方案的目标、实施步骤和评估标准。

  5. 行动项跟进:跟进上周质量洞察会议确定的行动项的完成情况。对于尚未完成的行动项,分析延迟原因,调整优先级和计划。对于已完成的行动项,评估其效果和改进空间。

通过定期的前端质量周洞察,团队可以形成持续改进的闭环,不断提升前端稳定性和质量水平。

6.2 灰度发布

灰度发布是一种渐进式的发布策略,通过逐步扩大发布范围,降低新版本的前端稳定性风险。灰度发布的主要流程如下:

  1. 制定灰度计划:根据新版本的改动范围和风险等级,制定灰度发布计划。明确灰度的阶段、时间节点、目标用户群等。设定每个阶段的质量门禁和评估标准。

  2. 小规模试点:先在内部环境或者很小规模的用户群中进行新版本的试点发布。密切监控前端稳定性指标,快速发现和修复问题。根据试点效果,决定是否继续扩大发布范围。

  3. 逐步扩大灰度:如果试点效果良好,则逐步扩大灰度的范围。可以按照地域、用户特征、业务线等维度,分批次地将新版本发布给更多用户。在每个批次后,都要评估前端稳定性指标,确保达到预期后再进入下一批次。

  4. 全量发布:当新版本的灰度范围扩大到一定规模(如50%的用户),且稳定性指标持续良好时,可以考虑进行全量发布。但是在全量发布后,仍然需要密切监控一段时间,确保新版本的稳定性。

  5. 回滚机制:在灰度发布过程中,如果发现严重的稳定性问题,要有快速回滚到上一版本的机制。回滚机制要提前准备好,确保能够及时、安全地执行。

灰度发布可以有效控制前端稳定性风险,避免新版本的问题影响所有用户。但是灰度发布也需要额外的技术支持,如配置中心、AB测试、多版本并存等。

6.3 故障应急机制

故障应急机制是指在前端发生重大故障时,快速响应和处置的流程和措施。高效的故障应急机制可以最大限度地减少故障影响,保障业务连续性。故障应急机制的主要内容包括:

  1. 故障分级与升级:根据故障的严重程度和影响范围,将故障分为不同的等级(如P1、P2、P3等)。每个级别都要明确相应的响应时间和处理流程。当故障达到一定级别时,要及时升级,触发更高优先级的应急响应。

  2. 应急预案准备:针对可能出现的重大故障场景,提前准备应急预案。应急预案要明确故障的判断标准、应急组织架构、处理流程、通知机制、备用方案等。定期进行应急演练,检验和优化应急预案。

  3. 故障快速定位:当故障发生时,首要任务是快速定位故障根源。需要借助完善的前端监控体系,通过错误日志、性能指标、用户反馈等信息,缩小故障范围,找到关键线索。同时要建立故障定位的专家库,确保能够第一时间调动到专业人员。

  4. 故障处置与恢复:根据故障定位的结果,迅速制定和执行故障处置方案。处置方案要尽可能减少对用户的影响,如通过降级、限流、熔断等手段,保障核心业务的可用性。在故障恢复后,要及时通知用户,并进行事后复盘。

  5. 故障复盘与优化:每次重大故障后,都要进行彻底的复盘分析。复盘内容包括故障原因、影响范围、处置过程、经验教训等。根据复盘结果,制定优化方案,从架构、代码、流程等方面进行改进,避免类似故障再次发生。

高效的故障应急机制需要团队的紧密协同,以及平时的充分准备。通过不断演练和优化,打造一支高度敏捷和专业的故障应急队伍。

7 工程建设:稳定性的基石

工程建设是前端稳定性的基石,包括实验环境、自动化测试、CI/CD流程等,通过工程化手段提升研发效率和质量,为稳定性打下坚实的基础。

7.1 实验环境

实验环境是前端稳定性建设的关键基础设施,用于进行各种测试、验证和评估活动,确保前端应用质量和性能的基线。一个完善的实验环境需要满足多方面的需求,包括功能验证、兼容性测试、性能评估、回归测试等。

7.1.1 环境配置

实验环境应该尽可能模拟生产环境,以发现真实环境下可能遇到的问题。环境配置需要考虑以下几个方面:

  1. 操作系统和浏览器:覆盖主流的操作系统(如Windows、macOS、Linux)和浏览器(如Chrome、Firefox、Safari、Edge、IE等),以进行兼容性测试。
  2. 设备类型:包括 PC、手机、平板等不同的设备类型,以验证响应式设计和适配效果。
  3. 网络环境:模拟不同的网络条件,如高延迟、弱网络等,以评估应用在不同网络下的性能表现。备注:此项要求较高,可以考虑有条件后再实施。
  4. 数据和配置:使用与生产环境相同或相似的数据集和配置,以发现数据相关的问题。

通过 Infrastructure as Code(IaC) 等技术,可以实现实验环境的自动化配置和部署,确保环境的一致性和可重复性。

7.1.2 兼容性测试

兼容性测试是验证前端应用在不同环境下正常运行的重要手段。实验环境需要提供全面的兼容性测试能力,包括:

  1. 多浏览器测试:在不同版本的主流浏览器下进行功能和UI测试,发现兼容性问题。
  2. 跨平台测试:在不同操作系统和设备类型下进行测试,验证应用的适配性。
  3. 自动化测试:利用 Selenium、Appium等自动化测试工具,执行跨环境的兼容性测试,提高测试效率和覆盖率。
  4. 兼容性问题管理:建立完善的问题报告和跟踪机制,及时发现和解决兼容性缺陷。

7.1.3 性能测试

性能测试是评估前端应用性能表现的重要手段,实验环境需要提供性能测试的基准和工具,因为实验环境是相对恒定的,可以基于这个相对恒定的环境,做好恨不能的基准测,确定及时了解各版本变化、业务迭代过程中性能的变化。包括:

  1. 性能指标:建立性能指标体系,如加载时间、响应时间、资源消耗等,作为性能评估的依据。
  2. 性能基准:在实验环境中建立性能基准,作为后续版本性能表现的参照。
  3. 性能工具:提供性能监控和分析工具,如 Lighthouse、WebPageTest 等,用于性能问题的发现和定位。
  4. 性能优化:根据性能测试结果,进行持续的性能优化,如资源压缩、缓存优化、懒加载等。

7.1.4 回归测试

回归测试是验证新版本引入的修改是否影响原有功能的重要手段。实验环境需要支持回归测试的自动化执行,包括:

  1. 自动化测试:将回归测试用例自动化,并集成到CI/CD流程中,在新版本部署到实验环境后自动执行。
  2. 测试覆盖率:建立完善的回归测试用例库,覆盖关键功能和场景,尽早发现回归缺陷。
  3. 测试报告:生成可视化的回归测试报告,显示测试执行情况和结果,便于问题分析和跟踪。

7.1.5 质量评估

实验环境还需要作为一个标准环境,用于评估前端应用的整体质量和性能表现,包括:

  1. 质量指标:建立质量指标体系,如缺陷密度、测试通过率、性能指标等,全面评估前端应用的质量水平。
  2. 版本比较:通过与历史版本的比较,评估新版本在功能、性能、稳定性等方面的变化和趋势。
  3. 预警机制:设置质量阈值和预警规则,当关键指标出现异常时,及时通知相关人员进行分析和处置。

通过构建实验环境,构建一个相对稳定和可靠的环境,实现兼容性测试、性能测试、回归测试等多个方面,并作为质量评估的标准环境。通过自动化配置、集成测试、持续优化等手段,不断完善实验环境的能力,提高测试效率和质量,为前端应用的稳定运行提供有力支撑。同时,实验环境的建设也需要与研发测试流程、质量标准等配套机制协同,形成完整的质量保障体系,促进前端工程的高质量、可持续发展。

实验环境可以考虑采购第三方平台,自行构建成本和维护成本太高。

7.2 CI / CD

CI 和 CD 是现代软件工程的核心实践,对于保障前端稳定性有着重要作用。

CI 指的是持续集成,即频繁地将代码集成到主干分支,并进行自动化构建和测试。通过 CI,可以尽早地发现和解决集成问题,保证主干代码的质量。一个完善的 CI 流程通常包括:

  1. 代码提交触发自动构建和测试。
  2. 执行代码质量检查,如 lint、format 等。
  3. 运行单元测试、集成测试,生成测试报告。
  4. 构建产物,如打包、压缩、上传 CDN 等。
  5. 通知相关人员,如构建失败时及时告警。

CD 指的是持续交付 / 部署,即自动化地将通过测试的代码发布到生产环境,实现快速、频繁、可靠的发布。CD的关键在于发布流程的自动化和标准化,通过规范的发布流程和工具,降低发布过程中的风险。一个典型的 CD 流程包括:

  1. 从 CI 产出的制品中获取最新的构建版本。
  2. 自动化部署到预发布环境,如准生产环境、灰度环境等。
  3. 进行人工验收或自动化验收,确认发布质量。
  4. 自动化部署到生产环境,如蓝绿部署、金丝雀发布等。
  5. 监控发布后的状态,如错误率、性能指标等,必要时进行回滚。

通过 CI/CD,可以大大提高前端的发布效率和质量,减少人工操作引入的不稳定性。同时,规范的 CI/CD 流程也为前端的质量门禁和风险控制提供了基础。

7.3 自动化测试

自动化测试是保障前端稳定性的重要手段。与手工测试相比,自动化测试具有效率高、覆盖全、稳定性好等优势。在前端工程中,常见的自动化测试形式有:

  1. 单元测试:测试独立的函数或模块,通过断言验证输入输出的正确性。
  2. 集成测试:测试多个模块间的协作,验证模块间的接口和数据流的正确性。
  3. 端到端测试:测试整个前端应用,模拟用户交互,验证UI和功能的正确性。
  4. 视觉回归测试:测试UI的外观和布局,通过截图比对等方式,发现UI变化引入的问题。

除了这些功能性测试,还需要进行非功能性测试,如性能测试、安全测试、兼容性测试等,以全面评估前端应用的质量。

要实施自动化测试,需要选择合适的测试框架和工具,如Jest、Mocha、Cypress、Puppeteer等。同时,要编写高质量的测试用例,覆盖重点功能和场景。自动化测试需要与CI/CD流程集成,在代码提交、构建、发布等环节自动触发,并生成可视化的测试报告。

通过自动化测试,可以在开发阶段尽早发现和修复缺陷,减少线上问题的发生。同时,自动化测试也为重构、优化等工作提供了质量保障,提高了前端的可维护性。

8 小结

和后端稳定性建设相比,前端稳定性建设的挑战不同,从大逻辑来却也是相同的,都是「预防为主,快速恢复」,将问题和故障扼杀在摇篮之中,就算是出了故障也能快速发现,快速处理,减少对用户的影响。

从过程来看,稳定性建设不是一个一蹴而就的过程,需要持续的投入。

过程中需要区分核心页面和非核心页面,考虑 ROI,优先保障核心业务模块的稳定性。

稳定性建设需要建立在真实、可量化的数据基础之上。我们收集并分析系统的各项指标数据,如白屏率、LCP、错误率、延迟等,用数据说话,找到问题点,一个个去解决,优化。

稳定性无止境,建设无止境。