熔断不是失败就断：真正该断的是无效等待和故障扩散

很多团队一聊熔断，第一反应都是配个失败率阈值，再补一个半开恢复，感觉这件事就算交代过了。

这当然没错，但也很容易把熔断理解窄了。因为线上很多系统最后不是死在“没有熔断”，而是死在另一件事上：下游已经明显不行了，调用方还在继续把自己的线程、连接和等待时间往里送。等超时一层层堆起来，入口 RT、错误率、重试量和资源占用就会一起往上顶，最后故障会顺着调用链从下游一路扩散上来。

所以我现在看熔断，已经不太会把它当成一个“调用失败就断掉”的开关了。我更愿意把它理解成一种止损机制：当你已经足够确定这条依赖短时间内给不出正常结果时，别再继续把本系统的人和资源送进去。

如果从这个角度看，很多熔断为什么配了却没救住，问题就不只在参数，而在前面几个更硬的判断根本没想清楚：

这条依赖到底值不值得熔断。
熔断打开以后，主链路靠什么继续活。
现在系统是在算不过来，还是在等不过来。
这个问题该靠熔断止损，还是该靠隔离、限流、缓存、异步化或者直接改依赖关系。

熔断要解决的是持续无效调用，不只是失败本身

很多人刚接触熔断时，脑子里容易把它理解成一句很简单的话：调用失败太多，就先别调了。

这句话不能说错，不过还不够。因为“失败”本身并不是熔断想处理的问题。麻烦的是持续无效调用。

一个下游服务已经明显抖了，你却还让请求继续同步打过去，这时候系统被拖死的，往往不是那几个失败结果，是这整段等待过程：

调用线程被挂住。
连接和资源池被占住。
上游 RT 被一起拉长。
超时之后又触发重试。
故障面从一个依赖点扩散到整条调用路径。

我后来更在意一个区分：有些请求失败，问题主要在结果不对；有些请求失败，问题主要在等待成本太高。前者不一定适合优先谈熔断，后者往往才是熔断最该顶上去的场景。

如果一个依赖一旦抖动，就会把线程、连接、排队时间和上游 RT 一起带坏，那它通常就是值得重点考虑熔断的对象。你想保护的不只是调用成功率，更是本系统别被它拖进等待地狱。

先想清楚“熔了以后怎么办”，比调阈值更重要

熔断这件事最容易做成配置题。

比如失败率超过多少打开，多久后半开，半开时放几个探测请求。

用一张状态机来看，熔断的基本流转大概就是这样：

stateDiagram-v2
    [*] --> 关闭
    关闭 --> 打开 : 失败率超过阈值
    打开 --> 半开 : 等待时间到
    半开 --> 关闭 : 探测成功
    半开 --> 打开 : 探测失败

这些都重要，但如果只停在这里，系统很容易陷入一种表面上“配了熔断”，实际上并没有建立止损能力的状态。

因为熔断一旦打开，系统马上会面对一个更现实的问题：

不调下游以后，你准备怎么活。

这件事如果没答案，熔断打开本身并不会让系统更稳，只是把“等着失败”改成了“更快失败”。从故障传播角度看，这当然有意义，但从用户结果和业务承诺看，很多时候还远远不够。

所以我现在看一个熔断方案，会先问三件事：

1. 这个依赖是不是允许短时间缺席

不是所有依赖都适合熔断。

如果它只是增强信息，比如画像补充、推荐结果、展示态扩展字段，那么熔断后走默认值、走缓存、少返回一点内容，通常还有机会把主链路保住。

但如果这条依赖承载的是强校验、强扣减、强一致写入，熔断就不能只理解成“先别调了”。因为它一旦断掉，可能不是服务降级，而是语义直接断裂。

2. 熔断后有没有明确的降级结果

熔断得和降级一起看。

如果一个依赖熔断后，系统还能：

返回缓存结果
精简字段
跳过非核心步骤
转异步补偿
给出受控的失败结果

那这次熔断才算真的帮主链路争取到了生存空间。

如果熔断后除了报错什么都没有，那它更多只是把系统从“慢着死”改成“快点死”。

如果把这件事落到代码里，我现在更在意的是超时、异常分类和 fallback 有没有一起收住。一个最小的样子，大概会更接近下面这种：

public ProductProfile queryProfile(String userId) {
    if (profileBreaker.isOpen()) {
        return ProductProfile.degraded(cache.get(userId));
    }

    try {
        ProductProfile profile = timeoutGuard.call(
            () -> profileClient.query(userId),
            Duration.ofMillis(120)
        );
        profileBreaker.recordSuccess();
        return profile;
    } catch (TimeoutException | ConnectException ex) {
        profileBreaker.recordFailure(ex);
        return ProductProfile.degraded(cache.get(userId));
    } catch (BusinessRejectException ex) {
        // 业务拒绝不代表依赖已经抖了，不能直接拿来打开熔断。
        return ProductProfile.rejected(ex.getCode());
    }
}

这段代码想说明三件事：

熔断打开以后，新的请求不要再继续往下游送。
timeout 和 fallback 要一起落，不然调用线程还是会先在等待里堆住。
不是所有异常都该计入熔断失败，业务拒绝和依赖抖动最好分开看。

3. 现在的问题到底是不是“等不过来”

熔断最适合处理的是等待成本失控。

如果现在系统的核心问题是 CPU 打满、序列化过重、对象创建过多、单机计算逻辑本身太贵，那优先级通常不在熔断，而在算力、代码路径和资源隔离。

反过来，如果你看到的是下游 RT 飘高、线程堆积、连接池发紧、请求排队，那就要高度怀疑系统是不是已经在“等不过来”了。这时候熔断才更像一个正确方向。

很多熔断没救住，问题出在配错了位置

我现在回头看很多线上熔断失效，问题经常出在：它被放在了一个本来就不该指望它救命的位置上。

最常见的几种偏差，大概是下面这些。

把所有依赖都当成同一种依赖

有些团队一上来就把所有下游统一接进熔断框架，然后觉得运行时保护算做全了。

问题是，不同依赖根本不是一回事。

有的是增强型依赖，少一点信息还能活；有的是核心校验，没它结果就不成立；有的是高频读路径，最怕被等待拖死；有的是低频写路径，最怕的是语义错误和状态不一致。

如果不先分清这些差异，熔断策略再统一，也只是在用一把尺子量不同问题。

只配熔断，不补降级

这是最常见、也最容易被误判成“已经做过治理”的情况。

系统里明明已经接了熔断组件，也配了失败率和半开恢复，但真到故障现场一看，熔断打开以后用户结果还是整片报错。最后它当然比一路等死好一点，但离“系统还能活”还差很远。

熔断只完成了一半。止损做了，降级没跟上。

熔断、超时、重试一起配了，但方向互相打架

还有一种情况也特别常见：超时设得很长，重试次数不小，退避也没有控制，然后再配一个看起来很完整的熔断。

这时候熔断为什么经常不够快，其实不难理解。因为在它开始起作用之前，等待、重试和资源占用已经先把系统拖进去了。

这就很被动了。

运行时这些东西不能分开看。超时、重试、熔断、限流，本来就是在处理同一条故障传播路径上的不同环节。如果超时在放大等待，重试在放大流量，熔断再“正确”也只是在一个已经很晚的位置上补救。

用全局熔断处理局部问题

有些故障其实只是某个租户、某类请求、某个热点对象把局部资源拖坏了，整个下游并没有全面失败。

这时候如果直接上全局熔断，技术动作看起来很果断，实际效果却可能很粗暴。本来只有一小部分流量有问题，结果整个依赖都被一起切掉，最后把局部故障放大成了全局降级。

这种场景下，更该先想的是按租户、按请求类型、按热点对象做更细粒度的隔离、限流和熔断，而不是先用一个全局开关把所有人一起掐掉。

有些问题看起来像熔断问题，其实根本不该靠熔断解决

有一件事我后来盯得比较紧：别把熔断当成结构问题的统一出口。

因为很多系统线上不稳，表面上像“熔断不够快”，往前倒几步才会发现，问题出在：

本来不该同步依赖的能力被塞进了主链路。
本来可以异步化的动作被写成了实时强依赖。
本来该靠缓存或本地副本兜住的读流量，全部直打远端。
本来该拆池隔离的资源，所有流量还混在一个线程池和连接池里。

这些地方如果不先改，熔断当然还是要做，但它更多是在控制后果，不是在修正前面的结构问题。

所以我现在不会把“要不要加熔断”当成第一问。我更想先问的是：

这条依赖为什么会卡在主链路上。
一旦它慢了，系统为什么会跟着一起等。
当前成本到底是在调用失败，还是在等待扩散。
这件事更该优先做熔断，还是该先改依赖关系。

如果这些问题前面都没看，最后很容易把熔断做成一个看起来很专业、实际上只是延后暴露结构问题的补丁。

最后把话收回来

我现在看熔断，已经不太会把它理解成一个“失败率高了就打开”的技术组件了。

它要做的，是在下游已经明显不行的时候，别让本系统继续把线程、连接、等待时间和故障面一起送进去。它保护的不是“调用一定成功”，而是“系统别因为持续无效调用被一起拖死”。

所以值得盯的，不只是阈值和半开策略，还包括：

这条依赖到底值不值得熔。
熔断后有没有明确的降级结果。
现在系统是在算不过来，还是等不过来。
这是不是一个该靠熔断解决的问题。

如果这些前提没有先想清楚，熔断就很容易变成一层看起来正确、实际上不够用的运行时配置。

但如果这些问题前面都想透了，熔断就会变成一种很明确的工程约束：

明知道没有胜算的调用，就别再继续把自己的人和资源送进去。