计算机与数据存储

您现在的位置 > 首页 > 计算机与数据存储
AI液冷服务器功率链路设计实战:效率、可靠性与功率密度的平衡之道

AI液冷服务器功率链路系统总拓扑图

graph LR %% 输入与初级功率转换 subgraph "输入配电与总线转换" AC_IN["交流输入 \n 三相380VAC"] --> PFC_ACDC["AC/DC PFC整流"] PFC_ACDC --> DC_BUS_48V["48V直流母线"] subgraph "48V-12V DC/DC总线转换" Q_BUS1["VBP112MC60 \n 1200V/60A SiC"] Q_BUS2["VBP112MC60 \n 1200V/60A SiC"] end DC_BUS_48V --> Q_BUS1 DC_BUS_48V --> Q_BUS2 Q_BUS1 --> DC_BUS_12V["12V直流母线"] Q_BUS2 --> DC_BUS_12V end %% CPU/GPU VRM供电 subgraph "CPU/GPU VRM多相供电" DC_BUS_12V --> VRM_IN["VRM输入滤波"] subgraph "多相VRM MOSFET阵列" Q_VRM_H1["VBL1105 \n 100V/140A \n (高侧)"] Q_VRM_L1["VBL1105 \n 100V/140A \n (低侧)"] Q_VRM_H2["VBL1105 \n 100V/140A"] Q_VRM_L2["VBL1105 \n 100V/140A"] Q_VRM_H3["VBL1105 \n 100V/140A"] Q_VRM_L3["VBL1105 \n 100V/140A"] end VRM_IN --> Q_VRM_H1 VRM_IN --> Q_VRM_H2 VRM_IN --> Q_VRM_H3 Q_VRM_H1 --> PHASE_NODE1["相位节点1"] Q_VRM_H2 --> PHASE_NODE2["相位节点2"] Q_VRM_H3 --> PHASE_NODE3["相位节点3"] PHASE_NODE1 --> Q_VRM_L1 PHASE_NODE2 --> Q_VRM_L2 PHASE_NODE3 --> Q_VRM_L3 Q_VRM_L1 --> GND_VRM Q_VRM_L2 --> GND_VRM Q_VRM_L3 --> GND_VRM PHASE_NODE1 --> OUTPUT_LC1["输出LC滤波"] PHASE_NODE2 --> OUTPUT_LC1 PHASE_NODE3 --> OUTPUT_LC1 OUTPUT_LC1 --> VOUT_1V["1.0V-1.2V输出 \n CPU/GPU核心供电"] VOUT_1V --> AI_CHIP["AI计算芯片 \n (CPU/GPU)"] end %% 冷却系统控制 subgraph "智能液冷与风冷控制" AUX_POWER["辅助电源 \n 12V/5V"] --> CONTROL_MCU["主控MCU/管理芯片"] subgraph "泵与风扇驱动" Q_PUMP["VBA1420 \n 40V/9.5A \n (液冷泵)"] Q_FAN1["VBA1420 \n 40V/9.5A \n (风扇1)"] Q_FAN2["VBA1420 \n 40V/9.5A \n (风扇2)"] Q_FAN3["VBA1420 \n 40V/9.5A \n (风扇3)"] end CONTROL_MCU --> PUMP_DRIVER["泵驱动器"] PUMP_DRIVER --> Q_PUMP CONTROL_MCU --> FAN_DRIVER["风扇驱动器"] FAN_DRIVER --> Q_FAN1 FAN_DRIVER --> Q_FAN2 FAN_DRIVER --> Q_FAN3 Q_PUMP --> LIQUID_PUMP["液冷循环泵"] Q_FAN1 --> COOLING_FAN1["系统风扇1"] Q_FAN2 --> COOLING_FAN2["系统风扇2"] Q_FAN3 --> COOLING_FAN3["系统风扇3"] end %% 三级热管理架构 subgraph "三级热管理架构" COOLING_LEVEL1["一级: 直接液冷 \n SiC MOSFET & VRM"] COOLING_LEVEL2["二级: 间接液冷 \n 驱动与控制芯片"] COOLING_LEVEL3["三级: 风液协同 \n 辅助模块"] COOLING_LEVEL1 --> Q_BUS1 COOLING_LEVEL1 --> Q_VRM_H1 COOLING_LEVEL2 --> PUMP_DRIVER COOLING_LEVEL2 --> FAN_DRIVER COOLING_LEVEL3 --> AUX_POWER end %% 监控与保护 subgraph "系统监控与保护网络" TEMP_SENSORS["温度传感器阵列 \n (NTC/热敏电阻)"] --> CONTROL_MCU FLOW_SENSOR["流量传感器"] --> CONTROL_MCU CURRENT_SENSE["电流检测电路"] --> CONTROL_MCU subgraph "保护电路" TVS_ARRAY["TVS浪涌保护"] RC_SNUBBER["RC吸收电路"] GATE_PROTECT["栅极保护电路"] end TVS_ARRAY --> DC_BUS_48V RC_SNUBBER --> Q_BUS1 GATE_PROTECT --> Q_VRM_H1 CONTROL_MCU --> FAULT_LATCH["故障锁存逻辑"] FAULT_LATCH --> PROTECT_SHUTDOWN["保护关断信号"] PROTECT_SHUTDOWN --> Q_BUS1 PROTECT_SHUTDOWN --> Q_VRM_H1 end %% 通信与控制 CONTROL_MCU --> PMBUS["PMBus通信接口"] PMBUS --> HOST_BMC["服务器BMC"] CONTROL_MCU --> CAN_FD["CAN FD接口"] CAN_FD --> RACK_MGMT["机柜管理系统"] %% 样式定义 style Q_BUS1 fill:#e1f5fe,stroke:#0288d1,stroke-width:2px style Q_VRM_H1 fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px style Q_PUMP fill:#e8f5e8,stroke:#4caf50,stroke-width:2px style CONTROL_MCU fill:#fff3e0,stroke:#ff9800,stroke-width:2px

在AI计算集群朝着超高算力与极致能效不断演进的今天,其内部的供电与散热管理系统已不再是简单的支持单元,而是直接决定了计算密度、运行成本与基础设施可靠性的核心。一条设计精良的功率与冷却链路,是服务器实现稳定超频、高效散热与长久服役寿命的物理基石。
然而,构建这样一条链路面临着多维度的挑战:如何在提升功率密度与控制散热成本之间取得平衡?如何确保功率器件在液冷环境下的长期可靠性?又如何将高压配电、高效转换与精准热管理无缝集成?这些问题的答案,深藏于从关键器件选型到系统级集成的每一个工程细节之中。
一、核心功率器件选型三维度:电压、电流与拓扑的协同考量
1. CPU/GPU 12V-1V VRM MOSFET:算力能效的核心关口
关键器件为VBL1105 (100V/140A/TO-263),其选型需要进行深层技术解析。在电压应力分析方面,考虑到服务器电源12V输入轨的瞬态波动可能高达±10%,并为同步整流管承受的尖峰电压预留裕量,100V的耐压满足严苛的降额要求。在动态特性优化上,极低的导通电阻(Rds(on)@10V=4mΩ)直接决定了转换效率。以单相100A输出电流为例,传统方案(上管+下管总内阻8mΩ)的导通损耗为100² × 0.008 = 80W,而采用VBL1105的方案可将总内阻优化至更低水平,每相效率提升至关重要。其TO-263封装非常适合焊接在带有嵌入式热管的PCB上,与液冷冷板直接接触,实现高效热导出。
2. 48V-12V DC/DC 总线转换器MOSFET:机柜级功率传输的关键
关键器件选用VBP112MC60 (1200V/60A/TO-247 SiC MOSFET),其系统级影响可进行量化分析。在效率与功率密度提升方面,SiC技术允许将总线转换器开关频率提升至300-500kHz,从而大幅减小磁性元件体积。其40mΩ的导通电阻在48V输入、大电流工况下损耗极低。相较于硅基MOSFET,其零反向恢复特性可彻底消除桥式拓扑中的桥臂串通风险,并降低开关损耗达70%以上,使得整机效率有望突破98%。这对于降低数据中心PUE值具有战略意义。
3. 冷却泵与风扇驱动MOSFET:智能热管理的执行者
关键器件是VBA1420 (40V/9.5A/SOP8),它能够实现精准的冷却控制逻辑。典型的液冷系统管理逻辑可以根据芯片结温动态调整:当GPU结温高于80℃时,将液冷泵速与冷却风扇调至最高档,并可能启用备用泵;当计算负载较低且结温低于50℃时,将泵速与风扇调至低速静音模式,实现能耗与噪音的最优平衡。其SOP8封装节省空间,便于在多路驱动电路中密集布局,19mΩ的导通电阻足以高效驱动中小功率的泵和风扇,同时产生的热量可由液冷循环辅助散出。
二、系统集成工程化实现
1. 液冷环境下的多层级热管理架构
我们设计了一个与液冷深度结合的三级散热系统。一级直接接触液冷针对VBP112MC60这类高压大电流SiC MOSFET和VBL1105多相VRM,通过将其封装背面直接钎焊或通过高性能导热材料贴合至液冷冷板,目标是将结温波动控制在15℃以内。二级间接液冷散热面向主板上的VBA1420等驱动芯片,通过将MOSFET所在的PCB附着在带有均热板的冷板上进行冷却。三级风液协同散热用于机箱内辅助电源等模块,利用液冷系统排出的低温空气进行强制风冷。
具体实施方法包括:为SiC MOSFET和CPU VRM MOSFET设计专用液冷头,确保接触压力均匀;在PCB层内使用厚铜箔与散热过孔阵列,将芯片热量快速传导至冷板接触面;泵驱动电路布局在液冷循环的“冷端”入口附近,以获得最佳冷却效果。
2. 高dv/dt环境下的电磁兼容性设计
对于由SiC MOSFET引入的极高开关速度(dv/dt > 50V/ns),必须采取针对性EMI抑制措施。在布局上,将48V-12V DC/DC转换器的功率回路面积压缩至极小,采用多层板中的内层平面作为电流回路。驱动回路采用独立接地并采用开尔文连接,以最小化寄生电感。在输入输出端部署共模扼流圈与陶瓷电容组成的滤波器,抑制高频传导噪声。
针对辐射EMI,对策包括:对所有高频开关节点进行屏蔽;使用带屏蔽层的液冷管路,并将其多点良好接地;在泵和风扇电机线缆上套用铁氧体磁环。
3. 可靠性增强设计
电气应力保护通过网络化设计来实现。在48V输入端口设置TVS阵列以应对浪涌。为SiC MOSFET的栅极设计稳健的驱动电路,采用负压关断(如-5V)以防止误开通,并加入米勒箝位功能。为泵电机驱动配备RC缓冲电路。
故障诊断机制涵盖多个方面:通过监测每相VRM MOSFET的电流实现精准的过流与均流保护;在液冷回路关键点布置温度与流量传感器,实时监控冷却效能,并与泵速、风扇转速实现闭环控制;通过监测驱动MOSFET的导通压降来间接判断泵或风扇的堵转故障。
三、性能验证与测试方案
1. 关键测试项目及标准
为确保设计质量,需要执行一系列关键测试。系统能效(PUE优化)测试在典型AI负载(如训练任务)下进行,测量从市电输入到计算芯片供电端的整体效率。热阻与结温测试在最大持续功率(TDP)下运行,使用液冷系统,通过热敏参数法测量关键MOSFET的结温,要求Tj_max < 125℃(SiC器件可更高)。开关波形与震荡测试使用高带宽示波器和电流探头,在满载下观测SiC MOSFET的Vds与Id波形,要求电压过冲小于15%,且无有害震荡。液冷系统故障模拟测试模拟泵降速或停转,验证功率链路的过热保护响应速度与降额逻辑。
2. 设计验证实例
以一个搭载8颗GPU的AI服务器节点功率链路测试数据为例(输入:48VDC, 满负载功率:3500W),结果显示:48V-12V DC/DC转换效率在满载时达到98.5%;12V-1V VRM综合效率达到90.2%;泵与风扇驱动总损耗低于10W。关键点温升方面,SiC MOSFET(VBP112MC60)结温为68℃, CPU/GPU VRM MOSFET(VBL1105)结温为72℃,泵驱动MOSFET(VBA1420)温度为45℃。
四、方案拓展
1. 不同算力等级的方案调整
边缘AI服务器(功率1-3kW):可采用VBFB1151M等中压MOSFET用于简化版总线转换,风冷与单泵液冷结合。通用AI训练服务器(功率3-6kW):采用本文所述的核心方案,使用多相VRM与高效SiC总线转换器,配备双泵冗余液冷。超高密度AI集群机柜(功率 > 10kW/柜):需采用VBP112MC60并联或更大电流SiC模块,VRM采用交错并联拓扑,并升级为机柜级集中式液冷分配单元(CDU)。
2. 前沿技术融合
智能预测维护:通过监测SiC MOSFET的导通电阻漂移和栅极阈值电压变化,预测器件寿命。分析液冷管路流量与压降数据,预测泵性能衰减或堵塞风险。
数字控制与AI调优:采用数字电源控制器,实现基于实时负载的VRM相数动态调整(Phase Shedding),轻载时关闭部分相以提升效率。利用AI算法学习工作负载曲线,预先调整冷却系统功率,实现能效最优。
宽禁带半导体全面渗透路线图:第一阶段是当前在总线转换级采用SiC MOSFET(如VBP112MC60);第二阶段(未来1-2年)在VRM的高侧开关中引入GaN HEMT,进一步提升开关频率和密度;第三阶段(未来3-5年)探索在更高压的AC/DC PFC级采用SiC,并向全链路宽禁带演进。

详细拓扑图

48V-12V总线转换器拓扑详图

graph LR subgraph "48V-12V SiC DC/DC转换器" A["48V直流输入"] --> B["输入滤波电容"] B --> C["SiC半桥拓扑"] subgraph C ["SiC MOSFET半桥"] direction LR Q_H["VBP112MC60 \n 高侧开关"] Q_L["VBP112MC60 \n 低侧开关"] end A --> Q_H Q_H --> D["开关节点"] D --> Q_L Q_L --> E[功率地] D --> F["高频变压器 \n 或耦合电感"] F --> G["同步整流"] subgraph G ["同步整流MOSFET"] direction LR Q_SR1["同步整流管1"] Q_SR2["同步整流管2"] end G --> H["输出滤波"] H --> I["12V直流输出"] J["数字控制器"] --> K["SiC栅极驱动器"] K --> Q_H K --> Q_L I -->|电压反馈| J end subgraph "热管理与保护" L["液冷冷板"] --> Q_H L --> Q_L M["温度传感器"] --> J N["电流检测"] --> J O["RC缓冲电路"] --> Q_H O --> Q_L end style Q_H fill:#e1f5fe,stroke:#0288d1,stroke-width:2px style Q_L fill:#e1f5fe,stroke:#0288d1,stroke-width:2px

多相VRM拓扑详图

graph TB subgraph "12V-1V多相VRM" A["12V输入"] --> B["输入电容阵列"] B --> C["多相控制器"] subgraph "相位1" D1["VBL1105 \n 高侧MOSFET"] E1["VBL1105 \n 低侧MOSFET"] F1["驱动电感"] G1["输出电容"] end subgraph "相位2" D2["VBL1105 \n 高侧MOSFET"] E2["VBL1105 \n 低侧MOSFET"] F2["驱动电感"] G2["输出电容"] end subgraph "相位3" D3["VBL1105 \n 高侧MOSFET"] E3["VBL1105 \n 低侧MOSFET"] F3["驱动电感"] G3["输出电容"] end C --> H1["相位1驱动器"] C --> H2["相位2驱动器"] C --> H3["相位3驱动器"] H1 --> D1 H1 --> E1 H2 --> D2 H2 --> E2 H3 --> D3 H3 --> E3 D1 --> I1["开关节点1"] D2 --> I2["开关节点2"] D3 --> I3["开关节点3"] I1 --> E1 I2 --> E2 I3 --> E3 I1 --> F1 I2 --> F2 I3 --> F3 F1 --> J["并联输出"] F2 --> J F3 --> J J --> K["输出滤波网络"] K --> L["1.0V-1.2V输出"] L --> M["AI芯片电源引脚"] E1 --> N[功率地] E2 --> N E3 --> N end subgraph "动态相位管理" O["负载电流检测"] --> C C --> P["相数动态调整逻辑"] P --> Q["相位启用/禁用控制"] Q --> H1 Q --> H2 Q --> H3 end subgraph "VRM热管理" R["嵌入式热管"] --> D1 R --> E1 S["PCB厚铜层"] --> D2 S --> E2 T["导热过孔阵列"] --> D3 T --> E3 end style D1 fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px style E1 fill:#f3e5f5,stroke:#7b1fa2,stroke-width:2px

智能液冷系统拓扑详图

graph LR subgraph "液冷循环系统" A["冷却液入口"] --> B["分配歧管"] B --> C["CPU/GPU冷头"] B --> D["功率器件冷板"] C --> E["热交换回路"] D --> E E --> F["液冷泵"] F --> G["散热器/冷排"] G --> H["冷却液出口"] I["补液罐"] --> F end subgraph "泵与风扇智能控制" J["主控MCU"] --> K["温度采集电路"] L["芯片结温传感器"] --> K M["液冷管路温度"] --> K N["环境温度"] --> K J --> O["PWM控制逻辑"] O --> P["泵驱动器"] O --> Q["风扇驱动器"] P --> R["VBA1420 \n 泵驱动MOSFET"] Q --> S["VBA1420 \n 风扇驱动MOSFET"] R --> F S --> T["系统风扇阵列"] end subgraph "故障检测与保护" U["流量传感器"] --> J V["压力传感器"] --> J W["泵电流检测"] --> J X["堵转检测电路"] --> J J --> Y["故障判断逻辑"] Y --> Z["保护动作"] Z -->|泵降速| P Z -->|风扇全速| Q Z -->|功率降额| AA["功率管理器"] end subgraph "三级散热路径" AB["一级: 直接液冷"] --> D AC["二级: 间接液冷"] --> AD["PCB导热"] AE["三级: 风液协同"] --> T AF["液冷排出空气"] --> AE end style R fill:#e8f5e8,stroke:#4caf50,stroke-width:2px style S fill:#e8f5e8,stroke:#4caf50,stroke-width:2px

打样申请

在线咨询

电话咨询

400-655-8788

微信咨询

一键置顶

打样申请
在线咨询
电话咨询
微信咨询