在往期节目中,我们已经探讨了AI算力的爆发式增长,以及由此带来的供电架构和能效挑战。FF450R12ME4本期节目,我们邀请到英飞凌系统架构师Christian和我们一起探讨:如何通过健康监测与预测性维护,帮助数据中心在AI时代实现更稳定、更安心的运行。
话题一:AI时代的可用性
Q1:AI时代,如何定义“可用性”?
生成式AI(如ChatGPT)的快速发展,使“可用性”变得前所未有地重要,尤其是服务器和服务的可用性,因为AI改变了数据中心的运行模式。
传统数据中心:网站和网络应用分布在全球大量不同服务器上。即使某一台服务器宕机,其他服务器仍可继续提供服务,系统仍然可用。如:在“黑色星期五”等高峰期,网站运营者可以提前扩容带宽和备用服务器,保证系统稳定性。
AI应用场景:单个AI任务基本上需要协调数百张AI芯片加速卡同时进行并行计算。任何一张加速卡出现故障,都可能导致计算错误或重新计算,代价非常高昂。
Q2:在AI应用场景中,故障发生的频率有多高?
一般来说,半导体和电源本身的故障率低。但在AI大规模部署下,单点故障影响被放大。
庞大规模放大影响:目前全球约有800个大规模数据中心,很快将达到1000个;每个数据中心配备1万个机架,每个机架内有约1万个功率半导体器件和无源元件,只要其中一个关键元件发生故障,整台服务器就可能宕机。
开放计算项目峰会专家披露的行业数据:平均每26分钟会有一个电源发生故障;每次故障导致的平均停机损失约70万欧元。
Q3:AI服务器和数据中心在可用性方面面临哪些挑战?行业通常如何应对?
挑战1:系统复杂,人为操作失误可能引发故障。
应对方式:加强运维人员培训,确保安全操作。
挑战2:AI服务器功率密度大幅提升,内部温度升高(温度每升高10°C,器件寿命减半)。
应对方式:热管理与功率拓扑优化(英飞凌关键解决方案)。通过选择合适的功率拓扑,可以提升电源效率,并确保多余热量及时排出,从而优化电源可靠性。(超链接至第五期播客:点击此处,了解更多功率拓扑相关信息)
挑战3:系统可靠性裕量不足,裕量即系统正常工作状态与导致电源失效的临界条件之间的安全区间。
示例:总线48V电压
选择额定50V电容→裕量仅2V(可靠性低)
选择额定63V电容→裕量更高,但成本和体积增加
应对方式:选用高可靠性元件,优化系统可靠性裕量。
话题二:健康监测与预测性维护
随着数字化不断推动新的应用场景出现,可靠性领域也正在发生变化。“健康监测”与“预测性维护”已成为行业关注的重要趋势,它们能够有效提升整个系统可靠性。
Q4:从半导体领域的角度来看,健康监测指的是什么?
健康监测的本质,是让系统能够主动汇报自身的健康状况。就像智能手机可以显示“电池健康度”,电池在向你报告它的状态。
将任务剖面和健康模型结合起来,就可以对电源进行健康预测:
1)任务剖面:描述系统预期使用条件的参数(如电池充放电频率、环境温度、峰值电流等)。
2)健康预测模型:量化运行参数对系统可靠性的影响,计算整体健康状态。
Q5:健康状态参数的实际应用有哪些?
健康状态参数主要的应用场景有两个方面:预测性维护与循环经济发展。通过精准监测设备健康状况并优化维护策略,不仅可以减少不必要的设备采购成本,还能通过提前预警和预防故障,更高效地控制运营支出。
1)预测性维护
预测性维护是一种数据驱动的方法,目标是在提升可靠性的同时控制成本。
以汽车保养为例:
传统维护方式:故障后维修或按周期更换,成本高、效率低。
预测性维护:通过在关键部件(如刹车片)上安装传感器,实时监测其磨损与运行状态,并基于数据分析判断何时需要维护。
状态良好→可延长使用周期,避免不必要更换,降低成本
出现异常→提前预警,避免突发故障和连锁损失
同样的逻辑可应用到电源系统中,可能延后维护以节省成本,也可能提前预警避免重大故障。
2)推动循环经济发展
设备回收或二次利用时,可根据健康状态判断直接再利用、维修后再利用或进入回收流程,兼顾经济与环保效益。
主题三:技术与解决方案
Q6:从技术层面来看,健康监测解决方案是如何实现的?有哪些不同方式?
维护总体上可以分为两种主要类型:本地维护与集中式处理维护。没有哪种方式具有绝对优势,关键在于根据具体应用场景选择合适的健康监测方式。
维度本地维护(原位监测)集中式处理维护(异位监测)
处理位置设备内部(边缘侧)设备外部(云端或集中管理系统)
运作机制设备自主分析自身状态,异常时自动采取保护措施并发出维护请求设备采集并上传数据,外部系统进行健康评估并下发维护指令
优势响应快速,高分辨率数据,自主性强算力充足,可运行复杂预测模型,支持多设备统一分析
Q7:在健康监测中,常用哪些技术路径?
目前主流的健康监测技术路径主要有三种:
1)统计法
收集大量数据(任务剖面、故障数据等),分析设备在正常使用下的故障规律,并进行健康预测。
通过对比当前设备运行状态与预期统计规律,评估设备健康状况。
2)基于失效物理学的方法
需要深入了解元件特性,例如电源焊点会因热循环次数开裂。
统计运行中发生的热循环次数,并代入寿命模型,即可计算设备当前健康状态。
3)异常检测法
首先定义设备的基准正常行为,然后检测偏离正常行为的异常情况。
当设备出现异常行为时,通过对比正常与异常状态判断设备是否健康。
Q8:在维护与健康监测领域,英飞凌能够提供怎样的整体解决方案?
英飞凌开发了一套电源系统可靠性建模解决方案,这是一种基于统计法的原位执行方案,用于对电源系统的健康状态进行持续评估。对英飞凌而言,方案的可用性和易实施性至关重要,因此该解决方案不受功率拓扑和功率等级的限制。
工作原理:
方案以设计中所有元件的FIT数据(失效率)为基础,不同元件的老化速度会随实际使用工况而加速或减缓。
作为建模成果的数字电源控制器,会实时监测温度、电压、电流等电应力参数,并将这些数据用于加速评估每个元件的寿命变化。
在此基础上,可以计算出整个电源系统的预测失效率,这一参数可直接用于评估电源系统的健康状态。
通过易于落地的解决方案和持续支持,英飞凌将持续助力客户把复杂的健康监测转化为可持续的系统可靠性保障。
|