简体 English
返回
/
/
/
AI能耗短期不会造成电力短缺,算力能效长期改进空间巨大

AI能耗短期不会造成电力短缺,算力能效长期改进空间巨大

  • 分类:行业新闻
  • 作者:
  • 来源:
  • 发布时间:2024-07-20 22:36
  • 访问量:

【概要描述】日前,中金公司证券研究报告第七章提及AI的能耗焦虑:增长极限与绿色困境,从AI自身的能耗、AI在电力消费端和供给端的应用以及AI给我国经济系统带来的能耗三层进行了分析。 据报告内容显示,“我国AI发展带来的智算中心电耗或将在2030年最高达到约4300 亿度”,同时,报告中认为AI对我国能源系统的冲击总体可控,但存在不确定性。AI的两个能耗焦虑有其内在的合理性,值得我国在发展AI产业的初期尽早研

AI能耗短期不会造成电力短缺,算力能效长期改进空间巨大

【概要描述】日前,中金公司证券研究报告第七章提及AI的能耗焦虑:增长极限与绿色困境,从AI自身的能耗、AI在电力消费端和供给端的应用以及AI给我国经济系统带来的能耗三层进行了分析。

据报告内容显示,“我国AI发展带来的智算中心电耗或将在2030年最高达到约4300 亿度”,同时,报告中认为AI对我国能源系统的冲击总体可控,但存在不确定性。AI的两个能耗焦虑有其内在的合理性,值得我国在发展AI产业的初期尽早研

  • 分类:行业新闻
  • 作者:
  • 来源:
  • 发布时间:2024-07-20 22:36
  • 访问量:
详情
人工智能(AI)的快速发展正引发其对能源消耗的普遍担忧。国际能源署(IEA)在2024年的报告中预测,由于AI和加密货币的增长,全球数据中心的用电量将在未来几年内翻倍。2022年,全球数据中心的用电量约为460TWh,到2026年这一数字可能达到1000TWh以上,大致相当于日本的发电量(2022年日本发电量为1013TWh[2])。总体而言,AI能耗的焦虑主要集中在两个问题上:首先,AI带来的能源消耗是否会影响该产业的持续发展;其次,AI的广泛应用是否会导致碳排放量的增加,进而对全球实现碳中和的目标构成威胁。

日前,中金公司证券研究报告第七章提及AI的能耗焦虑:增长极限与绿色困境,从AI自身的能耗、AI在电力消费端和供给端的应用以及AI给我国经济系统带来的能耗三层进行了分析。

据报告内容显示,“我国AI发展带来的智算中心电耗或将在2030年最高达到约4300 亿度”,同时,报告中认为AI对我国能源系统的冲击总体可控,但存在不确定性。AI的两个能耗焦虑有其内在的合理性,值得我国在发展AI产业的初期尽早研究,未雨绸缪,提前采取相应行动,尽可能为AI产业的发展创造良好的能源供给环境。与此同时,也要尽可能避免AI产业对我国绿色转型可能产生的冲击。
现节选部分内容共读者参考学习,详细内容可点击文末阅读原文查看并下载报告。

AI大模型能耗本质

 

AI大模型能耗本质上来自于算力耗能,算力能耗可以进一步分解为两大因素:一是算力规模,二是算力能效,估算AI产业自身的能耗因此需要具体分析这两个方面的变化。
算力规模方面,AI大模型主要在训练和推理两个环节消耗算力。不论是哪个环节,大模型的理论算力需求均与其自身的参数量和处理的数据量正相关。然而,仅考虑推理和训练的理论算力需求并不足以全面反映实际的算力消耗量,还需要考虑模型在服务器运行时的算力利用率。
伴随AI大模型算法规模的扩张,网络通信带宽瓶颈和运行故障率成为了制约模型运行效率的两大因素。从实际运行情况来看,大模型的算力利用率的确在下降。GPT-3训练一次需34天,使用1024张A100芯片,算力利用率44%-52%;GPT-4训练一次使用了约25,000张A100芯片,耗时90-100天,利用率降至32%-36%。推理环节面临低成本与低延迟的权衡,为了实现高并发需求和低延迟输出,则需要增加冗余芯片数量,这反过来又会导致芯片算力利用率的降低。推理环节的算力利用率问题在GPT-4时代的万亿参数模型进一步凸显,GPT-4模型使用了混合专家(MoE)的模型架构,在这一架构下输入令牌长度的增加导致内存带宽成为瓶颈,需要使用更大的算力集群,进而导致算力利用率大幅降低。
进一步,对应的AI大模型训练和推理能耗还需进一步考虑算力能效,即单位算力需要消耗的能耗。由此得到:

近期AI能耗增长有限,并不会造成电力短缺

 

近期,考虑到智能算力规模扩张和算力能效提升的相对可预见性,可以自上而下地估算智算中心的用电量,以大致预测AI带来的智能算力增长对能耗的潜在影响,从而对AI技术发展导致的能耗增长趋势进行初步评估。
为了测算智能算力所需的能耗,需考虑算力增速和算力能效这两个重要假设。对于智能算力增速考虑两种情况,一是基准算力增速假设,根据信通院《数据中心白皮书2023》估算,未来五年中国智能算力复合增速超50%,我们以50%作为2022-2030年中国智算规模的基准增速;二是高算力增速假设,根据华为在2021年9月发布的报告《智能世界2030》中的估算,2030年全球智能算力将达到105ZFLOPS,较2020年增长500倍,年均复合增速超过80%,我们假设中国算力规模与全球算力规模同比增长,以80%作为2022-2030年中国智算规模的乐观增速。
对于算力能效改进也考虑两种情况:一是算力能效弱改进,假设中国未来智能算力均由国产芯片供应,当前中国训练和推理算力能效均分别为目前国产先进芯片的峰值算力能效,并且2030年中国新增训练和推理算力能效达到目前世界先进智能算力能效水平(图表7.3);二是算力能效强改进,假设中国新增训练算力和推理算力能效均分别跟随世界最优算力能效水平改进。

图片

图表7.3:先进AI服务器算力能效

注:图中数据均使用服务器FP16计算精度下的峰值算力除以峰值功率,除华为昇腾910和寒武纪MLU370-X8外,均使用稀疏算力进行计算。

资料来源:华为官网,寒武纪官网,英伟达官网,中金研究院

基于上述假设,我们分别测算了以下四种情景下智算中心用电增长情况(图表7.4):基准算力增速+算力能效弱改进,基准算力增速+算力能效强改进,高算力增速+算力能效弱改进,高算力增速+算力能效强改进。具体来看,当前智能算力造成的全年电耗十分有限,在算力能效弱改进和强改进假设下,2023年智算中心用电规模估计值分别约170亿度电和130亿度电,对全社会用电规模造成的影响较小。在基准算力增速假设下,算力能效弱改进时2030年智算中心用电量会达到约1350亿度电,若能实现算力能效强改进,则2030年用电量仅约650亿度电。在乐观增速假设下,算力能效弱改进情景下,2030年智算中心用电量将高达4300亿度电,若能实现算力能效强改进,则2030年用电量约为2100亿度电。

图片

图表7.4:智算中心能耗增长敏感性分析

注:PUE相关假设参考工信部关于新建数据中心PUE要求。根据IDC预测,假设中国新增智能算力中推理算力从2023年40%线性提升至2027年70%,2027年后这一比重维持在70%。

资料来源:中金研究院

上述四个情景下的分析表明,在基准算力增速下即便是算力能效改进幅度较小,未来带来的用电增量相对于我国全社会用电总量而言(2023年全社会用电量约为9.22万亿度),影响有限可能并不会造成电力短缺;但是在算力高速增长的情景下,算力能效改进变得十分关键,若算力能效改进幅度较小,将导致智算中心用电量大幅增长,占全社会用电量比重达到4.7%。

算力能效长期改进空间巨大

 

算力能效提升包括芯片、服务器优化和数据中心三个层面。
芯片层面,GPU芯片技术的能效提升仍有空间。GPU凭借高效的并行计算性能成为AI大算力时代的核心算力设施,过去十年中,英伟达通过不断优化芯片架构设计,实现了GPU算力和能效的显著提升,甚至提出了“黄氏定律”。图表7.7展示了英伟达GPU算力能效的增长趋势,从P100到B100芯片,八年间的单位算力能耗平均每年下降了40%。为了直观展示GPU算力能效改进的效果,可以通过GPT-4训练能耗的优化来进行说明。OpenAI在进行GPT-4的预训练时,实际使用了25,000张A100芯片,服务器的总功耗达到了约20MW;如果采用H100芯片,所需芯片数量可以减少到8,000张,服务器的功耗相应降低到15MW;而如果使用最新的B200芯片,仅需2,000张芯片即可满足需求,服务器的功耗更是降至4MW。这些数据表明,随着GPU技术的不断进步,AI大模型的能耗问题有望得到有效缓解。

图片

图表7.7:英伟达GPU算力能效提升趋势

注:图中算力采用芯片FP16精度稀疏算力。

资料来源:英伟达官网,中金研究院

 

GPU替代技术或能实现算力能效的大幅提升。尽管目前通用GPU芯片是智能算力的核心部件,但由于GPU架构最初并非针对AI而设计,仍需进行取指令、指令译码、指令执行的过程,能耗水平较高。同时,高能耗水平也意味着对需要密集GPU集群进行训练和推理的数据中心,单GPU的高功耗叠加高密度导致硬件散热需要更多的冷却设备和相应的电费投入。目前,相关的替代芯片也逐渐受到市场重视,主要包括专用ASIC和灵活可编程FPGA芯片两类。在图表7.8中,可以看到FPGA和ASIC芯片的算力性能和能效都优于GPU芯片。从应用前景来看,FPGA芯片仍处在发展初期,还需要突破编程复杂、编译时间长、整体运算能力不高等瓶颈,而ASIC芯片由于面临较长的开发周期和较高的研发费用还存在高成本问题。远期来看,光子芯片可能替代电子芯片带来算力能效的颠覆性改进。随着集成电路的不断发展,传统的电子集成电路在带宽与能耗等方面逐渐接近极限,而光子芯片则采用频率更高的光波来作为信息载体,相比于电子集成电路或电互联技术,光子集成电路与光互连展现出了更低的传输损耗、更宽的传输带宽、更小的时间延迟等特征。

图片

图表7.8:各种芯片架构性能对比

资料来源:中金公司研究部2022年3月报告《AI基础设施系列:东数西算蓄势待发,AI芯片有望受益》

服务器层面,考虑制冷技术和通信架构优化两个方面的改进。首先,在制冷技术方面,液冷成为大功耗算力部署下的关键冷却技术(图表7.9)。与普通服务器750W到1200W的标准功耗相比,AI服务器由于配置多个系统级芯片,在运行AI模型时会产生更多的能耗,以英伟达DGX H100服务器为例,其搭载8颗H100
80GB的 GPU,最大系统功耗达到10.2kW,英伟达推荐单机柜部署4个DGX H100服务器,对应功耗达到40.8kW。传统风冷技术既无法满足服务器硬件散热需求又存在制冷能效低的问题,图表7.9总结了各种冷却方式下的电力使用效率(Power Usage
Effectiveness,简称PUE),传统风冷的PUE高达1.5,而采用液冷技术有望降至1.05。其次,服务器网络通信优化也是改善算力利用率减少能耗的关键。前文提到通信带宽制约算力效率是导致GPT-4算力利用率低的一大因素,这也造成了能源的浪费,因而如何改善存算效率十分重要。以NVIDIA
H100服务器为例,PCIe 5.0总线只能提供128GB/s的带宽,而NVIDIA H100服务器内部采用异构网络架构,借助
NVLink和NVSwitch技术绕开PCle限制,可以实现在服务器内部和服务器之间实现多对多GPU通信,NV Link 4.0最高速率达900GB/s,支持在节点间拓展、创建高带宽的多节点GPU集群,显著提升集群性能。

图片

图表7.9:不同冷却方式下的PUE

资料来源:中兴通讯2022年11月发布的《液冷技术白皮书》,发改委、工信部等五部门2021年10月发布的《关于严格能效约束推动重点领域节能降碳的若干意见》,中金研究院

数据中心层面,通过优化地理布局和设备能源管理来改善数据中心整体能效。在地理布局方面,“东数西算”战略可以帮助数据中心充分利用西部低气温条件来降低数据中心综合PUE,并且由于我国约61%的可再生能源分布在西部北部地区,但本地负荷仅为35%,可以通过优化数据中心的空间布局来保障数据中心能源供给的同时就近消纳西部绿色能源。在设备能源管理方面,一是进行数据中心负载管理,从而提高设备运行效率。通过负载管理,数据中心可以确保所有设备都在其最高效的工作点运行,例如,CPU在中等负载下通常比在低负载或过载下更节能。二是通过监测设备运行负载,进行硬件电源开关优化决策,避免不需要的闲置容量和能源浪费。三是,建立实施能源回收系统,如利用服务器产生的热量进行供暖或其他用途。

本文摘自:2024年6月30日已经发布的《第七章 AI的能耗焦虑:增长极限与绿色困境》

img

地址:辽宁省大连市金普新区黄海大道156号 
邮箱:
tgjt@tg-group.cn
热线:0411-39278599

在线客服
客服热线
客服热线
134 7869 1991 134 7869 1991
服务时间:
9:00 - 17:00
客服热线
客服组:
天港数据
客服组:
公众号二维码

友情链接

大连云数据科技                    大连大数据产业发展研究院                           大连德泰控股

COPYRIGHT © 2021 大连天港科技集团有限公司 ALL RIGHT SERVER

  网站建设:中企动力  大连