搜索历史
热门标签

天翼云“息壤”平台升级并规模商用,「国云」重塑智算产业的“大河文明”

智能相对论
2024-12-05 22:08

文 | 智能相对论

作者 | 陈泊丞

中国是大河文明的典型代表,早期的中华民族逐水而居,依托“母亲河”两岸的繁荣生态繁衍生息,孕育了千年传承的文明。而大河流域,沃野千里,也正是生态最繁荣的场地。

今天,以AI、云计算等为代表的前沿技术高速发展,以算力为主导的新产业形态加速到来。特别是大模型和生成式AI的崛起,对算力的需求呈指数级增长。算力已经成为科技公司之间竞争乃至大国崛起的关键因素之一,无论是基础算力还是智能算力,都在不断寻求进化以满足日益复杂的计算需求。

近日,以“AI赋能 共筑数字新生态”为主题的2024数字科技生态大会在广州召开。会上,天翼云“息壤”平台全新升级,从算力互联调度平台升级成为集算网调度、计算加速、模型训推于一体的智算服务平台,同时还发布了商用成果,为行业数智化转型提供了智算服务的国家云平台新形态,逐步构建起繁荣的“息壤”智算生态体系。

不难发现,随着“息壤”的迭代演进及大规模商用动作,“算力”这一重要资源也在积极调动起来,如河水一般向千行百业流淌,助力其完成数智化转型,并孕育出新的产业业态与生态。而基于这些持续完善的布局,天翼云正具备重塑智能算力产业“大河文明”的生态潜力。

积流成河智算产业“大河”有了发源地

“且夫水之积也不厚,则其负大舟也无力;覆杯水于坳堂之上,则芥为之舟。”庄子在其著作《逍遥游》中深刻地阐述了一个关于自然生态的道理:只有当水量足够丰富、积聚到一定程度的时候,才能形成可以承载万物的大河,否则就如同杯水车薪,难以成就大事。

水之于大河的意义,十分明确——如果没有充足的水,则大河难成。今天,充足的算力如同河流中的水一样,是构建强大、高效且富有活力的技术生态系统的基础,进而才能支撑起人工智能、云计算、机器学习、深度学习等前沿技术的发展。

因此,近年来,全国范围内掀起了一股算力中心建设热潮,截至2024年6月,中国已建和正在建设的智算中心超过250个。其背后的根本原因就在于,在当前AI产业的高速发展中,充足的算力资源是必要的保障。

与此同时,随着人工智能产业的升级与深化,特别是数据量的爆发性增长和算法复杂度的增加,传统的基础算力很难满足日益增长的需求。因此,针对性更强、计算效率更高的智能算力逐渐成为研究和开发的重点。

区别于传统算力,智能算力不仅强调计算的速度和效率,更注重于如何高效地支持智能算法和模型的训练与推理。例如,在自动驾驶、智慧医疗、智慧城市等领域中,智能算力可以显著提高系统的反应速度、准确性和可靠性。

算力的定位相当于大河之“水”,而在智算产业的“大河”中首先要有充足的资源供给,才能“润泽”千行百业。对此,天翼云深谙其中的道理,以国云担当自建了丰富、形态多样的智能算力资源。

天翼云规划并建设全国“2+3+7+X”公共智算云池,在京津冀、长三角地区建设两大万卡智算集群;在内蒙古、贵州、宁夏等清洁能源集聚地建设智算中心,为用户提供绿色算力。此外,天翼云还在280多个地市的一城一池节点和1000多个边缘节点按需下沉AI云电脑算力和推理算力。

至此,天翼云这朵国云就有了充足且丰富的“水”资源。然而,如果只是“积水”尚不足以成河,接下来还需要让水流动起来,“流水”方能成河。换句话说,如何让算力流动起来恰恰是重塑智算产业生态“大河”最关键的一步。

由此,天翼云“息壤”一体化智算平台围绕着如何让算力动起来、连起来、用起来这一主题加速迭代演进,并带来一系列创新成果,充分呈现了算力赋能千行百业的能力与价值。

流水成河「国云」走到了最关键的一步

现阶段,“云智一体”是大势所趋。基于此发展趋势,天翼云构建以“息壤”为核心的一体化智算服务能力体系,为用户提供“供得上、用得起、用得好”的算力服务,全力使能各行业数智化跃迁。

此次,天翼云“息壤”平台进一步演进,升级成为集算网调度、计算加速、模型训推于一体的智算服务平台,并沿着算网调度、智算服务及智算生态三个方面进行应用落地,逐渐完成了智能算力产业“大河文明”的重塑。

一、以一体化算网调度,解决智能算力的供给难点

为什么“水”需要流动起来?换句话说,为什么算力需要调度?因为算力的供给与需求之间存在着巨大的差距,难以匹配。根据IDC发布的报告,全球数据量每年增长约60%,但算力每年的增速仅为10%,供与求的增速非常不平衡。

与此同时,我国的算力资源地域分布广泛,规模不一,又进一步加剧了供求失衡的情况。再加上大多数算力运营主体还不具备足够强大的算力调度能力,从而导致算力的利用率非常低,很难满足本土智能产业的高速发展。

秉持国云使命,天翼云不断夯实算力基础设施,并在技术上进行多方面的突破,致力于解决算力供需不匹配难题。“息壤”一体化智算平台通过算力插件和算力网关,率先实现了算力的统一、高效和云化接入,再通过算数协同和多级算力互联调度,实现了算数网的一体化调度,做到数随算走,算随数动,从而使得调度区域更广,算力更泛在。

基于这些技术创新与布局,天翼云得以面向公共算力服务场景,为高校科研、智能汽车、央国企等行业提供充沛算力。同时,又面向城市算力网场景持续扩大应用范围,并已经为深圳、北京、上海、苏州等多个城市构建城市算力网。此外,天翼云还面向高校科研场景,通过整合校内外资源,内置多款科研应用,提供一站式科研实训环境,服务了多所高校的科研团队。

二、以一站式智算服务,激发智能算力的应用价值

当前,AI产业正在经历高速发展期,大模型的参数规模也在快速扩展,从百亿级、千亿级到万亿级甚至更大。这种大规模的增长带来了对计算能力前所未有的需求——更大的模型往往需要更多的计算资源来进行有效的训练。譬如,国产单集群万卡训练场景便是应对大模型参数规模不断扩展挑战的一种有效解决方案。

然而,构建高性能计算基础设施并不简单。面向国产单集群万卡训练场景,天翼云开展了一系列技术创新,比如通过自研算力加速技术、AI训练框架和断点续训能力,最终实现了训练效率的大幅提升,使得模型训练恢复时间从小时级降低到分钟级,有效训练时长占比提升到国内领先水平,有力支撑起中国电信星辰万亿级参数大模型的训练。

目前,天翼云“息壤”一体化智算平台具备一站式高性能计算服务。其中,在大算力需求方面,天翼云建设PB级并行文件存储,并组建低延时超大规模RDMA网络,通过计算、内存和通讯的多维优化,提升了综合算效。在性能方面,对AI框架进行升级、存储加速,实现checkpoint文件快速保存、加载。在稳定性方面,通过多项指标的监控分析,实现故障训前发现,有效控制大模型训练中断恢复时长,实现训练任务长期稳定、高可用运行。

此外,为了让国产算力更好用,天翼云还提供模型适配和算子开发服务,以及全流程可视化的模型迁移适配工具链,并在多个项目中得到验证,显著降低了国产算力的大模型训推门槛,使模型适配时间大幅缩短,训练性能大幅提升。

三、以全方位智算生态,推动智能算力的普惠发展

大河润泽四方,方有沃野千里。在AI产业的发展进程中,智算生态的构建有着不可或缺的价值,不仅促进智能算力本身的进步,更重要的是它为各行各业提供了强有力的支撑,使更多人能够享受到智能化带来的便利和发展机遇,最终实现智能算力的普惠式发展。

一方面,通过建立完善的智算生态系统,可以提供一系列工具、平台和服务,使得开发者和企业更容易获得并使用智能算力。天翼云全面开放“息壤”平台的智算能力,打造魔乐开发者社区,以推动开发者广泛应用国产化算力。目前,魔乐社区已发布5800个模型和145个应用。同时,社区还联合多家伙伴,推出“国产算力模型应用创新计划”,孵化国产原生模型。

另一方面,产业的发展离不开人才队伍的支撑。智算生态的构建是挖掘、培育新型专业人才的重要土壤,越来越多专业人才在完善的生态系统中涌现,将有力推动行业的快速发展。比如,“天翼云息壤杯”高校AI大赛就已吸引超3800支参赛队伍,不仅为国家和社会挖掘和培养AI人才,又促进了国产算力的技术成熟和生态繁荣。

河上载舟智算产业商用成果加速涌现

在充足的水资源(算力)供给下,天翼云“息壤”一体化智算平台逐步打造出一条宽阔的智算产业“大河”。在这条“大河”上,智能算力得以有效供给,助力国产大模型训推、落地,还孕育了全方位的智算生态,“润泽”千行百业,推动国产AI的加速发展。

与此同时,基于强大的国云智算底座和完善的客户服务,天翼云广泛赋能千行百业的业务创新,服务政务、工业、电商、医疗、教育等众多行业客户,覆盖算力管理、智算服务、AI应用等等。简单来说,在天翼云这条智算产业“大河”上,已是“百舸争流”的壮阔景象。

其中,天翼云的高性能智算服务就支撑了蘑菇街旗下AI商拍工具WeShop唯象的成功创新与应用。具体而言,天翼云基于上海临港的万卡智算资源池,为WeShop提供了海量且可快速扩容的智算资源。同时,其并行文件存储服务也为蘑菇街打造了高性能的存储底座,显著提升了数据读取速度等,全方位保障WeShop唯象服务全球近百万电商从业者。

作为本土领先的对话式AI平台公司,思必驰也在天翼云的高性能计算资源及良好的存储解决方案支持下完成诸多AI大项目的创新和落地。其中,在算力调度方面,天翼云通过自研的调度系统,协助思必驰DFM-2大模型调度GPU、NPU、CPU等异构算力资源,大规模训练上云1个月,即可完成数十亿规模大模型所有阶段训练和效果评估。在训练能力打造方面,天翼云还支持多种模型训练方式,不仅可以提升大模型训练平台的数据量,更大幅缩短了训练周期和交付进度。

这些商用成果的涌现,都充分说明了天翼云“息壤”一体化智算平台对本土AI产业的发展以及千行百业的数智化转型发挥着至关重要的作用。

在天翼云“息壤”一体化智算平台的规模商用进程中,我们可以清晰地看到,智能算力的发展如同一条奔腾不息的大河,深刻地影响着社会的方方面面。随着技术的不断进步和社会需求的变化,这条“大河”将继续流淌,开拓新的领域,创造无限可能。

*本文图片均来源于网络

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

智能相对论
编辑
文章 132 
浏览 4831 

相关资讯

更多 »