
AI 原生时代的到来,催生了大量 AI 原生应用,也对云计算提出全新要求:需要更强的计算能力、更多样的计算产品、兼容各类数据与应用的存储体系,以及覆盖全场景的服务交付能力,同时要有能凭借大模型提升业务效率的开发平台。基于此,我们对 AI 原生云进行了全面重构,形成了覆盖全国的数据中心、面向多场景的云基础设施、全栈融合的智算基础设施,以及在其之上构建的应用开发平台的全景体系。
云基础设施的最新进展
- 通用计算层面,推出多款新一代云服务器。通用算力方面,发布 G7 实例,升级至新一代处理器,计算与网络规格全面提升,整体性能较上一代提升约 10%。在 AI 计算领域,推出两款国产 AI 加速实例:新一代弹性裸金属实例在显存和 AI 加速通信能力上得到强化,相较主流推理卡,在大模型推理场景下性能提升可达约 50%;基于升腾 910B 的弹性高性能计算实例,单实例高性能网络互联能力达到 3.2T,适用于大模型训练场景,训练性能提升可达约 40%。以上三款实例均支持第二代网卡 DPU,提供更高的网络性能与多协议引擎支持。
- 面向服务与网络的自研网关,融合了 X86 处理器、可编程交换芯片与 FPGA 加速卡,形成可扩展的异构融合网关。基于这套平台,负载均衡、内网连通等服务在性能与可用性方面显著提升,具备千亿级流量转发能力,平均转发时延降幅显著,低负载时抖动降至微秒级别,丢包率大幅降低。
- 为提升服务体验,面向公有云生态的服务网卡已实现对百度网盘、百度地图等生态的直接访问,替代以往外网访问方式,显著降低数据传输成本与处理延时,已在生命科学、智能汽车等场景广泛落地。典型应用包括基因测序数据在对象存储中的缓存与一键同步给下游客户下载的场景。
- 存储体系的统一底座升级。统一元数据底座 TafDB 提供分层与扁平命名空间的原生支持,兼具对象与文件能力,显著提升大数据场景的性能。统一数据底座 Aries 支持多种数据模型与 I/O 模型,以及灵活的分布式容错模型,最低副本数可达 1.05;底座支持融合介质(包括 SCM/SSD/HDD/磁带等),以满足不同性能与成本需求。
- 基于统一底座,面向不同应用场景的存储产品陆续发布:对象存储 BOS 支持平坦与层级命名空间互转,显著降低大数据目录操作时延;块存储 CDS 引入增强型 SSD PL3,实现微秒级读写时延,满足对时延敏感的业务;增强型 SSD PL2 实现性能与容量的解耦,高性能密度在小容量场景也能获得显著提升;并行文件存储 PFS 推出标准型 L2,降低起购容量与扩容门槛;极速型 L2 支持单文件系统 8PB 级别规模、TBps 吞吐、千万 IOPS、亚毫秒时延,满足大容量高性能需求。
- 高性能计算平台 CHPC 的落地,结合太行计算能力与存储底座,为用户提供一站式公有云 HPC 服务,支持一键创建计算环境,以及在 VPC 内预集成的网盘服务,打通源文件提交、上传、处理、回传与分发的全链路数据流程。
- AI 原生计算的升级:百舸 3.0 面向大模型训练与推理,提供训推加速工具、高性能通信库、镜像分发加速等能力,RDMA 带宽有效性达到高水平,训练与推理吞吐提升约 30%~60%;在集群规模、故障容错、自动化运维等方面提供全面改进,万级 GPUs 任务的有效训练时长可达到 95% 以上利用率,运维工具与可观测性能力也得到显著增强。通过与社会各类 AI 计算资源的协同,提升 AI 原生应用的可用性与普惠性
mile米乐。
- 新的智算网络平台首次对外发布,将算力资源按中心、超算、边缘等全域接入,构建统一的算力网络资源池。算力大脑实现智能调度,能够对异构算力状态、性能与利用率进行分析并动态调度,支撑跨域的高效调度与弹性供给,以支撑对大模型等高资源需求的应用场景。
云上数据库与大数据的云原生化
- GaiaDB 4.0 进一步推动云原生数据库的发展,通过并行 SQL 引擎实现跨机多核并行查询,显著提升复杂查询性能(对 MIX 负载与实时分析场景的性能提升超过 10 倍);存储引擎提供列存索引与列存引擎,面向不同规模数据查询进行加速;数据流部分优化提升整体性能,核心共识、链路与多版本回放等方面实现显著改进。
- 数据库智能驾驶舱借助大模型能力实现自动化、智能化的洞察、评估和优化,内置问答能力以对海量数据库知识沉淀进行快速问诊,相关准确率可达到较高水平。故障洞察、容量预测及 SQL 优化等方面的自动化能力显著提升,帮助 DBA 提高工作效率。
- 大数据平台全面升级,计算引擎得到提升,资源利用率与作业效率显著提升。新版本的数据湖管理与分析平台 EasyDAP 支持从数据集成、开发到分析的全流程 Serverless,提供 Job 级弹性伸缩,降低复杂配置,提升开发体验。自研的 BMR Spark 3.2 相较社区版本性能提升约 2 倍,同时在同等资源下提升作业吞吐。
- 数据分析工具也在持续演进,Sugar BI 推出智能问数(SugarBot)功能,基于大模型进行数据分析对话,将传统分析流程简化为更自然的对话操作,大幅降低分析门槛、提升洞察效率。对话式的数据探索可实现秒级可视化结果,报告与大屏制作效率显著提升。SugarBot 支持对 30 余种数据源、150 余种可视化图表的直连,并具备统计与预测能力。
分布式云与边缘计算的落地
- 为让 AI 原生应用在不同场景都能获得稳定的算力资源,百度智能云持续深耕分布式云:边缘计算节点逐步扩展,实现云边一体的能力,覆盖全域网络与边缘 IaaS、PaaS 产品,确保在不同地区获得一致的使用体验。在边缘智能方面,提供完备的 AI 计算、AI 存储、AI 网络等能力,支撑中心端训练、边缘端推理的无缝衔接。
- 专有云 ABC Stack 与千帆大模型平台深度集成,提供本地部署的一站式大模型开发、调优与训练平台,帮助企业搭建专属行业大模型应用,并沉淀了面向数智化转型的最佳实践。同时,在传统 IDC 业务上云与容灾多活方案方面,也实现了显著的成本节约与业务连续性保障。
- 本地计算集群 LCC 具备公有云扩展与本地化部署的双重优势,支持最新一代 CPU/GPU 实例,并已实现对百度百舸 AI 异构计算平台与 CHPC 的全面兼容,提供完整的 AI 与 HPC 集群管理能力。LCC 能以多种方式部署,满足区域算力集群、产业基地及公有云延伸的多样化需求。
上层应用平台的演进与应用场景
- 智能视频云平台经历四次升级迭代,4.0 版本面向一站式的智能音视频解决方案。资源层实现云边端一体化,将点播、直播、实时通讯等能力统一到同一网络中,以便资源复用与灵活调度。在能力层,借助多模态大模型进行能力重构,如 AIGC 智能集锦提取高光时刻、智感超清大模型完成去噪、去划痕、增强和超分等任务一次性完成,并对图片和视频植入高鲁棒性水印,确保内容可追溯。在平台层,聚焦泛直播与泛安防场景,构建智能直播与视联网两大平台,提供端到端解决方案。
- 智能直播专注于赛事场景,覆盖从智能采集、直播录制到智能分析处理的全链路,让普通用户也能体验到专业级的观感与体验。新能力包括统一接入规范,支持各类采集设备接入;智能解说,通过多模态大模型实现自动生成解说文本与语音,降低人力成本并提升解说质量;精彩集锦,基于数据与模型实现对多项运动的智能自动集锦。
- 智能视联网上,政府与公共管理单位广泛采用视频融合赋能平台,覆盖主流协议、支撑数十万路级的视频汇聚,实现市域视频的共建共享与跨机构协同,通过算法与算力的协同调度提升解析效率并对接第三方业务平台,推动城市治理综合提升。
- 低代码平台提供快速、低门槛的应用开发能力,通过将大模型能力融入产品,显著提升开发效率。开发者可通过自然语言生成页面、应用等,减少原型设计到最终实现的环节;在常见场景如智能、内控、流程、集成等方面,提供智能数据查询、页面脚手架、AI 连接器等能力,帮助构建更复杂的应用。
结语
AI 原生云正在加速化繁为简的云原生能力落地,覆盖从算力、存储、数据、应用平台到分布式云的全栈能力 与多场景部署。通过统一的智算网络、强大的算力调度与高效的应用平台,我们致力于让更多机构与行业能够便捷地获得 AI 计算能力,推动 AI 原生应用的快速落地与普惠化普及。欢迎体验百度智能云的全新能力,推动你的业务进入 AI 原生时代。