
关于唐明洁教授的研究工作要点(概述性表述,非时间线描述)
唐明洁教授在分布式系统与云原生架构领域具有丰富的研究与实践经历,参与并推动了多项开源 AI 与大数据项目的创新与落地,涉及 AI 训练、数据体系与数据库的智能化优化等方面,曾在业界和学术界开展系统级的技术研究与工程落地工作,贡献包括对学习型索引、分布式任务调度与资源管理等方向的研究与实践。
2. AI for System:把 AI 置于系统之上与之协同
2.1 面向分布式作业的人工智能
在大规模云计算集群环境中,常见痛点集中在资源利用率偏低以及任务排队等待时间较长等方面。为应对这些问题,可以通过以 AI 驱动的通用优化框架,将分布式作业与优化策略对接,形成对多类任务的统一调度与资源分配能力。相关研究与实践提供了多种思路,帮助在实际场景中实现更高的吞吐、更优的资源利用,并兼顾稳定性与鲁棒性。
2.1.1 常见痛点
- 集群资源利用率偏低,尤其是 CPU、内存、甚至 GPU 的利用率未充分发挥。
- 作业等待时间较长,导致资源在队列中积压,影响整体时效性。
- 运维与管理成本较高,尤其是在多业务线、多集群环境下的作业提交与管理。
2.1.2 常见解决思路
- 基于 Pod/容器单位的动态伸缩与资源调度(以 Pod 级别为核心单位的弹性伸缩思路)来提升利用率与效率。
- 以作业为单位的调度策略,为不同作业设定资源配额并优化执行顺序,以达到性能目标与资源利用之间的平衡。
- 构建一个可接入多种任务的通用优化框架,支持多目标优化(Multi-Optimizers),实现资源消耗、吞吐、IO 等多维目标的综合优化。
2.1.3 优化框架的架构要点
- 架构设计聚焦统一框架对接多类任务,既不打断现有任务执行,又在框架中内置多种优化算法以适配不同场景。
- 从单目标优化向多目标优化演进,目标更加多样化,追求“资源使用更少、性能更高、IO 更少”的综合最优。
2.1.4 代表性优化案例
(一)流处理作业的优化(如 Flink 场景)
- 初始阶段:通过历史任务特征提取,建立任务初始化最优计划,实现更快的启动与更高的资源匹配度。
- 运行阶段:依据输入数据量与节点计算情况进行预测,动态调整资源分配以维持吞吐。为避免 AI 预测带来的潜在风险,设计了 Dry Run 与兜底策略,确保生产环境的可靠性与稳健性。
- 框架职责:提供通用 API,外部开发者接入后由框架完成底层资源优化,最终把计划结果反馈给作业执行引擎,协同实现任务级别的优化。
(二)深度学习推理与训练任务的资源配置
- 针对在线预测与离线训练的资源分配,探索在资源空闲时将训练任务“挤入”空闲或低峰时段的 GPU 资源,以提高整体利用率。
- 需要通过 AI 对未来资源需求进行预测,并在众多任务中找到匹配的作业,进行共同调度与 GPU 资源分组,从而提升利用率。
- 同时要设置保护性策略,确保在线服务的 SLA 不被显著削弱,降低对现有在线任务的冲击mile米乐。
2.2 数据库中的人工智能
2.2.1 学习索引(Learned Index)的核心思想
- 传统索引基于固定的结构与算法,而学习索引通过机器学习模型学习数据分布和查询模式,从而智能地选取与定位索引节点,以提升查询效率。
- 学习索引在存储空间与查询速度方面往往具有优势,能够自适应数据特征与访问模式。
2.2.2 分类与研究方向
- 学习索引:研究如何通过学习数据分布与查询特征来设计更高效的索引结构、节点选择与查询策略。
- 学习模型的索引:关注学习模型本身的查询加速,以及针对模型的快速定位与访问。
- 基准与评估:对比分析不同学习索引方法的性能,设计有效的评估体系。
2.2.3 学习索引结构的常见形态
- 范围索引:提升范围查询的效率,依据数据分布与查询模式动态确定访问顺序与节点。
- 点查询索引:优化对单一键值的快速定位。
- 存在性索引:用于快速判断某个键是否存在于数据集合中。
2.2.4 自适应应用案例
- 在某云端数据库场景,通过对现有倒排索引的优化,结合经典的自适应索引策略,提升系统的利用率与查询性能,降低内存占用并提升并发下的吞吐与响应速度。
2.3 生产层面的大模型训练与资源挑战
- 面对大参数、海量数据的模型,资源分配与分布式训练成为核心挑战。生产集群中普遍存在内存、CPU、GPU 利用率不高、任务排队时间较长等问题。
- 大模型训练的方式选择通常偏向同步训练,原因包括更高的并行利用、参数一致性、内存管理和数值稳定性等方面的优势。
DLRover 案例概览
- DLRover 的目标是在分布式集群上实现深度学习模型的自动化训练与运维,降低工程复杂度,使开发者可以专注于模型设计与研究。
- 系统分为 Brain Service 与 Training Job 两大部分,Brain Service 提供优化策略与决策逻辑,Training Job 负责执行并向 Brain Service 请求优化计划。
- 与传统作业模式相比,DLRover 能实现更强的弹性伸缩、提升资源利用率、在出现节点故障时具备更好的自修复能力,整体训练流程的运维负担显著降低。
数据库与大模型训练的实践性思考
- 大规模模型训练往往需要跨区域的数据读取与高并发的数据流动,因此在数据库与训练节点之间,需要通过缓存、数据倾斜控制、以及数据格式化等手段,降低对数据库的压力并提升训练效率。
- Learned Index 虽有潜在商业化案例,但在实际在线更新与实时适应方面仍需权衡,在线性更新与离线更新的策略需要结合具体场景设计。
- 大语言模型的训练与应用不仅依赖模型规模,也高度依赖人类反馈强化学习等训练信号的有效性,缺乏这类信号往往会使模型表现受限。
系统与 AI 的协同前景
- AI for System 与 System for AI 两个方向相互支撑:前者通过 AI 优化系统执行与资源调度,后者则通过系统能力提升 AI 模型的训练、部署与推理效率。
- 未来的实现重点在于将多类任务接入统一的优化框架,采用多目标优化策略,结合集群信息与任务特征,动态调整资源分配与执行顺序,确保高吞吐、低延迟与稳定性并存。
- 同时,涉及大规模分布式训练的基础设施需要更稳健的容错与自适应能力,以应对资源波动、任务失败与网络抖动等复杂场景。
总结要点
- 将 AI 融入系统层面的核心在于通过智能预测与自适应调度,提升资源利用率、缩短作业等待时间、降低运维成本,并在多任务、多目标场景下实现协同优化。
- 数据库领域的学习索引与自适应索引框架,为数据访问提供了更高效的路径,需在实际应用中权衡在线更新能力与稳定性。
- 大模型训练的分布式部署需要综合考虑训练效率、参数一致性、内存/带宽管理以及 SLA 保护,自动化的调度与容错能力将成为关键竞争力。
注:文中若出现图片描述、案例引用的表述,请保持图片信息的呈现与陈述的核心观点一致,但避免直接引用具体来源与时间信息,所有链接与外部来源信息在最终版本中予以删除。若文中涉及图片链接,请保留 img 标签对应的图片链接信息。