整体介绍与内容概览

欢迎关注大规模深度学习技术

近十年来,深度学习技术不断刷新视觉、自然语言、语音、搜索、推荐等领域各种任务的记录。这其中的原因,用一个关键词描述就是“大规模”。大规模的数据使得模型有足够的知识可以记忆,大规模参数量的模型使得模型本身有能力记忆更多的数据,大规模高性能的算力(以GPU为典型代表)使得模型的训练速度有百倍甚至千倍的提升。数据、模型、算力的发展催生了大规模深度学习这个领域,如何进行多机任务的拆分、如何配置集群训练资源、如何平衡训练速度和收敛速度、如何训练单机无法训练的模型、弹性训练与容错等都是这个方向重点研究的问题。

飞桨分布式训练提供的核心价值

  1. 源自产业实践的经验:

  • 飞桨的分布式训练技术源自百度的业务实践,是经过超大规模业务数据检验过的训练框架。

  • 飞桨分布式训练经过实践检验的应用领域包括自然语言处理,计算机视觉,搜索,推荐等。

  1. 完备的并行模式:

  • 数据并行:针对产业界最常用的数据并行模式,飞桨针对实际业务需求重点打磨多项技术,包括;飞桨提供集合通信架构和参数服务器架构两种方式,支持工业实践中常见的同步训练和异步训练的机制,并提供收敛效果有保障的分布式优化算法。

  • 流水线并行:面向异构硬件,流水线并行能够将模型计算部分拆分到不同硬件并充分流水线化,从而大规模提升异构硬件的整体利用率。

  • 模型并行:对于超大规模分类问题,飞桨提供计算与存储同时并行的模型并行,解决单GPU无法解决的问题。

  1. 面向云端场景的并行训练组件:

  • 飞桨针对集群网络环境、硬件设备比较低配的场景提供多种实用的并行策略和优化算法。

  • 针对云端算力具有弹性的特点,飞桨也始终在探索弹性深度学习的应用。

开始你的分布式训练之旅

RoadMap

  • 我们也会推送大规模深度学习技术领域最前沿的技术到这里

    • 近期:千亿规模模型参数的GPU多机多卡训练,敬请期待