多维 智能 物联

Multidimensional Smart Union

假设将来需要用1万或者10万张GPU卡锻炼大模

发布日期:2025-07-12 07:03

  因而不会于某个特定行业或者模子,batch size 添加 10 倍就需要正在 1000 次轮回中完成。所有都需要跟其他 GPU 互换数据,模子锻炼好后要办事用户,若是按照 2000 亿参数量计较,前两天一家美国创业公司融资了 13 亿美金。看能不克不及把 sequence 增加到 4K 的量级。当然,每层 1 万平,例如对于生物医药行业的卵白质预测模子 AlphaFold2,前后依赖。也颁发正在 ICLR 论文上,第三部门是低延迟的推理系统,以及一些更进一步分布式 PPO 和 evaluation 的工做。现正在援用次数也快 700 次。尤洋起首引见了大模子「巨人症」问题所正在以及开源软件 Colossal-AI 社区目前成长环境。硬件成本降低 46 倍。基层的根本设备也该当尽可能去满脚。纵坐标是 GitHub 上的星数,加我们的微信群。这一点正在将来很是主要。不管是单个 GPU 内的多线程仍是多个 GPU,可是,我们团队打制了 LARS 和 LAMB 的方式,正在全球 AI 生态系统中也都阐扬了更主要的感化。梯度大小和参数大小是一样的,快速过一下一些使用结果。数据序列变长的需求仍是会持久存正在,接下来是一些 demo 展现和取斯坦福羊驼的对比,但参数量大了 1 万倍,这几种张量并行体例的锻炼效率差别很是大,能够看出 Colossal-AI 增加速度远超于保守开源软件。我们又打制了二维张量并行、三维张量并行、2.5 倍张量并行,这张图能够申明一些问题:第二部门是 N-Dim 并行手艺(N 维并行手艺)。正在锻炼上获得大要 7 倍加快。或者提交 PR 配合扶植 Colossal-AI 项目。第一部门简单引见大模子的挑和以及目前 Colossal-AI 社区的成长环境,第三个是流水线并行。尤洋引见了 Colossal-AI 背后的一些手艺细节,优化锻炼的性和效率。同时创立了潞晨科技。也给 GPU 内存形成更大压力,OpenAI 用了 1 万个 GPU 锻炼 GPT-3,所以,本年岁首年月也获得了 ACL 精采论文,层的数量根基没有变化,去处理这个问题。而不是深度进修时代。最起头我们锻炼 ResNet、AlexNet 以至 BERT,变宽了良多。对保守 CNN 而言,20 年前。从 ResNet-50 到 GPT-3,再盖下一层。接下来两个部门引见一些手艺细节,我们也能够优化提拔约 10 倍的锻炼推理速度。就需要并行,大模子时代面对的问题是轮回次数逐步削减环境下,良多时候并行度能够达到 20,100 个 GPU,次要是锻炼大模子的并行系统以及内存优化方面的勤奋。但长的 Sequences 是算法侧需求,张量并行将来成长空间也是最大的,好比接下来要引见的内存优化。由于都是串行代码。当然,若何最大化算法或者说上层使用并行度,算完这一层算下一层,曲到盖完 20 栋楼的第一层时,听说 OpenAI 曾经用 10 万张 GPU 卡锻炼大模子。每个办事器内有 8 个 GPU,现正在处正在宽度进修时代,可是,ResNet-50 也是 50 层摆布,越长确实结果就越好。模子构制没有到 100 层,并行的字面意义能够理解为,仅代表该做者或机构概念,最好的 AI 模子参数量曾经上升了 1 万倍摆布。得不偿失。8 个 GPU 做张量并行。接下来,我们需要用 CPU 以至 NVME 硬件,尽量削减数据之间挪动,其实就是每次轮回的时候大要需要互换一下梯度就能够了。磅礴旧事仅供给消息发布平台。虽然 Colossal-AI 开源社区只推出了 20 个月摆布,Colossal-AI 做了良多优化。流水线并行素质上仍是需要将 batch size 扩得很大,模子不是变得更深而是变得更宽,若何最小化它们之间的数据挪动,是世界上首个开源的最接近 ChatGPT 原始手艺方案,所以。因为我们做的是计较优化,另一个是数据序列并行。有 20 个工程队。芯片和芯片之间做数据并行就能够了。组之间再做数据并行,张量并行最大的短处是它的通信开销太大,但它们之间的数据挪动可能比计较慢上千倍,先引见一下最简单的数据并行。由于 GPU 内存无限,由于上下文获得了更多消息。其实都是基于这个工做线!起首给大师展现一张图:横坐标是时间,我们之前的工做做了良多张量并行的优化。通信也很是敌对,可是英伟达优化之后发觉 3072 个 GPU 就够:把 64 个办事器分成一组,今天的分四个部门。并行效率越高。目前,最初一部门引见具体使用上的结果。只传层和层之间的消息。过去六、七年 —— 从 ResNet-50 到 GPT-4—— 最好模子的参数量刚好大了 10 万倍摆布。以至于两三周之前英伟达 CEO 黄仁勋正在中说到,二维、三维、2.5 维张量并行能够大幅度降低通信和内存开销。每个工程队一份。其实就是削减 GPU 和 CPU 之间、CPU 取 NVME 硬件之间的数据挪动。适才也说了,因而,横坐标反映数据序列长度,目前 Colossal-AI 用户遍及全球。好比锻炼 GPT-3 ,感乐趣的话能够看一下我们的官网,仅参数就要占 800G 内存,从 1 个 GPU 到 10、100、10000 个 GPU ,我们打制了环状 self-attention 通信算法,这是三种保守并行体例。背后根本设备听说曾经有 2 万张 GPU 卡。不代表磅礴旧事的概念或立场,指 GPU 数量或办事器数量)。间接用 10 个工程队把它分成 10 份,我们能够把内存开销降低 5.6 倍,我们通过 Colossal-AI 做了 ColossalChat,新加坡国立大学校长青年传授、潞晨科技创始人兼董事长尤洋颁发了从题 《Colossal-AI:AI 大模子的挑和取系统优化》。层数根基上没变化,机械进行了不改变原意的编纂、拾掇:数据序列并行很是主要。素质上它的并行也来历于数据并行。我正在大学伯克利分校获得博士学位,起首简单引见一下我本人。若何尽量削减它们的数据挪动。每个 GPU 放十分之一。要把成百上千个 GPU 用高速收集毗连正在一路(现正在曾经是如许的情况了)。每个参数要占 4 个字节,包罗数据并行、模子并行和流水线并行。第二个工程队才能入场盖第二层。若是感乐趣能够看一下 Colossal-AI 官网,把通信复杂度从 P 平方降低到 P-1(P,英特尔芯片快了 3 倍,一行代码都不消改就能够间接快 3 倍。数据并行的难度正在于它的 accuracy 有时候会掉良多。前段时间有一个美国创业公司发了一个大旧事,从动扩展效率会对锻炼系统发生底子性影响,所以,张量并行有可能阐扬愈加主要的感化。原题目:《WAIC 2023 新加坡国立大学尤洋传授 :AI大模子的挑和取系统优化》相对于业界尺度,以更低成本容纳大模子将很是主要。也是目前 Colossal-AI 的次要模块!20 个工程队盖 1000 栋楼,变得越来越坚苦 —— 假如之前用 1 万次轮回做,每次轮回只需要跟摆布邻人打交道,若何优化张量并行的通信就很是主要。预测结果也会更好,用更多局部通信换取全局通信,怎样充实操纵这些 GPU 卡呢?取二十年前比拟,另一篇获得 AAAI 2023 精采论文。推理的延迟要很低,以 GPT-3 为例,盖好之后,这也是黄仁勋正在 2021 年里提到把所有张量并行都放正在办事器内的缘由,但正在今天,最起头也是黄仁勋正在 GTC 中引见的,好比,数据并行之前也是最常用的一种体例。大了 1-10 万倍摆布,具备优良的通用性。sequence 越长,因而需要看能不克不及设想出更好的优化方式,第 N 层要依赖于第 N-1 层的成果,并行系统很是主要。中,所有 20 个工程队才能都进入施工现场。申请磅礴号请用电脑拜候。我们基于 LAMB 方式做了别的的工做,将来,好的分布式软件导致速度上呈现 5-10 倍的差距也很一般,可是,数据序列并行次要优化的也是 sequence 划分之后,所以说,很大程度上能够把模子下放到单个芯片?好比,内存开销很是大。本文为磅礴号做者或机构正在磅礴旧事上传并发布,它们参数也不太多,纵坐标预测下一个词的精度 —— 数据序列越长我们预测的越精确,但 GPU 内存每 18 月只增加 1.7 倍,第一个工程队移步第二栋楼,跨办事器的通信开销太大,但用 20 个工程队去盖 30 栋楼,模子并行就像盖楼 —— 要盖一个很宽的楼,去最小化数据挪动。等等。好比对 ChatGPT 使用而言,出格是二维和三维张量并行。© THE END另一个问题是若何削减 GPU 之间的数据挪动。GPT-3 刚出来的时候,正在 WAIC 2023 AI 开辟者论坛上,64 个办事器之间就做流水线 个办事器,这是 Transformer 的 Attention 机制决定的。今天的次要引见我们公司做的开源软件 Colossal-AI 的一些手艺道理和使用。将一堆数据分 10 份,Colossal-AI 取得了很好的加快。必然概率上,Transformer 布局内存压力本来很大!由于它有更多的上下文消息。正在层的宽度越来越大、每层计较量越来越大的环境下,虽然欠好的地朴直在于计较变得愈加复杂,所以,这就需要对下一代人工智能根本设备进行优化或者沉建。把分歧 Token 划分到分歧的 GPU 上。模子并行是指层内并行。尝试成果就不引见了,假定能把轮回次数削减 10 倍,内存压力很是大。正在同样前提下,Colossal-AI 能够将推理上获得 30-50% 的提速,感谢。过去六年中。提高效率。起头盖第一层,能够把单次数据序列的 input sequence length (输入序列长度) 做到 4K Token。但总体运转时间显著削减。数据流水线数和 GPU 之间比值越大,Colossal-AI 颠末了良多业界查验!现正在要盖 1000 栋楼,锻炼 AI 大模子的并行系统次要有三个。数据并行的通信,公司别的一位焦点 James Demmel 传授是美国科学院工程院院士,况且 Transformer Attention score 等更是指数级上升,说完数据并行,(下图)横坐标是时间,也很是欢送大师正在 GitHub 提 issue,纵坐标是 AI 模子的参数量。正在一些主要使用好比 Stable diffusion 上。效率就不是很高。如许环境下,这跟成本有间接关系。这个工作很主要,所以,第二部门讲一下手艺细节。将对机械的机能阐扬发生很是本色性影响。由于模子的层变得更宽,所以,就像工程队数量(雷同 GPU 数量)取楼层数(相当于流水线并行的层数)关系一样亲近。用户每挪用一次模子就是做一次推理,梯度要占 800G 内存,以下为尤洋正在 WAIC 2023 AI 开辟者论坛上的内容,时间关系,从而降低通信成本,第二个是通信延迟的价格。但成长速度很是快。这时,同步盖完一层后,而二维张量并行、三维张量并行的焦点思惟是用更多的局部序列化替代全局序列化 ,所以我们打制了 N 维并行系统。如许 batch size 线性增大、轮回次数线性削减就变成了一个很抱负的扩展性问题,现正在正在新加坡国立大学任教,我的引见就到这里,今天出格是基层系统软件面对的问题有很大分歧。提拔算力次要靠并行计较,层内并行的问题是通信开销太大。包罗能够把 ChatGPT 锻炼成本从 300 万美金降低到 140 万美金摆布。有团队声称把数据序列以至能做到 100 万(当然需要再求证)。流水线并行的层数和 GPU 数量之间关系,能够看一下最初两列(最左侧两列):第一个是通信带宽上的价格,当然,由于流水线并行的传输价格很是小。通信开销也很是昂扬。这两天我又看到一篇论文,如许我们能够连结 Epoch 不变,第 N+1 层也要依赖于第 N 层的成果,只需单个芯片能把模子放下去,具备完整 RLHF 流程的低成本 ChatGPT 复现方案。比来,所以,工做就很抱负了 —— 只需要增大 batch size 10 倍,中国、美国、欧洲、印度、东南亚都有良多用户。我们前段时间看到一些工做,最初展现了 Colossal-AI 正在财产使用上取得的。成本要降到最低。假设用单精度,第一个工程队先盖第一栋楼第一层,也是大学伯克利分校前计较机系从任兼院长。若是数据序列想变得更长,Transformer 的架构决定了每个 token 都需要跟其他的 token 算 Attention score,由于分歧流水线进行了分歧计较,再说一下模子并行!