九游体育

九游体育

九游体育(NineGameSports)官网 “纳秒级”极速,给“万物订价”——华尔街最顶尖量化机构Jane Street的“算力战局”

发布日期:2026-05-29 17:32 来源:未知 作者:admin 浏览次数:

九游体育(NineGameSports)官网 “纳秒级”极速,给“万物订价”——华尔街最顶尖量化机构Jane Street的“算力战局”

当所有这个词这个词硅谷齐在为通用东说念主工智能(AGI)和万亿参数的通用大模子荒诞时,华尔街最精巧、最收成的量化巨头 Jane Street(简街成本)却在暗暗开辟另一条极其挥霍的算力阵线。

近日,知名科技播客主办东说念主 Dwarkesh Patel 阴私获准实地造访了 Jane Street 位于德克萨斯州的中枢数据中心。在这场与 Jane Street 时刻团队共同负责东说念主 Yaron Minsky 以及物理工程团队负责东说念主 Dan Pavatova 的深度对话中,这家刚刚砸下60亿好意思元算力无数订单的华尔街"造王商",初次解密了他们如安在高频来去的"纳秒天下"与大模子的"重算力时间"之间构筑起无法复制的完全壁垒。

中枢不雅点:

冲破蔓延迷念念: 量化来去并非全盘追求纳秒。最优战略是"集成方法"——100纳秒内靠 FPGA 进行极简决策;而更大、更机灵的 AI 模子则运行在微秒、毫秒以至小时级别的时限上。

60亿好意思元的算力贪心: 金融数据的"字节与浮点运算比率(Bytes to Flop Ratio)"极高,且噪声极大。Jane Street 不追求硅谷那种"一个模子作念所有这个词事"的通用 Scaling Law,而是通过海量定制化架构和极速迭代来榨取逾额收益。

基础方法成新圣杯: 算力的信得过瓶颈早已不是芯片自身,而是发电机、变压器和液冷开导。为了让 GPU 提前 6 个月上线,公司以至不错作念出"抛弃全面发电机备份"的激进生意决策。

来去是"AGI完全"问题: 来去的骨子是预测翌日。在商场发生"相变(顶点颠倒)"时,东说念主类的元判断远比模子可靠。AI 时间,顶尖工程师和来去员的身价不降反升。

纳秒极速与大模子的"时期谱系"

外界对高频量化来去一直存在一种刻板印象:机器必须紧挨着来去所(干事器托管 Colo),每一笔来去齐必须在纳秒级内完成,而动辄需要深广研究蔓延的 AI 大模子似乎与之格不相入。

对此,Yaron Minsky 明确指出:"量化来去不存在单一的时期跨度,而是存在一个完整的谱系。"

100纳秒内的"极限硬件生计"

在百纳秒级别的极限速率下,决定输赢的以至不是编程言语(岂论是 OCaml、Rust 如故 C++),而是圣洁的硬件逻辑:

中枢开导: 顺利挂载在网罗导线上的 FPGA(现场可编程门阵列)。

极限速率: "若是你在输入和输出的导线上逢迎一个示波器,你会看到数据包在被完全禁受完之前,就还是运行从输出端发出去了。"

代价: 这种极致速率褫夺了复杂的研究空间,此时的决策逻辑极其大意。

微秒到小时级的"AI主战场"

跟着决策时期窗口放宽到几微秒、几百微秒、毫秒以至数小时,更大、更机灵的 AI 模子便有了用武之地。

预测中枢: 预测财富的"公允价值(Fair Value)",并将其行为模块高度可组合地镶嵌到各样来去经过中。

空间纯真性: 模子越大、越慢,物理放弃的位置就不错离来去所越远。这使得巨型 GPU 集群不必拥堵在崇高且受限的来去所托管机房中,开释了算力规模。

砸下60亿好意思元算力:为何不走硅谷的 Scaling Law?

不久前,Jane Street 与算力云巨头 CoreWeave 签署了一项高达 60亿好意思元 的研究左券。针对这笔惊东说念主的参加,Yaron 发扬了华尔街与硅谷 AI 实验室(如 OpenAI 等)在 Scaling Law(规模定律)上的骨子差别。

间隔"大一统",拥抱"定制化"

传统 AI 实验室追求历练一个完全通用的、能作念所有这个词事情的单一模子。而 Jane Street 的价值则来自于模子架构的极大各样性与荒诞的实验数目。研究东说念主员需要极快的迭代时期,去针对千奇百怪的数据源尝试判然不同的全新模子遐想。

额外的"字节与浮点运算比率(Bytes to Flop Ratio)"

金融范围的 AI 历练有着额外的底层能源学:

高数据量,低信息密度: 金融数据包含海量的噪声,单字节的信息量远低于天然言语。

模子特征: 比拟大言语模子(LLM),Jane Street 的模子频频更小,但朦拢的数据量却大得多,对数据加载和存储性能的要求达到了变态的级别。为此,他们正在大举构建我方里面的大规模对象存储系统。

算力战局的隐形瓶颈:从芯片到发电机与变压器

当硅谷还在为英伟达最新的 GPU 芯片大打动身点时,负责物理工程的 Dan Pavatova 清爽,信得过的战场还是改变到了物理基础方法上。

生意决策打败纯工程好意思满主义

"发电机是面前你能买到的交货周期(Lead Time)最长的开导之一," Dan 示意。为了冲破这个瓶颈,Jane Street 展现出了极其狼性的华尔街念念维:

"咱们不错挑战以前的不雅念。所有这个词这个词数据中心真的齐需要发电机备份吗?若是咱们拿掉部分备份,只留给最中枢的系统,就能让咱们的 GPU 提前 6 个月上线。从工程上看这梗概不是最好意思满的,但这完全是最好的生意决定。"

物理极限的靠拢:1兆瓦机架与800V直流电

2026FIFA世界杯中国官网

跟着算力密度的荒诞飙升,翌日的时刻决议正在发生巨变:

开导瓶颈: 面前变压器、发电机以及用于液冷的冷却开导处于突出零落情景。

时刻演进: 数据中心正在向单机架 1兆瓦(MW) 的恐怖密度迈进,冷却管说念越来越粗。供电架构也正在从传统的交流电向 800伏直流电(DC) 演进。

两阶段锁定战略: 鉴于芯片迭代太快而基础方法建设太慢,Jane Street 倾向于"作念多(Long)"电力和数据中心容量,先锁定能源,再推迟对崇高芯片的采购决策,以至在必要时将电力容量分流给他东说念主。

被动抛弃的"x86捷径"

多年来,Jane Street 运营时刻组织的一个法门是"走捷径":假装天下上只须 x86_64 一种 CPU 架构,况且只珍惜一个大型研究数据中心和一个存储集群。但当今,跟着算力需求全球化散播(无法在单一地点引入足够恐怖的电力),以及英伟达全新 ARM 架构家具的推出,这一捷径已被透澈冲破。研究和存储退换的交汇、以及对 ARM 架构的赈济,让系统复杂度变高了几个数目级。

四、 AGI时间,东说念主类领略为何依然是"终极护城河"?

当被问及"一朝 AGI(通用东说念主工智能)竣事,是否会坐窝让 Jane Street 闲适"这一激进问题时,Yaron 给出了一个突出清醒且深切的复兴。

来去是"AGI完全(AGI-complete)"问题

Yaron 认为,来去骨子上和"NP完全"问题一样,是一个"AGI完全"问题。这意味着天下上发生的任何风吹草动(政事、天灾、科技变革)最终齐会汇入并影响来去配景。

"在大意的部分被自动化后,那些模子无法自动化的硬核部分,反而成为了竞争上风的终极所在。我从来莫得像今天这样进击地想要招聘更多的工程师和来去员。"

无法被电子化取代的"东说念主际修辞"与相变

非电子化来去依然强盛: 即使在今天,多量大额来去(如债券业务)依然依赖于东说念主与东说念主之间通过聊天用具的顺利沟通。来去员需要肉眼和直观去评估电话那头的东说念主代表了多猛进程的"逆向选拔(Adverse Selection)"(即对方是否掌持了你不知说念的内幕)。

相变中的"元判断(Meta Judgment)":"简街最收成的日子,频频是天下堕入荒诞、没东说念主知说念发生了什么、商场发生‘相变’的时刻。咱们但愿模子能确认好,但咱们深知,东说念主类在搪塞相变时比模子靠谱得多。此时需要一种东说念主类特有的‘元判断’来决定系统该作念什么。"

全面扩招:简街正在寻找哪些东说念主?

跟着 GPU 规模在短期内研究从几万张荒诞飙升至几十万张,Jane Street 正在全球范围内伸开前所未有的东说念主才搜猎,机器学习和来去如今是一项"全场地的团队通顺":

物理工程类: 机械工程师、电气工程师、结构工程师、表情司理、建筑师(负责数据中心全人命周期的寻找、遐想、建造与运营)。

通用/专科软件工程: 除了高方法研究机科学配景的通用工程师,简街当今荒诞渴慕"全舰队/全集群范围优化(Fleet-wide Optimization)"的东说念主才(雷同于超大规模云干事商的架构师),因为当算力投资达到数十亿好意思元时,通用的细小优化将产生无数的财务讲述。

前沿硬件与数理研究: 遐想定制芯片(ASIC)的硬件工程师;诓骗数学讲授让软件更高效的"式样化方法(Formal Methods)"团队(AI 立异让这一冷门范围通宵回春);以及领少见学、物理、研究机配景的来去员。

高阶前端工程师: 当年简街突出顾惜号召行终局,假装 Web 网页时刻从未发生过。但当今为了给研究东说念主员提供更直不雅的 AI 用具、画出精确的直线和用具辅导,他们正在大举投资建设顶尖的前端开发团队。

以下为对谈全文,由AI扶持翻译:

Dwarkesh:

Jane Street 是我播客的配结伴伴,咱们猜测的一个真义点子是:为什么我不外来躬行参不雅一下你们运行的用于历练(AI模子)的数据中心呢?是以我刚刚在时刻团队共同负责东说念主 Yaron Minsky(译注:视频中口误及速记为 Ron Minsky)和物理工程团队负责东说念主 Dan Pavatova(译注:速记为 Dan Ponttovo)的率领下,参不雅了这个位于德克萨斯州的数据中心。突出感谢两位带我参不雅。值得一提的是,我以前从未去过这种地方,是以我亦然第一次参不雅,这太棒了。

以前我一直很困惑:既然你们需要在纳秒(nanosecond)级别进行来去,那你们奈何能作念 GPU 关联的事情呢?也许你们不错详备讲讲,你们来去的现及时期跨度(时限)是若何的?在作念出来去决策的过程中,你们能包袱得起运行大型模子的成本(或时期蔓延)吗?

Yaron:

我认为这里需要统一的中枢小数是,并莫得单一的时期跨度,而是存在着许多不同的时期跨度。咱们构建的一些来去系统和进行的某些来去,为了保持竞争力,你现实上必须在 100 纳秒以内处理并复返一个数据包。这是一个完全不同的时刻范围,对吧?

东说念主们有时会盘考,比如:"哦,你们能用 OCaml 编写高性能的东西吗?"咱们的复兴是:"咱们不错。但对于这种级别的速率,不管你是用 OCaml、Rust 如故 C++ 编写齐不要害,因为你压根无法使用 CPU。你必须使用 FPGA,它顺利通过导线逢迎到网罗上。你复返数据包的速率突出快,若是你在输入和输出的导线上逢迎一个示波器,你会看到数据包在被完全禁受完之前,就还是运行从输出端发出去了。"

是以这是一个突出不同、突出特殊的范围。但是,当你处于这个时期范围时,你现实上无法进行太多的研究,你所作念的决策将会突出大意。事实上,在决策的"机灵进程"(岂论是模子如故其他某种以至是手写的决策过程)与"复返速率"之间,存在着一条完整的权衡弧线。

而构建最好来去战略的正确方法,现实上是接收一种集成(ensemble)方法。对于某些类型的决策,你会突出飞快地作念出突出大意的决策;对于某些类型的决策,你的运作规模可能是——不再是探究 100 纳秒,也许是几微秒、几十微秒、几百微秒或毫秒;而在某些情况下,有些经过若是能在半小时或本日内完成决策复返,那也完全没问题,在这些时期跨度上,你在时期基础上相似具有竞争力。但在所有这个词这些不同的时期跨度上,你所作念的决策类型是完全不同的。

也许你未便清爽,但这些模子究竟在预测什么?详情不单是订单簿(order book)中的下一个变动吧,或者也许即是?

咱们当今显明是在触及一些很难公开挑剔的话题。但我认为最大意也最要害的一个,亦然咱们一直在念念考的——不仅是当今在想,25 年前我刚加入 Jane Street、用线性追思等用具构建模子时就在想——一个突出有用、突出经典的事情即是预测某样东西的公允价值(fair value)。比如,咱们认为这个东西真未必若干钱?这能够以一种突出可组合的方式融入到许多不同的来去经过中。这并不是咱们行为预测主见的独逐个类事物,但它是一个很要害的主见。

有一阵子,我嗅觉有一种对于来去公司在作念什么的梗(meme),那即是:你必须惩处干事器托管(colo),搬到纳斯达克来去所所在的地方,你的机器必须紧挨着那儿,这突出要害。

在不深入盘考咱们把什么东西放在那处的具体细节的前提下,你的推理(inference)过程可能在 CPU 上,可能在 FPGA 上,也可能在 GPU 上,这取决于你需要若干研究量、模子有多大、需要若何的蔓延复返等敛迹要求。

是的,更大、更慢的东西,你不错把它放得更远一些。把所有这个词的研究开导齐紧挨着来去所放弃是很令东说念主头疼的。而对于那些信得过极其快速的事物,只是待在托管机房里是不够的,你以至会关怀通往那里的线缆线圈有多长——在那种极低的纳秒级别下,你真的需要去测量光纤布线的长度。但总的来说,更大的模子在它们物理放弃的位置上给你带来了大得多的纯真性。

Dan:

若是咱们把 GPU 放在来去所傍边的这些托管方法中,当今你必须恪守他们的限定,你懂吧,是谁行为干事商为你提供阿谁空间。此外,你的电力、冷却,所有这个词这些敛迹要求当今可能齐比你我方遐想和运营的方法要略微更紧俏一些。是以,你当今必须想出一些办法,比如:"嘿,可能一个机架里我只可放一个 GPU,因为它破钞太多电了,是以我必须把它分散开来,而不是能够在一个机架里竣事高效的液冷。"是以跟着咱们的研究需求按捺增长,这些齐是咱们需要探究的事情。

你们最近与 CoreWeave(译注:速记错录为 core reef)签署了一项价值 60 亿好意思元的研究左券。嗯,你们狡计用它来作念什么?

AI 天下的其他范围有规模定律(scaling laws),咱们也有咱们的规模定律,有许多模子咱们齐想历练。我认为咱们与那些更传统的 AI 实验室之间真义且可能不同的小数在于,咱们模子架构的各样性以及咱们正在进行的实验数目。因此,你从中获取的大部分价值就在于,大家在模子遐想中尝试了多量突出不同的新事物,给研究东说念主员提供了更快的迭代时期,让他们能够发现更多的想法并股东更多的创新,这被讲授是极其要害的。

在那些基础模子实验室的情况下,历练一个能够作念所有这个词事情的、完全通用的单一模子是有刚正的,而不是构建一堆定制的不同模子。你能让我了解一下,为什么在 Jane Street 会有不同的权衡采选吗?

对咱们来说,某些专门化是为了能够适宜和破钞正确的数据类型,对吧?咱们不错喂进去的潜在数据源突出多。比如咱们在需要达到的数据速率上存在许多互异。

另一个让咱们需要对所作念的使命进行某些专门化的身分是,全体的推理和来去动态齐因"字节与浮点运算比率"(bytes to flop ratio)的不同而变得判然不同。咱们用来历练模子的数据量要大得多,但就单字节而言,这些信息量却比较少,因为金融数据噪声(noise)突出大。是的。因此,模子频频更小,而数据频频噪声更大、噪声更多,且数据量要大得多。

另外,咱们针对不同应用构建的不同模子之间亦然不一样的,对吧?当咱们试图找出"咱们该如何诓骗咱们获取的更多信息"时,就会触及到各样决策,从"咱们如何高效地存储和加载数据",到"咱们如何塑造模子",再到"咱们如何让推理过程具备它所需的朦拢量和蔓延"。这其中会有一整套判然不同的权衡。因此,去理清这些并为不同的应用挑选出最好决议,曲直常有价值的。

那你们的推理(inference)使命负载现实上是若何的,或者说,它与传统的那些作念大言语模子聊天机器东说念主的大公司比拟如何?

大体上说,正如你所预料的,蔓延更为要津。批处理(batching)仍然是一个问题,取决于你所作念的模子,你可能会有针对你所不雅察的不同来去代码(symbols)进行解耦/分散(disaggregated)的模子或模子的一部分。因此,从多个数据源拉取数据并将其打包批处理在沿途相似会产生影响。

我认为另一个真义的点是,数据速率真的突出高。在大型大言语模子实验室里,你从所有这个词不同用户那里获取的总体(团聚)数据速率也很高,但你从任何单一用户那里获取的序列数据量(sequential data)并不大;而当你拉取的数据是来自纳斯达克行情馈遗(NASDAQ feed)的字节时,天哪,在单一范围内需要以因果前后接踵的方式进行序列化破钞的数据速率极高。是以再次强调,这里的动态发生了改变。不外我认为,许多雷同的基础工程问题其实大同小异,只是所有这个词的常量齐被微调到了不同的位置,因此你最终作念出了不同的选拔。

这意味着在你们必须如何遐想这些系统方面,岂论是从存储如故其他方面来看,有什么具体体现?

是的,我认为与你平庸看到的比拟,咱们对数据加载性能的关注度更高。我想咱们正在作念多量使命来构建咱们我方的大规模数据存储系统,咱们我方的里面对象存储(object store)。咱们之前使用过各样供应商的家具,但跟着时期的推移,我认为对于其中一些以研究为导向的用例,咱们需要在更大的规模下运行,还需要搪塞数据中心的各样性。

对吧?这不太是一个推理时的问题,而更多是一个历练时的问题——也即是说,咱们即是无法在吞并个地方获取咱们想要的所有这个词研究资源。我不知说念,我认为总的来说,有用运营一个时刻组织的一个要害法门即是去弄明晰你不错走哪些捷径。

咱们多年来很红运能够走的一个捷径是,咱们不错假装这个星球上只须一种 CPU 架构,比如所有这个词东西齐是针对 x86_64 的,咱们假装其他任何东西齐不存在,这简化了许多事情。咱们还曾领有一个大型的研究数据中心和一个大型的存储集群,这也极地面简化了许多事情。

而现实上,这两点当今齐已被冲破了。比如,你即是无法获取那么大的电力,你无法在吞并个数据中心里接入足够多的电力引入(译注:此处 Yaron 幽默地用了"thunderbolts/雷电"一词指代极高电力)来为你所需的所有这个词事物供电,你需要把数据中心建谢天下各地。是以这里存在一个深广的去中心化/分散(disaggregation)问题,这也给你带来了一个难题,比如:哦,当今你必须探究让你的研究退换和存储退换精采交汇在沿途。而且有海量的数据,因此在它们之间移动这些数据绝非易事。

另外,咱们也不得不抛弃"仅限 x86"的作念法,因为英伟达推出了一系列酷炫的新家具,这意味着你当今必须赈济 ARM 架构了。

放大视角,我想问一个突出天真的问题。可能会有一种天真的看法,认为若是你领有了通用东说念主工智能(AGI),它就能坐窝作念 Jane Street 所作念的事情。请让我了解一下,为什么这种天真的看法是天真的?

是的,我不想完全含糊它。如实有这样一种天下气候是咱们需要寂静对待的:也即是咱们将构建出大言语模子或其他东说念主工智能系统,它们在严格真义上比地球上的所有这个词东说念主类齐更机灵,在所有这个词领略任务上齐更有才气。是的,那将会很不可念念议,那将是一种完全不同的情景。在那种情况下,如实,Jane Street 所作念的很大一部分事情可能会被自动化取代,也许咱们大家齐会坐享其功,多喝点玛格丽特鸡尾酒之类的,我不知说念阿谁天下会是什么式样。但嗅觉咱们当今距离阿谁阶段还不是特别近。

我认为总的来说,东说念主们很容易低估这项使命的丰富性和复杂性,不仅是像 Jane Street 这样的公司所作念的使命,现实上在职何信得过有贪心、高难度的公司级任务中齐是如斯。我尤其认为,来去对我来说有点像"AGI 完全"(AGI-complete)问题,雷同于"NP 完全"(NP-complete)问题。

这意味着天下上所有这个词不同的问题最终齐会在来去配景下影响你正在作念的事情,因为归根结底,来去触及弄明晰事物的价值,这意味着对翌日作念出预测,而许多不同的事情齐会汇入其中。跟着其中的各个部分被冉冉自动化,你就会碰到常见的情况:那些咱们还不知说念如何很好地自动化的其他繁难部分,最终成为了竞争上风之所在。

我认为东说念主类和东说念主类的领略比以往任何时候齐更有价值。我从来莫得像今天这样进击地想要招聘更多的工程师和来去员,因为东说念主们所作念的每一件事齐比当年更有价值。我的真义是,这在一定进程上是因为我持有一些怀疑气派,不认为咱们距离在所有这个词事情上齐比东说念主类机灵的模子像某些东说念主设想的那么近。

也许这触及到物理基础方法,比如现实惩处托管机房;也许现实上是你们构建的软件基础方法。能让我了解一下到底是什么东西会……

是的,咱们构建了各样各样极其复杂的软件,让东说念主们去念念考许多不同的来去问题,其中一些问题压根不奈何电子化。这个业务的各样性远比东说念主们以为的要丰富得多。有一种想法是:"哦,对,那详情是一件很大意的事,你只须有一群机灵的东说念主,他们作念出机灵的决策,写出优质的软件就行了。若是咱们能把机灵这部分自动化,那就万事大吉了。"但我认为事情要比这复杂得多。

你所说的来去中"非电子化"的部分是指什么?

我的真义是,当今仍然有通过聊天用具在东说念主与东说念主之间进行沟通、共同决策并完成的来去。比如有东说念主会去评估电话那头的东说念主代表了多猛进程的逆向选拔(adverse selection),这依然是业务中突出真的的一部分。

你知说念,九游体育(NineGameSports)官网即是有不同种类的证券需要更长的时期才能竣事更高进程的自动化。举例,债券业务的自动化进程就远不足你在股票业务中看到的水平。现实上,咱们对此也有点困惑。我认为咱们这些在行业里待了一段时期的东说念主,天然我运行得有点晚,没能信得过见证股票走向电子化的转型过程,但那些比我关注得早小数的东说念主会认为:"行吧,我猜其他所有这个词范围接下来也会这样。"

但是,你懂的,还是当年了 25 到 30 年,并不是所有这个词事情齐走向了阿谁标的。天然咱们当今还是不奈何看到有许多东说念主站在来去所大厅里了,但依然有多量的来去深度依赖于东说念主类以及东说念主类的判断行为中介。

说到这个,在模子和来去决策之间,东说念主类参与(humans-in-the-loop)的进程有多高?

你们许多最收成的日子频频发生在一些奇怪的事情发生、出现要害事件、天下变得荒诞、没东说念主知说念发生了什么的时候。在那些情况下提供流动性频频极其繁难,是以你为此获取的薪金也更高,而且在那些日子里平庸会有深广的来去量。要把这些作念好,频频需要东说念主类的判断力,去念念考"今天与以往所有这个词日子有什么不同?"

天然在可能的范围内,咱们但愿构建能够很好搪塞相变(phase transitions)的模子,但咱们也认为,东说念主类在搪塞相变时比模子确认得更好,有时你需要这种元判断(meta judgment)来决定该奈何作念。因此,即使对于高度自动化的系统,也需要负责监控的东说念主员作念出决策,而咱们弥远齐有东说念主在进行监控,对吧?我认为来去中一个要害的部分是在来去日内去关注和念念考正在发生的事情,即使个别来去的发生速率远远快到东说念主类无法在单笔来去的基础上进行干与。

Dan,在你从事这类建筑(数据中心)使命的当年 20 年里,最权贵的变化是什么?

是啊,东说念主们当今竟然真的运行关怀数据中心了,况且想要聊聊它。你知说念,我作念冷却系统还是有一段时期了,当今一弹指顷大家齐运行盘考它,认为它很真义。是以这挺好玩的,很让东说念主抖擞,我想我团队里的东说念主也有同感。

有些在数据中心行业干了 20 年的东说念主,仍然想用当年的方式去作念事,但我认为这种老方法当今正在被淘汰。你会发现大家正在挑战以前的不雅念,比如:"嘿,我的所有这个词这个词数据中心齐有发电机行为后备电源,但发电机是你能买到的交货周期(lead time)最长的开导之一。是以也许咱们把它们拿掉,只把发电机用于需要这种弹性的系统中枢部分。这能让咱们的 GPU 提早六个月上线,那就干吧!"是以,你知说念,有些事情也许从纯工程角度看不是最好的决定,但它完全是最好的业务决定。我认为雷同这样的事情正在越来越多地出现。

嗅觉每年东说念主们在扩大 AI 研究规模时碰到的瓶颈齐在发生变化。在你们进行更多谈判并试图获取更多研究资源的过程中,抛开研究、内存和所有这个词那些好玩的东西不谈,面前的瓶颈是什么?你瞻望翌日的瓶颈会是什么?

发电机、变压器,还有一些面前用于液冷的冷却开导,需求量齐突出大。而且它变化得很快,我今天告诉你的情况,两周后详情就不一样了。

咱们作念的一件事是,与里面的采购团队突出精采地配合,去囤积其中的一些物质。对于那些咱们知说念在所少见据中心之间齐不错通用的物质,咱们会进行仓储并随时准备使用。但像发电机这样的部件,你不可能把一个深广的发电机放进平日的仓库里;或者,举例若是你在作念像涡轮机(turbine)这样"表后"(behind-the-meter)的表情,你就必须对这些商场多作念一些念念考——你从那处获取它们,在何处进行安置,你不可随决然便把它们搁在一边。

是以,我认为紧缺的部件详情是会变化的,刚才提到的即是其中一些大件。而且,跟着咱们的密度越来越高,一个但愿是建筑不错变得略细小小数,也许咱们能够更快地把建筑盖好,把所有这个词的研究资源紧凑地系缚在沿途,然后周围的所有这个词基础方法可能齐是预制好并输送到现场的。没错,模块化数据中心或模块化基础方法正在变得越来越普遍,这些组件(尤其是那些长交货周期的组件)在场外进行遐想和建造,然后运到现场,尽可能地接近"即插即用"(plug-and-play)。

你之前提到的一个不雅点是,跟着机架自身的密度越来越高,数据中心里越来越多的部分其实是围绕现实机架周围的基础方法。这现实上有点雷同于芯片上的封装(package),对吧?或者说封装上的芯片。研究中枢只占所有这个词这个词封装总面积的极小一部分。

是的,这很故真义。我的真义是,这自身并不可解决任何问题,反而可能会带来其他问题,天然。比如,当你达到单机架 1 兆瓦(megawatt)的水平时,大家会问:"单机架 1 兆瓦到底是什么见地?"你接入那里的冷却管说念只会变得越来越粗。而且,岂论咱们当今使用的是交流电(AC),如故翌日的趋势——800 伏直流电(DC),你仍然必须把所有这个词这些组件带到吞并个地方。

从咱们的角度来看,真义的小数是,天然咱们不错遐想这些工程上的东西,但归根结底,岂论是英伟达、定制芯片(ASIC)公司如故其他任何东说念主,他们齐必须销售能够在数据中心运行的组件,而且他们也在突出寂静地念念考他们要卖什么,因为你需要东说念主们能够用得上它,对吧?若是你建造了一个 1 兆瓦的数据中心或 1 兆瓦的机架,但却莫得办法为其供电和冷却,那就绝不必处。是以咱们正在与该范围的险些所有这个词东说念主开展突出精采的配合,去念念考你需要哪些组件才能赈济这些下一代家具。因为你所说的交货周期有时会跳动一年,而你频频是在为芯片下订单之前就得对基础方法作念出决定。

是以,比如你得尝试……你知说念谷歌的 TPU,它们使用温度更低的水,而且它们的密度只须英伟达 NVL72(译注:此处速记错录为 NBL72 GP300,现实逢迎高下文应为英伟达的 NVL72 架构配 GB200 芯片)的一半。对吧?是以这需要不同的战略,而你必须确保翌日能够兼容处理这些开导。

超大规模云干事商(hyperscalers)之是以能够高兴参加海量的研究资源,原因之一是他们对闲置研究资源有一些"备用用途"(reserve use),不错在特定时期不消于大言语模子历练或推理时派上用场。举例,像 Meta 这样的公司,若是他们买的某些 GPU 没在用,他们不错顺利说:"咱们今天就把 Instagram 的告白投放模子作念得略微好小数。"那么对于 Jane Street 来说,有什么平等的研究资源备用用途吗?这不错说是这些研究资源对你们价值的底线。

部分原因在于,咱们在许多方面其实濒临着突出严重的研究资源受限。东说念主们领有的多量创新、实验和新想法齐受限于咱们所领有的研究量。是以从某种真义上说,若是咱们略微严格地去评估一下咱们能够运行的那些不同新任务的价值,会发现那些咱们不得按捺绝的任务的价值现实上曲直常高的。对吧?是以咱们正在作念咱们认为最有价值的事情,但若是事实讲授咱们领有的研究资源超出了这些任务所需,那么在阿谁范围还有海量的其他研究和实验不错作念。是以咱们还远远莫得到说"噢,研究资源太多了"的地步,咱们反而是碰到了相背的问题。

我认为在这个方朝上也有许多"低落的果实"(low-hanging fruit,容易竣事的恶果),比如更频频地再行历练模子即是很有价值的。跟着时期的推移,模子的质料会有所衰退,而能够再走时行它们——这对公司具有顺利且明确的价值。此外,咱们还不错践诺一定数目的多量(bulk)推理任务,当系统中莫得其他可退换的任务时,不错用它们来填补空缺。因此,咱们并莫得完全雷同于 Instagram 告白投放那样的应用,但如实存在一大片"盲区/未知空间(dark space)",即那些咱们没在作念、但若是有了更多研究资源就会去作念的事情。是以咱们突出不惦记无法从这些开导中榨取价值。

这里面如实有一系列的隐性下注(embedded bets),比如咱们正在这些东西上参加巨资,你不错设想,有些事情的发展速率可能不会像咱们预期的那么快,比如咱们正在运行的各个模子和来去所产生的价值;而且这是一个竞争热烈的环境,也许其他东说念主会打败咱们。我认为保持优秀的要素之一,即是弥远对竞争敌手可能摸索出与你雷同的作念法并镌汰你的业务价值而感到垂死。是以,如实有可能出现一些并不胜仗的情况。但显明,以咱们面前现存的研究任务组合来看,咱们距离碰到"算力满盈"这个问题还突出远方。

这很故真义,天然这莫得完全复兴问题,但你不错把"为数据中心供电"与"购买芯片"剥离开来,然后说:"好吧,我以后可能会需要使用这些研究资源,让我当今先锁定数据中心和电力资源,但推迟对突出崇高的芯片作念出采购决策。"对吧?在阿谁你可能需要研究资源的时期节点上,先让我方处于电力和数据中心容量略微"作念多"(long,充裕)的情景。然后咱们不错遐想一些机制,比如:嘿,也许咱们不错把其中一部分容量分流(offload)给其他东说念主。出于了然于目的原因,对咱们来说,分流电力和数据中心容量要比分流芯片自身容易得多,但你如实不错将这两者廓清地一分为二。

这也改变了对于招聘的考量。我是说,你们招聘的门槛还是高到极致了,但这会让它进一步进步。若是你多招一个东说念主,那这个东说念主就需要研究资源来作念实验,而这部分研究资源将不得不与你团队中其他相似优秀、本不错我方作念实验的东说念主进行权衡和采选。

我确认你的真义,但咱们不会去想:"噢,再招更多研究东说念主员会很奇怪,因为那样咱们就必须给他们更多的研究资源。"相背,咱们的逻辑是:研究自身极其有价值,研究东说念主员也极其有价值,这反而是购买更多研究资源的一个绝佳原理。

因此,咱们突出有能源去扩大研究规模。比如面前,咱们的 GPU 数目简陋在几万张的范围内,而在不久的将来,咱们将达到几十万张 GPU 的规模。咱们认为这完全不错由业务效益来讲授其合感性。你知说念,这并不是说咱们会在那里惦记:"哦,咱们能不可把柄来去战略的损益(P&L)来讲授它的合感性呢?"不,不,不,这显明是很好的投资。是以在招聘方面,这并不会让咱们减速脚步。

在某些方面,增长的最大破裂在于需要时期去信得过培训新东说念主、让他们融入咱们的文化、随同他们成长并共同建设这个地方。咱们但愿 Jane Street 不竭成为一个伟大的使命场面。我完全不认为硬件问题是破裂咱们发展的身分,我认为信得过的收尾身分是寻找优秀的东说念主才,以及咱们对他们的导师调换才气(mentorship capacity)。

我猜这可能是一个很好的契机,让你们提一下你们面前正在招聘哪些类型的职位?

天哪,那 Dan,你要不要先从工程范围运行聊聊?

好的,我先来。我的真义是,总的来说,咱们即是在寻找突出机灵、对作念这些事热诚意思意思的东说念主。这包括机械工程师、电气工程师、表情司理、建筑师——也即是匡助遐想和建造其中一些空间的东说念主。你知说念,我团队的职责现实上是寻找这些空间、进行遐想、建造,然后去运营它们,这是一个全人命周期(full life cycle)。是以在每个阶段你齐需要东说念主才。你需要许多工程师,许多咱们称之为"物理工程"(physical engineering)范围的东说念主,这是咱们我方发明的一个词。但具体来说即是机械工程师、结构工程师,可能还有电气工程师这类东说念主才。

而且机器学习和所有这个词这个词来去行业其实突出像一项团队通顺,是以咱们但愿招聘来自许多不同配景、领有许多不同才气的东说念主才。咱们天然突出抖擞能招到一些领有特定机器学习配景的东说念主,比如从事架构遐想和在各样情况下构建模子的东说念主。就像我提到的,咱们针对我方特有的、商场特征所需的数据,领有一大堆定制的架构等。此外,咱们也构建大言语模子(LLM),咱们对在 LLM 历练人命周期的各个阶段有申饬的东说念主齐突出感意思意思,况且一直在扩大这个范围的规模。

你知说念,咱们招募了多量领有讲求科学和时刻配景的东说念主——比如数学、研究机科学(CS)、物理、工程等专科——来作念来去员。这需要一种概述性的技巧。但这是咱们持续突出抖擞去招东说念主的一个范围。

在软件工程方面,有一个通用的软件工程师职位,咱们老是渴慕招到优秀的东说念主才。我认为这能带来很好的讲述。天然提及来有点傻,但正如 Dan 所说,机灵、充心仪思意思心且领有极佳研究机科学配景的东说念主,突出符合这个通用职位的变装,他们最终不错作念许多不同类型的事情。

还有许多真义的专科范围也让咱们突出抖擞,举例有件相等新的事情:跟着如今算力规模的发展,咱们对全集群/全舰队范围的优化(fleet-wide optimization)比当年感意思意思得多。咱们以前对性能优化的看法是,它更多是对于让那些对速率最要津(speed-critical)的部分尽可能地快,而更普遍的情况是,算力挺低廉的,而东说念主力很贵,是以咱们并不会花太多时期去优化咱们的通用研究。但是,天哪,咱们当今正在进行海量的通用研究,当你运行在这个范围投资数十亿好意思元时,优化就变得更有价值了。有些东说念主曾在某些超大规模云干事商(hyperscalers)那里有过这方面的申饬,咱们突出但愿招到更多具有这种配景的东说念主,来念念考咱们正在碰到的优化问题。这些问题有重迭之处,但在要害方面又有所不同,是以这既是一个关联的挑战,亦然一个新的挑战。

另外,咱们还作念许多真义的硬件工程使命,比如遐想咱们我方的定制芯片(ASICs),领有这种申饬的东说念主相似让咱们感到超等抖擞。

还有一件事,咱们刚才吃午饭时提到过,咱们运行探究建设一个式样化方法(formal methods)团队,基本上是诓骗数学讲授来让软件工程变得更有用率。这是一个突出新、极具探索性(speculative)的范围,咱们突出抖擞能在那里找到东说念主才。我认为这是一所有这个词这个词群体的东说念主,在当年我总不得不让他们失望,对他们说:"是的,咱们对式样化方法不感意思意思。"但由于所有这个词这个词东说念主工智能立异,式样化方法已而形成了一个真义得多的范围,是以这是咱们很抖擞去投资的地方。

另外,我也不知说念,比如表情司理、作念前端开发(front-end dev)的东说念主。事实上,在 Jane Street 的大部分发展历程中,咱们齐假装这整套 Web 网页时刻从未发生过,咱们险些所有这个词的用具齐只是在终局(terminal)里运行。但事实讲授,若是能画一条直线,或者有一个用具辅导(tool tip)之类的内容,曲直常有用的。是以咱们现实上参加了多量资源来构建突出出色的前端开发用具,并为东说念主们打造用具。领有特出的前端工程师——他们既是优秀的软件工程师,又对"如何制作一款对用户友好的应用"有很好的统一——这曲直常要害的。

对于所有这个词这些,我想说一个总体的、更高维度的不雅点(meta point):我认为,在现时围绕 AI 用具的所有这个词合理且真的的抖擞中,东说念主们有时会残暴这一切当中"东说念主的身分"(human element)的要害性。咱们真的突出垂青构建对东说念主类故意的用具,这也包括 AI 用具自身,对吧?我认为,以一种能够进步手类统一力、能动性(agency)和效力的方式去股东用具的发展,才是最中枢的事情。收尾咱们发展的最主要身分,莫过于在这里使命的特出东说念主才,以及能否找到更多合适的东说念主并扩大组织规模,从而让咱们能作念更多的事情。因此,在念念考咱们所构建的系统时,咱们接收了一种突出以东说念主为本(human-oriented)的方式。

看你们制作这些真义的谜题和挑战真的很酷。我认为你们平时就在这样作念,而且你们还专门为咱们播客的听众制作了几个。我认为在听这期内容的听众可能会对去望望这些谜题很感意思意思。趁机说一句,其中有一个谜题,不仅提交参加竞赛的东说念主里莫得一个能解出来,连 Jane Street 我方也解不出来。阿谁谜题触及寻找各样内置了触发词(trigger phrase)的大言语模子的后门。不管奈何说,我提到这小数是因为,若是大家有意思意思深入了解,我认为这些真义的谜题可能会在一定进程上展现出在这里使命是什么式样的,以及为什么这里是一个真义的地方。

是的,谜题是咱们文化中树大根深的一部分,是以用它们行为一种与大家建设量度的方式真的很棒。

太好了,感谢两位参与此次对话。

Yaron & Dan: 突出感谢九游体育(NineGameSports)官网,咱们的幸运。