NVIDIA and the battle for the future of AI chips
ゲーム向けのGPUを作っていた NVIDIA が、どうやって AI の分野で No.1 のポジションについたのかについての解説に加え、最近増えて来た「AI専用チップ」ベンチャーがどんなポジショニングでこの市場に食い込もうとしているかを、それぞれの立場から語らせている読み応えのある記事です。
GPUは行列計算が得意なので、大量の行列計算が必要な深層学習を高速化するのに的していますが、元々がグラフィックス用に作られているため無駄も多く、Google の TPU のように深層学習に最適化して作られたチップには、消費電力あたりの性能では負けるとされています。
NVIDIAは、そのギャップをソフトウェアで上手に埋めることにより、No.1. の位置を占め続けていますが、それが永遠に続く保証はありません。
最近、注目されているのは、エッジコンピューティングと呼ばれる端末側での人工知能の活用で、ここに関しては、まだ勝負がついたわけではなく、NVIDIAによるARMの買収が大きな影響を与える可能性は否定出来ません。だからこそ、NVIDIAにARMを買収させてはいけないとする意見もあり、米国やヨーロッパ政府がどう判断するかで、この業界の未来の姿は大きく変わります。
引用 週刊 Life is Beautiful 2021年6月29日号
中島さんのメルマガはおすすめなので、登録してみて下さい。
記事の内容
NVIDIA’s GPUs dominate AI chips. But a raft of startups say new architecture is needed for the fast-evolving AI field
THERE’S AN APOCRYPHAL story about how NVIDIA pivoted from games and graphics hardware to dominate AI chips – and it involves cats. Back in 2010, Bill Dally, now chief scientist at NVIDIA, was having breakfast with a former colleague from Stanford University, the computer scientist Andrew Ng, who was working on a project with Google. “He was trying to find cats on the internet – he didn’t put it that way, but that’s what he was doing,” Dally says.
Ng was working at the Google X lab on a project to build a neural network that could learn on its own. The neural network was shown ten million YouTube videos and learned how to pick out human faces, bodies and cats – but to do so accurately, the system required thousands of CPUs (central processing units), the workhorse processors that power computers. “I said, ‘I bet we could do it with just a few GPUs,’” Dally says. GPUs (graphics processing units) are specialised for more intense workloads such as 3D rendering – and that makes them better than CPUs at powering AI.
Dally turned to Bryan Catanzaro, who now leads deep learning research at NVIDIA, to make it happen. And he did – with just 12 GPUs – proving that the parallel processing offered by GPUs was faster and more efficient at training Ng’s cat-recognition model than CPUs.
But Catanzaro wants it known that NVIDIA didn’t begin its efforts with AI just because of that chance breakfast. Indeed, he had been developing GPUs for AI while still a grad student at Berkeley, before joining NVIDIA in 2008. “NVIDIA’s position in this market is not an accident,” he says.
The when and how of it all seems unimportant now that NVIDIA dominates AI chips. Co-founded in 1993 by CEO Jensen Huang, NVIDIA’s major revenue stream is still graphics and gaming, but for the last financial year its sales of GPUs for use in data centres climbed to $6.7 billion.
In 2019, NVIDIA GPUs were deployed in 97.4 per cent of AI accelerator instances – hardware used to boost processing speeds – at the top four cloud providers: AWS, Google, Alibaba and Azure. It commands “nearly 100 per cent” of the market for training AI algorithms, says Karl Freund, analyst at Cambrian AI Research. Nearly 70 per cent of the top 500 supercomputers use its GPUs. Virtually all AI milestones have happened on NVIDIA hardware. Ng’s YouTube cat finder, DeepMind’s board game champion AlphaGo, OpenAI’s language prediction model GPT-3 all run on NVIDIA hardware. It’s the ground AI researchers stand upon.
Despite this success, Catanzaro is annoyed by the persistent suggestion that NVIDIA stumbled blindly into AI from gaming. “I swear, pretty much every story that I read, the narrative is that GPUs randomly happen to be excellent at AI, and NVIDIA lucked into a temporary windfall by selling existing chips to a new market, and soon they’re going to be displaced by startups,” Catanzaro says. “But NVIDIA has been very strategic about how it approaches the AI market for a decade now.”
A decade in, that market is ripe for disruption. AI is beginning to be used by more and more businesses to make sense of the oceans of data they collect, while governments pump money into deep learning research to keep ahead of one another. The race between the US and China is particularly hot; Deloitte analyst Costi Perricos says AI will become the “next kind of superpower” for nations to compete over. At the same time, deep learning models are increasing in size and complexity, requiring ever more computing power.
MACHINE LEARNING IS a computing workload unlike any other, requiring a lot of maths using not very precise figures. Traditional high-performance computing (HPC), where multiple systems are linked together to build supercomputers to process complex workloads such as scientific simulations or financial modelling, requires high-precision maths, using 64-bit numbers if not higher. AI computing also requires massive computing infrastructure, but the maths used is less precise, with numbers that are16-bit or even 8-bit – it’s akin to the difference between hyper-realistic graphics and pixelated games from the 80s. “The math is mostly easy, but there’s a lot of it,” says Andrew Feldman, CEO of AI chip startup Cerebras.
An AI chip is any processor that has been optimised to run machine learning workloads, via programming frameworks such as Google’s TensorFlow and Facebook’s PyTorch. AI chips don’t necessarily do all the work when training or running a deep-learning model, but operate as accelerators by quickly churning through the most intense workloads. For example, NVIDIA’s AI-system-in-a-box, the DGX A100, uses eight of its own A100 “Ampere” GPUs as accelerators, but also features a 128-core AMD CPU.
AI isn’t new, but we previously lacked the computing power to make deep learning models possible, leaving researchers waiting on the hardware to catch up to their ideas. “GPUs came in and opened the doors,” says Rodrigo Liang, co-founder and CEO of SambaNova, another startup making AI chips.
In 2012, a researcher at the University of Toronto, Alex Krizhevsky, walloped other competitors in the annual ImageNet computer vision challenge, which pits researchers against each other to develop algorithms that can identify images or objects within them. Krizhevsky used deep learning powered by GPUs to beat hand-coded efforts for the first time. By 2015, all the top results at ImageNet contests were using GPUs.
Deep learning research exploded. Offering 20x or more performance boosts, NVIDIA’s technology worked so well that when British chip startup Graphcore’s co-founders set up shop, they couldn’t get a meeting with investors. “What we heard from VCs was: ‘what’s AI?’” says co-founder and CTO Simon Knowles, recalling a trip to California to seek funding in 2015. “It was really surprising.” A few months later, at the beginning of 2016, that had all changed. “Then, everyone was hot for AI,” Knowles says. “However, they were not hot for chips.” A new chip architecture wasn’t deemed necessary; NVIDIA had the industry covered.
But, in May 2016, Google changed everything, with what Cerebras’ Feldman calls a “swashbuckling strategic decision”, announcing it had developed its own chips for AI applications. These were called Tensor Processing Units (TPUs), and designed to work with the company’s TensorFlow machine learning programming framework. Knowles says the move sent a signal to investors that perhaps there was a market for new processor designs. “Suddenly all the VCs were like: where are those crazy Brits?” he says. Since then, Graphcore has raised $710 million (£515 million).
NVIDIA’s rivals argue that GPUs were designed for graphics rather than machine learning, and that though their massive processing capabilities mean they work better than CPUs for AI tasks, their market dominance has only lasted this long due to careful optimisation and complex layers of software. “NVIDIA has done a fabulous job hiding the complexity of a GPU,” says Graphcore co-founder and CEO Nigel Toon. “It works because of the software libraries they’ve created, the frameworks and the optimisations that allow the complexity to be hidden. It’s a really heavy lifting job that NVIDIA has undertaken there.”
But forget GPUs, the argument goes, and you might design an AI chip from scratch that has an entirely new architecture. There are plenty to choose from. Google’s TPUs are application-specific integrated circuits (ASICs), designed for specific workloads; Cerebras makes a Wafer-Scale Engine, a behemoth chip 56 times larger than any other; IBM and BrainChip make neuromorphic chips, modelled on the human brain; and Mythic and Graphcore both make Intelligence Processing Units (IPU), though their designs differ. There are plenty more.
But Catanzaro argues the many chips are simply variations of AI accelerators – the name given to any hardware that boosts AI. “We talk about a GPU or TPU or an IPU or whatever, but people get too attached to those letters,” he says. “We call our GPU that because of the history of what we’ve done… but the GPU has always been about accelerated computing, and the nature of the workloads people care about is in flux.”
Can anyone compete? NVIDIA dominates the core benchmark, MLPerf, which is the gold standard for deep-learning chips, though benchmarks are tricky beasts. Analyst Karl Freund of Cambrian AI Research notes that MLPerf, a benchmarking tool designed by academics and industry players including Google, is dominated by Google and NVIDIA, but that startups usually don’t bother to complete all of it because the costs of setting up a system are better spent elsewhere.
NVIDIA does bother – and annually bests Google’s TPU. “Google invented MLPerf to show how good their TPU was,” says Marc Hamilton, head of solutions architecture and engineering at NVIDIA “Jensen [Huang] said it would be really nice if we show Google every time they ran the MLPerf benchmark how our GPUs were just a little bit faster than the TPU.”
To ensure it came out on top for one version of the benchmark, NVIDIA upgraded an in-house supercomputer from 36 DGX boxes to a whopping 96. That required recabling the entire system. To do it quickly enough, they simply cut through the cables – which Hamilton says was about a million dollars worth of kit – and had new equipment shipped in. This may serve to highlight the bonkers behaviour driven by benchmarks, but it also inspired a redesign of DGX: the current-generation blocks can now be combined in groups of 20 without any rewiring.
When it comes to benchmarks and supercomputers, you can always add more chips. But for the other side of AI computing – something called inference at the edge – it’s a different story.
NVIDIA GRABBED THE world’s attention in 2020 when it bid $40 billion for ARM, the British chip designer whose architecture powers 95 per cent of the world’s smartphones. But the response wasn’t entirely positive. ARM co-founder Hermann Hauser, who no longer works at the company but still retains shares, has called it a “disaster” that may destroy ARM’s neutrality in the market. Regulators around the world – in the EU, UK, China and US – are closely studying the deal.
ARM designs chips, licensing the intellectual property out to companies to use as they see fit. If an AI chip maker needs a CPU for a system, they can license a chip design from ARM and have it made to their specifications. Rivals are concerned that NVIDIA taking control of ARM could limit those partnerships, though Huang has said “unequivocally” that NVIDIA would respect ARM’s open model. The UK government is reportedly considering any national security implications, though ARM is currently owned by Japan’s SoftBank, and there are concerns in China that ARM being owned by an American company could mean its designs are banned from export to blacklisted Chinese companies under existing restrictions.
ARM is a major designer of the chips that will apply deep learning in the real world – so-called inference at the edge. This means the deal could have a huge impact on the shape of the market; NVIDIA could dominate the data centre side with its GPUs and the edge with help from ARM.
What is inference at the edge? NVIDIA’s beefy, high-performance systems churn through data in order to train and apply models, but there’s another AI workload known as inference, which is the more lightweight task of using a trained model to then interpret something – such as a driverless car understanding what its cameras see, a smartphone app finding the edges of your face to apply cat ears to your selfie, or a medical imaging model spotting signs of cancer in a scan. Because of the huge amounts of computing power required, training is done in a data centre, but inference can be found in two places.
The first is also in the data centre: when you ask Alexa or Siri a question, it’s sent back to servers at Amazon and Apple for transcription and a response. The second place inference happens is in end-user devices, such as cameras, cars and smartphones – this is called edge computing. This requires less processing power, but it needs to be fast (no one wants to wait for their driverless car to think before deciding whether to brake).
NVIDIA currently dominates the data centre side. Its A100 churns through data for training, while inference is virtualised into smaller mini-servers, allowing 50 or more inference workloads to happen at the same time on the same hardware. That’s helpful for tech giants like AWS that offer AI as a service, as multiple companies can use the same hardware without risk of data leaking. At the edge, NVIDIA has DRIVE for driverless cars and EGX for on-location inference, but low-power chips aren’t its traditional speciality – if you’ve ever used a gaming laptop, you’ll have noticed it needs to be plugged in more regularly than a Chromebook. Low-power chips are the domain of ARM, which is why NVIDIA has dropped $40 billion to acquire the company.
When it comes to AI, ARM’s efforts centre on two areas. First, it is fitting software frameworks onto its existing CPUs. For more intense workloads, it has developed a neural processing unit (NPU) called Ethos to be used as an accelerator. Rene Haas, president of ARM’s IP Products Group, says that devices using the Ethos-U55 should be arriving soon, as companies that licensed the design already have silicon produced.
With AI on the edge, voice assistants would no longer need to upload speech to AWS or Apple servers for processing, but could respond based on local intelligence. “It allows the work to be done close to the source, which helps in many ways in terms of efficiency,” Haas says, noting that sending data back and forth to the cloud chews through battery power.
“We’ve talked about IoT for a long time, but the vision’s never been realised until now,” says David Hogan, vice-president of EMEA at NVIDIA. “It’s this transformation that’s at the heart of our plans to acquire ARM.”
WHILE THE REST of us baked banana bread and binged Netflix, Marc Hamilton, head of solutions architecture and engineering at NVIDIA, spent much of the last year building a £40 million supercomputer, navigating shortages caused by the pandemic to assemble the Cambridge-1 mostly on time. The build was made easier by NVIDIA’s LEGO-style system. Eight A100 chips make up the heart of the computing system it calls DGX – it’s the same relationship between the Intel or AMD chip running your laptop. Costing $199,000, the DGX is a full AI computer, with memory and networking and everything else, designed to be relatively plug-and-play. Cambridge-1 consists of racks upon racks of gold boxes in premade sets of 20 DGXs, known as a SuperPod.
Cambridge-1 will be the largest and most powerful AI supercomputer in the UK, and about 30th in the world, Hamilton says (though that ranking is likely to shift) – but it will only be the fifth largest in NVIDIA’s own collection. Cambridge-1 was built using 80 DGX A100 boxes versus 560 for Selene, its largest.
NVIDIA built Cambridge-1 in the UK partially because of the ARM acquisition, as the buyout would mean the company gained employees in the UK. While it’s not the overall fastest nor the biggest, Cambridge-1 claims two firsts. Hamilton calls it the world’s first cloud-native supercomputer, as it features compartmentalisation akin to AWS, letting companies use the same hardware without risk of security breaches or data leaking. And that lets Cambridge-1 have its second first: this is the only supercomputer that NVIDIA will open up to external partners, letting universities and healthcare giants AstraZeneca, Oxford Nanopore and GSK run their own deep learning models.
Why does NVIDIA build its own supercomputers? One reason is that it needs toys to attract the best people. Back in 2016, NVIDIA didn’t have a supercomputer, and Facebook and Google were snapping up the best AI researchers. “It’s not because they pay them more,” Hamilton says. “It’s because Google and Facebook have thousands of GPUs that they use to run their business, and they make those accessible to their AI researchers.”
NVIDIA and the battle for the future of AI chips
SUN LEE
SambaNova Systems’ software-defined approach puts data to the fore, replacing integers such as add and subtract with instructions to filter and reduce. SambaNova calls its design a reconfigurable dataflow, and that’s achieved with 1.5TB of memory per “Cardinal” chip, with eight of those in each of its DataScale SN10-8R systems.
Now, NVIDIA’s supercomputer Selene is fifth largest in the world, after one in Japan, one in China and two owned by the US government. That means, Hamilton says, that if you’re a researcher who wants access to the fastest AI hardware, you can work for China, the US, or NVIDIA. China aims to be a global leader in AI by 2030, while the US wants to maintain its lead in the technology; there was already tension on the AI front, but the recent trade war between the two countries may turn it into something of an arms race. As a US company, NVIDIA doesn’t completely avoid such issues.
Researchers in Catanzaro’s 40-person lab develop AI to be used inside NVIDIA’s own systems, but the lab also acts as a “terrarium” for systems architects to peek in and see how deep-learning models may work in the future. “If you want to build a chip for the future, you want it to be useful for the future, you have to have skill with forecasting what are the most important workloads of the future – what they look like computationally,” says Catanzaro. “If you mess it up, you build the wrong chip.” Chips take years to design and build, so such foresight is necessary.
What happens if models are developed that no longer work on GPUs, or at least not as well? NVIDIA’s Dally admits it’s a possibility, but with most researchers working on GPUs, he thinks it’s unlikely. “Before a new model takes off, we have generally heard about it and had a chance to kick its tyres and make sure it runs well on our GPUs,” he says.
Others disagree – and believe GPUs may be holding back deep learning models from their full potential. “Everybody bends their models to today’s technology,” says Cerebras’ Feldman. “One of the things we are happiest and most excited about are a group of customers who are writing entirely new models.” He says this year Cerebras will show examples of what it calls “GPU impossible work” – work that simply can’t be done on GPUs.
Graphcore’s Toon says researchers have long told him they’re held back by today’s hardware; his partner Knowles compares it to Orwell’s Newspeak, simple language that prevents people thinking more complicated thoughts. “There are ideas, such as probabilistic machine learning, which is still being held back because today’s hardware like GPUs just doesn’t allow that to go forward,” Toon says. “The race will be how fast NVIDIA can evolve the GPU, or will it be something new that allows that?”
Neil Thompson, a researcher at MIT’s Computer Science and Artificial Intelligence Lab, noticed a trend at AI conferences of researchers hinting that computational limits were holding back their models, limiting their choices and datasets, and compelling some to leave mistakes in their work because they couldn’t afford to re-run a model to fix the problem. “It’s really widespread and it’s a really big problem in terms of the future of deep learning if we’re going to practise it as we have been so far,” he says.
Thompson and colleagues analysed 1,058 AI papers, and found that the computing demands of machine learning were far outstripping hardware improvements or model training efficiencies. On this path, systems will one day cost hundreds of millions or even billions of dollars to train – and have other costs. “The problem with chucking more GPUs at it is every time you double the number of GPUs, you double the cost, you double the environmental footprint, carbon and pollution,” Thompson says.
He believes that hardware solutions alone – be they from NVIDIA or challengers – won’t be enough to prevent AI innovation from stumbling. Instead, we need to build more efficient models and make better use of what we already have. Ideas such as sparsity – ignoring the zeros in a data set to save on calculations – can help, as can being more methodical about data, only putting it against related parameters. Another idea is distilling what we learn from models into more lightweight equations, running only a relevant section of a model rather than a massive universal one.
Without such efforts, we’ll need bigger data centres. But AI shouldn’t be limited just to those who can afford a supercomputer. “Universities with less computer power are already becoming a smaller proportion” of those doing top-end deep-learning work, says Thompson. “There’s still quite a few people who can play in the game, but the number of players is getting smaller as the computation burden goes up. And we’ve already gotten to the point where some people have been excluded.”
Costs can be cut, which may be one way for startups to win customers against incumbents. AWS added chips from Habana Labs to its cloud last year, saying the Intel-owned Israeli designer was 40 per cent cheaper to run. “For AI to reach everyone and not just the rich, you really need to improve price performance,” says Eitan Medina, chief business officer at Habana Labs.
AI already has a bias problem, and that is exacerbated by unequal access to hardware. “It means we’ll only be looking at one side of the coin,” says Kate Kallot, head of emerging areas at NVIDIA. “If you leave out a large chunk of the population of the world… how are we going to be able to solve challenges everywhere in the world?” She points to the UN’s sustainable development goals: plenty of AI researchers are turning their work to address challenges such as poverty and the climate crisis, but these are issues that will largely impact emerging markets.
There are other challenges to add to the mix. Manufacturing of processors has been constrained during the pandemic, while last year’s trade skirmish between the US and China raised concerns that the world’s chip factories are predominately in Asia, with the EU recently pledging to produce a fifth of the world’s top-end chips by 2030. Chip designers largely outsource manufacturing – NVIDIA’s are made by Taiwan’s TSMC – though Intel has its own foundries. In March, Intel announced plans to open two new factories in the US to make chips for external designers for the first time, perhaps giving the US more control over manufacturing.
As these hurdles are overcome, and chips continue to evolve, AI will expand to touch everything, akin to the wave of connectivity that saw wi-fi support and apps added to objects from toasters to fridges. But in the future, smart won’t just mean internet-connected, but embedded with AI. “It will be everywhere,” ARM’s Haas says. “It will be ubiquitous in every single computing application in the next few years.”
NVIDIAがゲームとグラフィックスのハードウェアからAIチップを支配するようになった経緯には、猫にまつわるエピソードがあります。2010年、現在NVIDIAのチーフサイエンティストであるビル・ダリは、スタンフォード大学時代の同僚であるコンピュータサイエンティストのアンドリュー・ングと朝食をとっていました。彼はGoogleとのプロジェクトに参加していました。「彼はインターネット上で猫を探そうとしていました。ウンは、Google Xラボで、自ら学習するニューラルネットワークを構築するプロジェクトに取り組んでいた。このニューラルネットワークは、1,000万本のYouTube動画を見せて、人間の顔や体、猫などを識別する方法を学習しましたが、正確に学習するためには、コンピューターの主要なプロセッサーである数千個のCPU(中央演算処理装置)が必要でした。しかし、このシステムを正確に動作させるには、数千個のCPU(中央演算処理装置)が必要でした。「私は、”数個のGPUで実現できるのではないか “と考えました。GPU(グラフィック・プロセッシング・ユニット)は、3Dレンダリングなどのより高負荷な作業に特化しており、CPUよりもAIを動かすのに適しているのです。ダリーは、その実現のために、現在NVIDIAで深層学習の研究を担当しているブライアン・カタンザーロに相談しました。そして彼は、わずか12台のGPUを使って、GPUが提供する並列処理が、CPUよりも高速かつ効率的にNgの猫認識モデルを学習できることを証明しました。
しかし、カタンザーロは、NVIDIAがAIへの取り組みを始めたのは、この偶然の朝食がきっかけではないことを伝えたいと考えています。カタンザーロは、2008年にNVIDIAに入社するまで、バークレー校の大学院生としてAI用のGPUを開発していました。「この市場でのNVIDIAの地位は、決して偶然のものではありません」と語る。
NVIDIAがAIチップを支配している今となっては、いつ、どのようにして、ということは重要ではありません。1993年にジェンスン・フアンCEOによって共同設立されたNVIDIAの主な収益源は、依然としてグラフィックスとゲームですが、昨年度のデータセンターで使用されるGPUの売上高は67億ドルに上りました。
2019年には、上位4社のクラウドプロバイダーのAIアクセラレーターインスタンス(処理速度を高めるためのハードウェア)の97.4%にNVIDIAのGPUが導入された。AWS、Google、Alibaba、Azureです。Cambrian AI Research社のアナリストであるKarl Freund氏は、AIアルゴリズムをトレーニングする市場の「ほぼ100%」を占めていると言います。また、スーパーコンピュータのトップ500のうち、70%近くが同社のGPUを使用しています。事実上、すべてのAIのマイルストーンは、NVIDIAのハードウェアで起きています。NgのYouTube猫探し、DeepMindのボードゲームチャンピオンAlphaGo、OpenAIの言語予測モデルGPT-3は、すべてNVIDIAのハードウェアで動作しています。AIの研究者たちが拠って立つ地盤なのです。
このような成功を収めているにもかかわらず、カタンザーロは、NVIDIAがゲームからAIへと盲目的に転身したという指摘が根強くあることに苛立ちを感じています。「誓って言いますが、私が読む記事のほとんどは、GPUがたまたまAIに優れていて、NVIDIAは既存のチップを新しい市場に売ることで一時的な利益を得たが、すぐに新興企業に追いやられてしまうというストーリーになっています」とカタンザーロは言います。「しかし、NVIDIAはこの10年間、AI市場へのアプローチ方法について非常に戦略的に取り組んできました」。
10年経った今、その市場は破壊の機が熟しています。AIは、より多くの企業が収集したデータの意味を理解するために利用し始めており、各国政府は互いに先を行くためにディープラーニングの研究に資金を投入しています。米国と中国の競争は特に激しく、Deloitte社のアナリストであるCosti Perricos氏は、AIが「次の超大国」となり、各国が競い合うことになると述べています。一方で、深層学習のモデルはサイズと複雑さを増し、これまで以上に多くのコンピューティングパワーを必要とします。
機械学習は、他に類を見ないコンピューティングワークロードであり、あまり正確ではない数字を使って多くの数学を必要とします。従来のハイパフォーマンス・コンピューティング(HPC)では、複数のシステムを連携させてスーパーコンピュータを構築し、科学的シミュレーションや金融モデリングなどの複雑なワークロードを処理していますが、これには64ビットの数値を使った高精度の数学が必要です。AIコンピューティングも大規模なコンピューティングインフラを必要としますが、使用される数学の精度は低く、16ビットや8ビットの数字が使われます。これは、ハイパーリアリスティックなグラフィックと80年代のピクセルゲームの違いに似ています。AIチップのスタートアップ企業CerebrasのCEOであるアンドリュー・フェルドマンは、「数学はほとんど簡単ですが、その数は多いですね」と言います。
AIチップとは、GoogleのTensorFlowやFacebookのPyTorchなどのプログラミングフレームワークを介して、機械学習のワークロードを実行できるように最適化されたプロセッサのことです。AIチップは、深層学習モデルのトレーニングや実行時に必ずしもすべての作業を行うわけではなく、最も負荷の高い作業を迅速に処理するアクセラレータとして機能します。例えば、NVIDIAのAIシステムインボックスであるDGX A100は、自社製のA100「Ampere」GPUを8個アクセラレータとして使用していますが、128コアのAMD CPUも搭載しています。
AIは今に始まったことではありませんが、以前は深層学習モデルを実現するためのコンピューティングパワーが不足しており、研究者は自分のアイデアにハードウェアが追いつくのを待っていました。「GPUが登場して、その扉が開かれたのです」と語るのは、AIチップを開発しているもうひとつのスタートアップであるSambaNovaの共同設立者兼CEOのロドリゴ・リャンです。
2012年、トロント大学の研究者Alex Krizhevskyは、画像やその中の物体を識別するアルゴリズムを開発するために研究者同士が競い合う、毎年恒例のコンピュータビジョン課題ImageNetで、他の競合他社を圧倒しました。クリゼフスキーは、GPUを使った深層学習を用いて、手作業でコーディングしたものを初めて打ち負かしました。2015年には、ImageNetコンテストの上位結果はすべてGPUを使ったものになった。
深層学習の研究は爆発的に増えました。20倍以上の性能向上を実現したNVIDIAの技術は、英国のチップメーカーGraphcore社の共同設立者が設立したときには、投資家とのミーティングができないほどの効果を発揮しました。共同設立者でCTOのサイモン・ノウルズは、2015年に資金調達のためにカリフォルニアに行ったときのことを思い出しながら、「VCから聞いたのは、”AIって何?”という言葉でした。”本当に驚きました。” 数ヵ月後の2016年初頭には、それが一変していました。「そのときは、みんながAIに熱くなっていました」とノウルズは言います。”しかし、彼らはチップには熱くありませんでした。” 新しいチップアーキテクチャは必要ないと考えられ、NVIDIAが業界をカバーしていました。
しかし、2016年5月、Googleはすべてを変えてしまいました。Cerebrasのフェルドマンが「剣呑な戦略的決断」と呼ぶ、AIアプリケーション用の独自チップを開発したと発表したのです。このチップは「Tensor Processing Unit(TPU)」と呼ばれ、同社の機械学習プログラミングフレームワーク「TensorFlow」と連動するように設計されていました。ノウルズによると、この動きは、新しいデザインのプロセッサーの市場があるかもしれないというシグナルを投資家に送ったといいます。「突然、すべてのVCが『あのクレイジーな英国人たちはどこにいるんだ』と言い出したのです」とノウルズは言います。それ以来、グラフコア社は7億1,000万ドル(5億1,500万ポンド)を調達しました。
NVIDIAのライバルたちは、GPUは機械学習ではなくグラフィックのために設計されたものであり、その巨大な処理能力はAIタスクにおいてCPUよりも優れているが、慎重な最適化と複雑なソフトウェア層のおかげで市場支配がここまで続いているのだと主張しています。グラフコアの共同創業者兼CEOのナイジェル・トゥーンは、「NVIDIAは、GPUの複雑さを見事に隠しています」と言います。「NVIDIAは、GPUの複雑さを隠すために、素晴らしい仕事をしてきました。NVIDIAが引き受けたのは、実に重い仕事です」。
しかし、GPUのことは忘れて、まったく新しいアーキテクチャを持つAIチップを一から設計してもいいのではないかという議論があります。選択肢はたくさんあります。Google社のTPUは、特定の作業負荷に合わせて設計されたASIC(特定用途向け集積回路)であり、Cerebras社は、他のどのチップよりも56倍大きい巨大チップであるWafer-Scale Engineを製造しています。IBM社とBrainChip社は、人間の脳をモデルとしたニューロモルフィックチップを製造しており、Mythic社とGraphcore社は、設計は異なるものの、ともにIPU(Intelligence Processing Unit)を製造しています。他にもたくさんあります。
しかしカタンザーロは、これらのチップはAIアクセラレータ(AIを強化するハードウェアの総称)のバリエーションに過ぎないと主張します。「GPUやTPU、IPUなどと言いますが、人々はこれらの文字に執着しすぎています。「しかし、GPUは常にコンピューティングを加速させるものであり、人々が関心を寄せるワークロードの性質は流動的です」。
誰もが競争できる?NVIDIAは、ディープラーニングチップのゴールドスタンダードであるコアベンチマーク「MLPerf」を支配していますが、ベンチマークは厄介なものです。Cambrian AI Research社のアナリストであるKarl Freund氏は、Googleをはじめとする学界や業界関係者によって設計されたベンチマークツールであるMLPerfは、GoogleとNVIDIAが独占しているが、新興企業は通常、システムのセットアップにかかるコストを他に費やした方が良いため、すべてのベンチマークを完了させることに悩まないと指摘する。
一方、NVIDIAは、GoogleのTPUを毎年上回っています。「ジェンセン(フアン)は、Google が MLPerf ベンチマークを実行するたびに、我々の GPU が TPU よりもほんの少しだけ速いことを示すことができれば、非常に素晴らしいことだと言いました」。
あるバージョンのベンチマークでトップに立つために、NVIDIAは、社内のスーパーコンピュータを36台のDGXから96台にアップグレードしました。そのためには,システム全体を再構築する必要がありました.ハミルトンによると、約100万ドル相当のキットを使ってケーブルを切断し、新しい機器を輸送してもらったのです。この出来事は、ベンチマークによって引き起こされる異常な行動を浮き彫りにするものでしたが、同時にDGXの再設計のきっかけにもなりました。現在の世代のブロックは、再配線なしで20個のグループにまとめることができます。
ベンチマークやスーパーコンピュータの場合は、チップを増やせばいいのです。しかし、AIコンピューティングのもう一方の側面である「エッジでの推論」と呼ばれる分野では、話が違ってきます。
NVIDIAは、2020年に400億ドルを投じてARM社を買収し、世界のスマートフォンの95%に搭載されているアーキテクチャを持つ英国のチップデザイナーとして世界の注目を集めました。しかし、その反応は必ずしも良いものではありませんでした。ARM社の共同創業者であるヘルマン・ハウザーは、この買収を「災害」と呼び、市場におけるARM社の中立性が失われる可能性があると指摘しています。EU、英国、中国、米国など、世界中の規制当局がこの取引を綿密に調査しています。
ARM社は、チップを設計し、その知的財産を企業にライセンスして、企業が自由に使用できるようにしています。AIチップメーカーがシステム用のCPUを必要としている場合、ARMからチップ設計のライセンスを受け、自社の仕様に合わせて製造することができます。ライバル企業は、NVIDIAがARMの経営権を取得することで、こうしたパートナーシップが制限されるのではないかと懸念していますが、フアンは、NVIDIAがARMのオープンモデルを尊重すると「明確に」述べています。英国政府は、国家安全保障への影響を考慮していると言われていますが、ARM社は現在、日本のソフトバンクが所有しています。また、中国では、ARM社が米国企業に所有されていることで、既存の規制ではブラックリストに載っている中国企業への設計の輸出が禁止されるのではないかという懸念があります。
ARM社は、ディープラーニングを実世界で応用するためのチップ、いわゆる「エッジでの推論」の主要な設計者です。つまり、今回の買収は、市場の形に大きな影響を与える可能性があります。NVIDIAはGPUでデータセンター側を、ARMの助けを借りてエッジ側を支配することができるでしょう。
エッジでの推論とは?NVIDIAの強力で高性能なシステムは、モデルを学習して適用するためにデータを処理しますが、学習したモデルを使用して何かを解釈するという、より軽量なタスクである推論と呼ばれるAI作業もあります。例えば、無人運転車がカメラで見たものを理解したり、スマートフォンアプリが顔の輪郭を見つけて自撮りに猫耳を付けたり、医療画像モデルがスキャンで癌の兆候を見つけたりします。膨大な計算能力を必要とするため、トレーニングはデータセンターで行われますが、推論は2つの場所で行われます。
AlexaやSiriに質問をすると、その内容がAmazonやAppleのサーバーに送られ、転写されて回答が得られます。推論が行われる2つ目の場所は、カメラや車、スマートフォンなどのエンドユーザーのデバイスで、これはエッジコンピューティングと呼ばれています。この場合、必要な処理能力は少なくて済みますが、高速であることが求められます(ドライバーレスカーがブレーキをかけるかどうかを判断する前に、考えるのを待ちたいと思う人はいないでしょう)。
現在、NVIDIAはデータセンター側を支配しています。NVIDIAのA100はトレーニング用のデータを処理する一方で、推論はより小さなミニサーバーに仮想化されており、50以上の推論ワークロードを同じハードウェア上で同時に実行することができます。これは、AIをサービスとして提供しているAWSのような大手企業にとっては、複数の企業がデータ漏洩のリスクなしに同じハードウェアを使用できるので便利です。しかし、低消費電力チップは、NVIDIAの伝統的な得意分野ではありません。ゲーミングノートPCを使用したことがある人なら、Chromebookよりも定期的に電源を入れる必要があることに気づくでしょう。低消費電力チップはARM社の得意分野であり、だからこそNVIDIAは400億ドルを投じてARM社を買収したのです。
AIに関しては、ARM社は2つの分野に力を入れています。まず、既存のCPUにソフトウェアフレームワークを搭載します。また、より高負荷な作業を行うために、Ethosと呼ばれるニューラル・プロセッシング・ユニット(NPU)を開発し、アクセラレータとして使用しています。ARM社のIPプロダクトグループのプレジデントであるRene Haas氏によると、Ethos-U55を使用したデバイスは、デザインのライセンスを受けた企業がすでにシリコンを生産しているため、間もなく登場するはずだといいます。
エッジにAIを搭載することで、音声アシスタントは、音声をAWSやAppleのサーバーにアップロードして処理する必要がなくなり、ローカルな知性に基づいて応答できるようになります。ハースは、データをクラウドとの間でやり取りするとバッテリーが消費されることを指摘した上で、「作業をソースに近いところで行うことができ、効率化の面でさまざまな面で役立ちます」と述べています。
「NVIDIA社のEMEA担当副社長であるデビッド・ホーガン氏は、「IoTについては長い間語られてきましたが、そのビジョンは今まで実現されていませんでした。「ARM社を買収する計画の核心は、この変革にあります。
私たちがバナナブレッドを焼いたり,Netflix を見たりしている間に,NVIDIA のソリューションアーキテクチャおよびエンジニアリング部門の責任者であるマーク・ハミルトンは,昨年の大半を費やして 4,000 万ポンドのスーパーコンピュータを構築し,パンデミックによる物資不足を回避して Cambridge-1 をほぼ予定通りに組み上げました.NVIDIAのLEGOスタイルのシステムにより、組み立ては容易になりました。8個のA100チップが、NVIDIAがDGXと呼ぶコンピューティングシステムの心臓部を構成しています。これは、ノートパソコンに搭載されているIntelやAMDのチップと同じ関係です。19万9,000ドルのDGXは、メモリやネットワーク、その他すべてを備えた完全なAIコンピュータで、比較的プラグアンドプレイで使えるように設計されています。ケンブリッジ1号は、20台のDGXをセットにした金色の箱が何段にもわたって並んでおり、「スーパーポッド」と呼ばれています。
ハミルトン氏によると、ケンブリッジ1は英国で最大かつ最も強力なAIスーパーコンピュータとなり、世界では30位程度になるとのことです(ただし、この順位は変動する可能性があります)が、NVIDIA自身のコレクションの中では5番目の大きさにしかなりません。Cambridge-1は、最大のSeleneが560台であるのに対し、80台のDGX A100を使用して構築されました。
NVIDIA社がCambridge-1を英国で製作したのは、ARM社の買収によって英国内の従業員が増えたことが理由の一つです。総合的な速度や大きさではありませんが、Cambridge-1は2つの初の試みを行っています。ハミルトン社は、ケンブリッジ1を「世界初のクラウド・ネイティブ・スーパーコンピュータ」と呼んでいます。これは、AWSのような区分け機能を備えているため、企業がセキュリティ侵害やデータ漏洩のリスクなしに同じハードウェアを使用できるからです。このスーパーコンピュータは、NVIDIAが外部のパートナーに開放する唯一のスーパーコンピュータであり、大学やヘルスケア大手のAstraZeneca社、Oxford Nanopore社、GSK社が独自の深層学習モデルを実行できるようになっています。
なぜNVIDIAはスーパーコンピュータを自作するのか?理由のひとつは、最高の人材を集めるためにおもちゃが必要だからだ。2016年当時、NVIDIAはスパコンを持っておらず、FacebookやGoogleが優秀なAI研究者をさらっていました。ハミルトンは「彼らがより多くの報酬を支払っているからではありません」と言う。”GoogleやFacebookがビジネスに使う何千ものGPUを持っていて、それをAI研究者が利用できるようにしているからなのです。”
NVIDIAとAIチップの未来をかけた戦い
SUN LEE
SambaNova SystemsのSoftware-Definedアプローチは、データを前面に出し、加算や減算などの整数をフィルタリングやリダクションの命令に置き換えています。SambaNova社では、その設計を再構成可能なデータフローと呼んでおり、「Cardinal」チップ1個あたり1.5TBのメモリを搭載し、DataScale SN10-8Rシステムには8個搭載しています。
現在、NVIDIAのスーパーコンピュータ「Selene」は、日本、中国、米国政府の2台に次いで、世界で5番目の規模を誇ります。つまり、最速のAIハードウェアを利用したい研究者は、中国、米国、NVIDIAのいずれかで働くことができるということだとハミルトンは言います。中国は2030年までにAIの世界的リーダーになることを目指していますが、米国は技術面でのリードを維持したいと考えています。AIの分野ではすでに緊張感がありましたが、最近の日米間の貿易戦争によって軍拡競争のような状態になるかもしれません。米国企業であるNVIDIAは、このような問題を完全に回避しているわけではありません。
カタンザーロの40人規模のラボの研究者たちは、NVIDIAの自社システム内で使用するAIを開発していますが、ラボはシステムアーキテクトたちが深層学習モデルが将来的にどのように機能するかを覗き見るための「テラリウム」のような役割も果たしています。「未来のためのチップを作り、未来に役立つものにしたいのであれば、未来の最も重要なワークロードが何であるか、つまり計算量的にどのようなものであるかを予測する技術を持たなければなりません。「もしそれに失敗したら、間違ったチップを作ってしまうことになります」。チップの設計と製造には何年もかかるため、このような先見性が必要なのです。
もし、GPUでは動作しない、あるいは動作しないモデルが開発されたらどうなるのでしょうか。NVIDIA社のDally氏は、その可能性を認めていますが、ほとんどの研究者がGPUに取り組んでいることから、その可能性は低いと考えています。「しかし、ほとんどの研究者はGPUを使って研究しているので、その可能性は低いと考えています。「新しいモデルが登場する前に、私たちはそのモデルについて耳にし、タイヤを蹴って、私たちのGPUでうまく動作することを確認する機会があります。
しかし、これに同意しない人もいます。GPUが深層学習モデルの可能性を十分に発揮できないのではないかと考えているのです。Cerebras社のFeldman氏は、「誰もが自分のモデルを現在の技術に合わせています」と言います。「我々が最も嬉しく、最も興奮していることの一つは、全く新しいモデルを書いているお客様のグループです」。彼によると、今年、セレブラス社は「GPU impossible work」と呼ばれる、GPUではできない仕事の例を紹介するそうです。
グラフコアのトゥーンは、研究者たちが今日のハードウェアに阻まれていると以前から話していたと言います。パートナーのノウルズは、これをオーウェルの「ニュースピーク」(簡単な言葉で複雑な考えを妨げている)に例えています。トゥーンは、「確率的機械学習のようなアイデアがありますが、現在のGPUのようなハードウェアではそれを進めることができないため、いまだに妨げられています」と語ります。「NVIDIAがどれだけ早くGPUを進化させることができるか、それとも何か新しいものがそれを可能にするのかが競争のポイントになるでしょう」。
MITのComputer Science and Artificial Intelligence Labの研究者であるNeil Thompson氏は、AI関連の会議で、研究者が計算機の限界がモデルの障害となり、選択肢やデータセットが制限され、問題解決のためにモデルを再実行する余裕がないためにミスを放置せざるを得ないとほのめかす傾向があることに気づきました。「これまでのように深層学習を実践するのであれば、この問題は非常に広範囲にわたっており、深層学習の将来を考える上で、非常に大きな問題です」と述べています。
トンプソンらが1,058本のAI論文を分析したところ、機械学習の計算需要は、ハードウェアの改良やモデルの学習効率をはるかに上回っていることがわかりました。このままでは、いつの日か、システムの学習に何億ドル、何十億ドルものコストがかかるようになります。「GPUの数を増やすことの問題点は、GPUの数が2倍になるたびに、コストが2倍になり、二酸化炭素や汚染などの環境負荷も2倍になることです」とThompsonは言います。
トンプソンは、エヌビディアであれ挑戦者であれ、ハードウェアのソリューションだけでは、AIのイノベーションがつまずくのを防ぐのに十分ではないと考えています。それよりも、より効率的なモデルを構築し、今あるものをより有効に活用する必要があります。スパース性(データセット内のゼロを無視して計算を省くこと)などのアイデアは、データをより几帳面に扱い、関連するパラメータにのみ当てはめていくことにも役立ちます。また、モデルから得られる情報をより軽量な方程式に集約し、大規模な普遍的モデルではなく、関連する部分のみを実行するというアイデアもあります。
このような努力をしなければ、より大きなデータセンターが必要になります。しかし、AIは、スーパーコンピュータを購入できる人だけに限定されるべきではありません。トンプソンは、「コンピュータの能力が低い大学は、最上級のディープラーニングを行う大学に占める割合がすでに小さくなっている」と言います。「ゲームに参加できる人はまだかなりいますが、計算機の負担が大きくなるにつれ、参加者の数は少なくなっています。そして、すでに一部の人が除外されている状態になっています。”
コストは削減できるので、新興企業が既存企業に対抗して顧客を獲得する一つの方法になるかもしれません。AWSは昨年、Habana Labsのチップを自社のクラウドに追加しましたが、これはIntelが所有するイスラエルのデザイナーの方が40%も安く運用できるからだそうです。ハバナラボのチーフビジネスオフィサーであるエイタン・メディナは、「AIがお金持ちだけでなく、すべての人に行き渡るためには、プライスパフォーマンスを向上させることがどうしても必要です」と言います。
AIにはすでに偏りの問題があり、それはハードウェアへの不平等なアクセスによって悪化しています。NVIDIA社で新興分野の責任者を務めるケイト・カロット氏は、「コインの片側だけを見ることになるということです」と言います。「もし、世界の人口の大部分を除外してしまったら……どうやって世界のあらゆる場所の課題を解決することができるのでしょうか」。彼女が指摘するのは、国連の持続可能な開発目標です。多くのAI研究者が、貧困や気候危機などの課題解決に向けて研究を進めていますが、これらは新興市場に大きく影響を与える問題です。
さらに、他の課題もあります。昨年の米中貿易摩擦では、世界のチップ工場がアジアに集中していることが問題視されましたが、EUは最近、2030年までに世界のトップエンドチップの5分の1を生産することを約束しています。チップの設計者は、主に製造を外注しています。NVIDIA社のチップは台湾のTSMC社で製造されていますが、インテル社は自社のファウンドリーを持っています。今年3月、インテルは米国に新たに2つの工場を開設し、初めて外部の設計者向けにチップを製造する計画を発表しましたが、これにより米国での製造管理がより強化されることになるでしょう。
これらのハードルが克服され、チップが進化し続ければ、AIはあらゆるものに触れるようになるでしょう。それは、トースターや冷蔵庫などのモノにWi-Fi対応やアプリが追加されたコネクティビティの波のようなものです。しかし、将来的には、スマートとは、単にインターネットに接続されているという意味ではなく、AIが組み込まれているという意味になります。「ARM社のHaas氏は次のように述べています。「スマートフォンはどこにでも存在するようになるでしょう。ARM社のHaas氏は次のように述べています。「今後数年のうちに、あらゆるコンピューティング・アプリケーションにAIが搭載されるようになるでしょう」。