NVIDIA - Mahdottoman mahdollistaja

Snadisti off-topic, mutta Suomesta pitäisi tehdä kyllä pari opintomatkaa Tel-Aviviin ihmettelemään, mitä siellä tehdään oikein. Pelkästään Nvidia on ollut siellä nyt isoilla ostoksilla ensin Mellanoxin osalta, sitten Exceleron ja nyt Run:ai ja vielä Deci. Päälle tulee vielä Nano-X Imaging omistukset.

6 tykkäystä

Forbes 21.3.2024






5 tykkäystä

Microsoftin osari on herkullista luettavaa Nvidian kannalta. Copilot-myyntejä ei julkistettu, mutta rivien välistä on kai tulkittavissa, että tulosylitys on AI-kysynnän vetämää. CFO totesi “Near-term AI demand is a bit higher than our available capacity”.

Capex-investoinnit, joista oletettavasti materiaalinen osa on GPU-investointeja, nousi 3kk aikana 22% $14B tasolle. Samalla julkisuuteen levisi tieto, että MS on triplaamassa nykyisen 600k GPU-kapasiteettinsa 1.8M GPU:hun tämän vuoden aikana.

Yhteenvetona: näyttäisi siltä, että massiiviset AI-investoinnit luovat ihan oikeaa rahaa ainakin Microsoftille ja investointitahti vain kiihtyy, jotta kapasiteetti ei ole pullonkaula kysynnälle.

7 tykkäystä

@Iikka ja tviittiketju Nvidian lukujen pohjalta :slight_smile:

https://twitter.com/IikkaNumminen/status/1784538287572476207

7 tykkäystä

Tekoälyn vallankumous on johtamassa fossiilisten polttoaineiden käytön nousuun 2020-luvun jälkimmäisellä puoliskolla. Tekoälyohjelmia pyörittävät datakeskukset nielevät valtavan määrän sähköä, ja fossiiliset laitokset pystyvät todennäköisesti ensimmäisinä reagoimaan rajusti kasvavaan kysyntään.

Synkkä näkymä perustuu kahteen ennusteeseen, joista on uutisoitu kansainvälisesti edellisen kuukauden aikana.

Uutistoimisto Reutersin esittämistä luvuista voidaan laskea (*), että pelkästään Yhdysvalloissa maakaasun kysyntä olisi nousemassa seuraavan viiden vuoden aikana 11 prosenttia. Päästöinä tämä tarkoittaisi noin 150 miljoonaa tonnia lisää hiilidioksidia vuodessa.

TPH pohjaa arvionsa siihen, että amerikkalaisten datakeskusten sähkön tarve on kasvamassa tällä vuosikymmenellä nykyisestä 11 gigawatista 42 gigawattiin, eli lähes nelinkertaiseksi.

10 tykkäystä

Arvelen, että tämän täytyy johtaa jollain aikavälillä paradigman muutokseen siinä, millaisella hardwarella laskentaa laskentaa tehdään. Nykyinen tapa käyttää GPU:ta ei ole kestävällä pohjalla.

Paineet energian kulutuksen vähentämiseksi kasvavat sitä suuremmiksi, mitä enemmän noita konesaleja kasataan. Ja GPU on yksi energiasyöpöimmistä osista koko systeemissä, joten siitä on hyvä aloittaa energiatalkoot. Siirtymä tulee olemaan kohti hyvin paljon nykyistä spesifimpää AI-käyttöä varten räätälöityä custom hardwarea, jolloin energiankulutus on helpompi saada kuriin kuin huomattavan yleiskäyttöisellä hardwarella.

Tästä joitain orastavia esimerkkejä alla.

A team of scientists from the Korea Advanced Institute of Science and Technology (KAIST) detailed
their ‘Complementary-Transformer’ AI chip during the recent 2024 International Solid-State Circuits Conference (ISSCC). The new C-Transformer chip is claimed to be the world’s first ultra-low power AI accelerator chip capable of large language model (LLM) processing.

In a press release, the researchers power-shame Nvidia, claiming that the C-Transformer uses 625 times less power and is 41x smaller than the green team’s A100 Tensor Core GPU. It also reveals that the Samsung fabbed chip’s achievements largely stem from refined neuromorphic computing technology.

The above gallery has a ‘chip photograph’ and a summary of the processor’s specs. You can see that the C-Transformer is currently fabbed on Samsung’s 28nm process and has a die area of 20.25mm2. It runs at a maximum frequency of 200 MHz, consuming under 500mW. At best, it can achieve 3.41 TOPS. At face value, that’s 183x slower than the claimed 624 TOPS of the Nvidia A100 PCIe card (but the KAIST chip is claimed to use 625x less power). However, we’d prefer some kind of benchmark performance comparison rather than look at each platform’s claimed TOPS.

https://www.nature.com/articles/s41586-023-06337-5

An analog-AI chip for energy-efficient speech recognition and transcription

Abstract

Models of artificial intelligence (AI) that have billions of parameters can achieve high accuracy across a range of tasks1,2, but they exacerbate the poor energy efficiency of conventional general-purpose processors, such as graphics processing units or central processing units. Analog in-memory computing (analog-AI)3,4,5,6,7 can provide better energy efficiency by performing matrix–vector multiplications in parallel on ‘memory tiles’. However, analog-AI has yet to demonstrate software-equivalent (SWeq) accuracy on models that require many such tiles and efficient communication of neural-network activations between the tiles. Here we present an analog-AI chip that combines 35 million phase-change memory devices across 34 tiles, massively parallel inter-tile communication and analog, low-power peripheral circuitry that can achieve up to 12.4 tera-operations per second per watt (TOPS/W) chip-sustained performance. We demonstrate fully end-to-end SWeq accuracy for a small keyword-spotting network and near-SWeq accuracy on the much larger MLPerf8 recurrent neural-network transducer (RNNT), with more than 45 million weights mapped onto more than 140 million phase-change memory devices across five chips.

Although the digital compute is inefficient, the enormous ratio between the number of analog and digital operations (Fig. 6e; 325-fold for conventional weight mapping and 88-fold with the weight-expansion technique, owing to the increased digital preprocessing) makes the analog-only and projected full-system energy efficiencies similar (Fig. 6c; 7.09 TOPS/W and 6.94 TOPS/W using conventional weight mapping). With weight expansion, an analog-AI system using the chips reported in this paper could achieve 546.6 samples per second per watt (6.704 TOPS/W) at 3.57 W, a 14-fold improvement over the best energy-efficiency submitted to MLPerf (Fig. 6f), at 9.258% WER.


For instance, previous optical neural networks usually only possessed thousands of parameters—the connections between neurons that mimic the synapses linking biological neurons in the human brain. In contrast, Taichi boasts 13.96 million parameters.

Previous optical neural networks were often limited to classifying data along just a dozen or so categories—for instance, figuring out whether images represented one of 10 digits. In contrast, in tests with the Omniglot database of 1,623 different handwritten characters from 50 different alphabets, Taichi displayed an accuracy of 91.89 percent, comparable to its electronic counterparts.

The scientists also tested Taichi on the advanced AI task of content generation. They found it could produce music clips in the style of Johann Sebastian Bach and generate images of numbers and landscapes in the style of Vincent Van Gogh and Edvard Munch.

All in all, the researchers found Taichi displayed an energy efficiency of up to roughly 160 trillion operations per second per watt and an area efficiency of nearly 880 trillion multiply-accumulate operations (the most basic operation in neural networks) per square millimeter. This makes it more than 1,000 times more energy efficient than one of the latest electronic GPUs, the NVIDIA H100, as well as roughly 100 times more energy efficient and 10 times more area efficient than previous other optical neural networks.

Although the Taichi chip is compact and energy-efficient, Fang cautions that it relies on many other systems, such as a laser source and high-speed data coupling. These other systems are far more bulky than a single chip, “taking up almost a whole table,” she notes. In the future, Fang and her colleagues aim to add more modules onto the chips to make the whole system more compact and energy-efficient.

Eiväthän nämä nyt mitään ihan valmiita ratkaisuja ole toimitettavaksi seuraavalla kvartaalilla (jos koskaan ihan tällaisina), mutta arvelen tosiaan, että erilaisille HW-ratkaisuille tullaan hakemaan aggressiivisesti suuntaa varsin ahtaan GPU-laatikon ulkopuolelta.

6 tykkäystä

Japanilaiset asentavat NVIDIA:n supertietokoneen kylkeen neutraali atomi - HW tekniikkaan nojaavan kvanttitietokoneen. Itse ajatellen, että edellä pohdittua energian kulutusta saadaan kyllä ratkottua ihan perinteellisin SW keinoin. Mutta jonkun vuoden päästä kvanttilaskenta tulee avuksi. QuEra: “Based in Boston and built on pioneering research from nearby Harvard University and MIT”

AIST Selects QuEra’s Neutral-Atom Quantum Computer

7 tykkäystä

Entinen Googlen CEO Eric Schmidt haastateltavana AI kenttään liittyen.

NVDIA:n osalta mielenkiintoinen osuus 1:46 eteenpäin. Schmidt painottaa isoa etumatkaa softapuolella NVDIA:n etumatkan takana.

Yleensä NVDIA mielletään sirufirmaksi, mutta muistaakseni lähemmäs puolet tuotekehitysihmisistä kehittävät softaa sirujen tueksi. Kokonaisvaltainen ekosysteemi vs. pelkkä sirutoimittaja? Tästäkin haastettelusta voi hieman aistia, millä lähestymiskulmalla NVDIA pyrkii rakentamaan itselleen vallihautaa sirubisneksensä tueksi. Aika näyttää, miten kilpailijat saavat kaulaa kiinni softatuessa siruille.
Yleensäkin ottaen mielenkiintoinen haastattelu AI-kentästä. Katsoisin itse kokonaan AI-kentän yleiskuvan vuoksi.

7 tykkäystä

CUDAanhan tuossa viitattiin, vaikkei sitä eksplisiittisesti sanottukaan. CUDA-vallihaudasta on käyty aika paljon keskustelua täällä. Fakta tosiaan on, että Nvidia on CUDA:n kanssa valovuoden edellä muita ihan jo pelkästään siksi, että perus AI-kirjastot toimivat ilman helvetillistä tunkkausta vain ja ainoastaan CUDA:lla. AI-koodarin näkökulmasta CUDA:ssa tai Nvidiassa ei sinänsä ole mitään erityistä muuta kuin se, että voi olla varma, että PyTorch, Keras tai TF toimii varmasti ilman tarpeetonta päänvaivaa.

Acquired Podcastin mukaan CUDA-kehittäjiä on 1600+ Nvidiassa n. 30 000 työntekijästä. Tokihan siellä sitten on näitä AI-tutkijoita ja AI-sovelluskehittäjiäkin, mutta niissä Nvidialla nyt ei ole ainakaan vielä mitään erityisen mullistavaa tekoälysoftaa/malleja tarjolla.

5 tykkäystä

Jos 8 minuutissa haluaa päivittää itsensä AI skeneen, siihen porukkaan joka uskoo tähän AI juttuun, niin ehdottoman keskeinen video. Kyseessä on Googlen toimitusjohtajan (2001…2011) näkemykset. Heti alussa Eric sanoo, että AI on ALI_hypetetty. Eli tuleva kehitys on merkittävämpää kuin yleisesti hahmotamme. Aikajänne isoihin muutoksiin on kutistunut 20 vuodesta 5 vuoteen. Noin Eric puhui.

Poimin nyt mukaan ajatuksen juoksuun aiemmat Nvidian Run.ai ostohankkeet (24.4.20204), joilla Nvidia hankkii lisää kyvykkyyttä juurikin Ericin mainitsemaan software stäkkiin. Run.ai:lla Nvidia voi orkestroida AI-työkuormia eri HW alustojen välillä. Mulla jos siintää edessä näkymä, jossa Nvidia siirtyy jalostusasteessa ylöspäin GPU raudasta vielä isommin SW stäkkiin ja sinne ohjelmistotasollekin, ja jättää GPU, CPU:n tuottamisen AMD:lle, Intelille jne. En kyllä saa mitenkään rakennettua Nvidialle bear keissiä. Nvidia tänään kuorii GPU-kermat, sitten laajentaa omaa rooliaan SW:ssa, ja sen nykyiset sirukilpailjat jää tuottamaan siruja nykyistä alemmilla katteilla. Ja Nvidia myy HW orkestrointipalveluitaan asiakkailleen, jotka näin Nvidian orkestrointisoftan kanssa pystyvät vaihtamaan eli kilpailuttamaan eri GPU-CPU kapasiteettitarjoajia. Eli olennainen ajatukseni on se, että Nvidia rakentaa hyvissä ajoin itselleen polkua poistuakseen sirutuotannosta arvoketjussa ylöspäin. Itse asiassa Nvidiasta itsessään voi tulla se toimija, joka romahduttaa siruvalmistajien katteet, ja Nvidia sitten ottaa isot rahat sieltä SW puolelta.

6 tykkäystä

Esittelyssä GPT-4o, jossa teksti, ääni ja kuva pelaa saumattomasti yhteen. Lopuksi kiitettiin Jenseniä ja Nvidiaa, jotka toimittivat kehittyneinmät GPUt demoa varten.

7 tykkäystä

Tässä on tviitti tavoitehinnan nostosta ja yhtiön “datakeskustuloista”:

https://twitter.com/StockMKTNewz/status/1790397950100709492

image

6 tykkäystä

Kohta mennään taas. Ke 22.5. 23:00 jälkeen tulee kvartaalitulos.

Odotukset (SeekingAlpha): EPS: 5.57, Revenue 24.55B
Nvidian ohjeistus: Revenue $24B ±2% (eli $23.5B-24.5B)

Ohessa netto-marginaaliskenaariot EPS-odotuksille. Käytännössä markkina odottaa siis vähintään 2% guidance ylitystä yhdistettynä 55% nettomarginaaliin (vihreällä odotus-EPSin ylittävät combot, punaisella alittavat):

Kovat on siis odotukset edelleen - mutta ei mahdottomat. Viime kvartaalilla tuli 76% bruttomarginaalilla 55.6% profit margin. Yhtiö itse ohjeistaa 77% bruttomarginia tälle kvartaalille. Ohjeistuksen ylälaitaan siis pitää osua ja mieluusti mennä snadisti yli.

Data centeristä pitäisi mahdollisesti ehkä puhkaista jo $20B raja.

Ohjeistus tulee olemaan varmaankin se kaikkein kriittisin kohta. Sanotaan, että yhtiö takoo nyt vaikka $24.5B, mutta ohjeistaa esim. “vain” $25B (mikä olisi toki huikean kova ohjeistus), alkaa sequential growth olemaan enää pari prosenttia, kun se on viimeisen vuoden ollut kymmeniä prosentteja. Se voisi pelästyttää kyllä aika monet markkinoilla. Ei ole mielestäni poissuljettua sekään vaihtoehto, että tämä on viimeinen sequential growth kvartaali ja kolmanneksi viimeinen y-o-y kasvukvartaalikaan tässä syklissä.

11 tykkäystä

Miten @Roope_K kasasit taulukon? Teitkö ihan ite? Hyvin kertoo siitä miten kurssi lähtee hakemaan heti tasoja kun odotukset kerrotaan. Itse olen sillä jalalla, että kun kyseessä on maailman merkittävin teknologiayhtiö, niin sen palveluihin tulee kokoajan uutta kysyntää, mitä analyytikot eivät pysty laskelmiin sisällyttämään. Itse olen rauhallisella hold asenteella menossa tulokseen. Kun mietin 5 v. eteenpäin, niin NVIDIA:n johtajuus säilyy. Ja AI kokonaismarkkina kasvaa niin vahvasti, että en näe nyt käännepistetä, että itse alkaisin vähenteleen ennen osaria.

4 tykkäystä

Orkestrointia on tehty “maailman sivu”. Miten se voisi tarjota korkean marginaalin liiketoimintaa pitkässä juoksussa? Tarkoitatko, että NVIDIA tarjoaisi proprietaty ratkaisuna CUDA virtualisointia muiden raudalla? Olen ymmärtänyt, että Nvidian johtoasema perustuu sen pitkään etumatkaan nimenomaan gpu valmistuksessa, jota vakiintunut CUDA stäkki tukee. Eikö tuossa esittämässäsi skenaariossa murennu kovimmat kilpailuedut?

2 tykkäystä

Kyllä, itse odotan pikkuhiljaa siirtymää pois HW:sta softan suuntaan, jolla varmaan kuitenkin ratkaistaan enemmän asioita ja HW:sta tulee bulkimpaa. Jensen joukkoineen on kuitenkin luomassa polkuja eteenpäin Metan, OpenAI:n ja muiden kanssa ja siksi Jensen varmasti osaa luovia aina parhaimman marginaalin kohtaan arvoketjussa. No, pääpointti mulla on se, että Nvidia on kierroksen muita edellä ja voi optimoida omaa menestystään hieman myös kilpailjoidensa kustannuksella.

2 tykkäystä

Ihan simppelisti kaavalla ohjeistettu liikevaihto (±2%) x net profit margin (50-60% vaihteluvälillä) / osakkeiden määrä.

Törmäsin tänään toiseen hauskaan laskelmaan. Yksi Nvidian H200 pystyy pyörittämään Metan 70B parametrin Llama3-mallia yhtäaikaa 300 käyttäjälle. Jos esim. Facebookiin integroitaisiin Llama3-kielimalli, palvelun 2.9 miljardia käyttäjää palvelemaan pitäisi hankkia 3.2 miljoonaa H200 GPU:ta (käyttäjät jaettuna tasaisesti koko vuorokaudelle). Näiden prosessorien arvo olisi karkeasti $130 miljardia dollaria.

Laskelma on tietysti karkea, mutta kuvastaa mielestäni hyvin sitä, että joku $300-400B GPU total addressable market 3-4 vuoden aikaskaalalla ei välttämättä ole ihan tuulesta temmattu, kun huomioi, että 70B ei ole edes erityisen suuri malli ja näitä tekoälyllä softaa augmentoivia palveluita syntyy kuin sieniä sateella.

2 tykkäystä

Kiitos laskelmista. On kyllä jännä homma, että maailman AI kehittyy Metan vetämänä, joka taasen saa tulot mainoksia myymällä. Eikä Meta trvitse lainaa GPU megaostoihinsa, eikä toinen suurkuluttajakaan tarvi lainaa, eli Microsoft-OpenAI. Mutta mulla on nyt Datacenter Ähky. En vaan usko, että näitä megaisoja rautahankintoja tarvitaan muutaman vuoden päästä, kun SW kehittyy ja Nvidia parantaa suorituskykyjä. Varmaan toi TAM on joka tapuksessa iso satoja miljardeja taaloissa, mutta ehkä menee vähemmän fyysistä laitetta ja energiaa. Jospa rauta muuttuu optimoinniksi yms. palveluksi.

6 tykkäystä

Oivoi, NVIDIA Osbornetti itsensä…

https://x.com/LiveSquawk/status/1792906910808649883

image

(lähdejuttu maksumuurin takana - Amazon halts orders of Nvidia ‘superchip’ to await updated model )

Näin voi käydä kun liian innokkaasti rummuttaa uutta mallia jota ei vielä kuitenkaan ole myytäväksi valmiina.

Eiköhän noillekkin piireille löydy ostajia muualtakin, mutta saattaa saada tänään NV lappuja taas vähän alekorista tämän vuoksi.

9 tykkäystä

Mahdollisista tilausten viivästyttämisestä on kirjoitettu osarin alla paljon. FT listasi sen eilen ohjeistuksen ohella tärkeimmäksi osarin osa-alueeksi.

Pääsi yllättämään ainakin itseni. Nythän AWS ottaa riskin siitä, että sillä ei ole tarjota asiakkailleen seuraavien 6-12kk aikana vastaavaa parhaan luokan GPU-laskentakapasiteettia kuin kilpailijoilla (kuten Azure). Siksipä ajattelin, ettei tässä oikein ole varaa jäädä odottelemaan uusia sukupolvia.

Sekään ei liene poissuljettua, että markkinoille alkaa kantautua tietoa seuraavan generaation julkaisusta ennen kuin AWS on saanut ensimmäistäkään Blackwellia saleihinsa.

3 tykkäystä