NVIDIA - Mahdottoman mahdollistaja

NVIDIAn katteet pelastaa se että AMD ei pysty mitenkään toimittamaan samaa määrää tavaraa kuin NVIDIA. Eli niin kauan kuin kaikki revitään käsistä, vaikka AMDn tavaraa saisi halvemmalla, se ei lohduta kun tuotanto on pullonkaulana.

Sitten kun siirrytään tilanteeseen jossa markkina alkaa saturoitumaan ja kumpikin toimija tarjoaa tavaraa enemmän tai vähemmän suoraan hyllystä, NVIDIA joutunee tunaamaan kateprosenttiaan tai AMD alkaa viedä markkinaosuutta isommin. Ja kyllä ne sitä siinä vaiheessa tunaavat. Nahkatakkimies osaa maksimoida piilastuista irti saatavan rahaläjän kyllä varsin tarkasti…

Ja kyllä, siinä kohtaa voi NVIDIAn osakekurssi vähän heilahdella kun arviot tulevaisuuden katteista saavat pientä hiustenleikkuuta. Mutta vaikea on arvoida milloin tämä tapahtuu. Voi olla vielä vuoden-parin päässä helposti.

13 tykkäystä

Jenkkianalyytikko härkäilee perjantain dipistä huolimatta. 1400$ tavoitehinta mainittu. Rakettimeemit ja tatuoinnit tosin uupuvat.

8 tykkäystä

Jep, en kyllä shorttaisi ennen GTC:tä.
The #1 AI Conference for Developers | GTC 2024 | NVIDIA

1 tykkäys

Nahkatakki tarinoi, että vaikka kilpailijat antaisivat ai-chippinsä ilmaisiksi nvidian tuotteet silti kustannustehokkampia.

”Of course, companies will be well aware of the Total Cost of Ownership (TCO), which basically means that Nvidia’s claimed benefits like time to deployment, performance, utilization, and flexibility are “so good that even when the competitor’s chips are free, it’s not cheap enough,” according to Huang. ”

10 tykkäystä

Kaverihan puhuu totta, TCO:ssa ratkaisee myös se, mitä tavaralla saa aikaiseksi.

1 tykkäys

Näin se on, pitkässä juoksussa perf/watt ratkaisee eikä chipin hinta. Sikäli jos AMD:n vehkeet kuluttaa merkittävästi enemmän virtaa niin se voi tosiaan olla sama vaikka ne olisi ilmaisia, sittenkin jäisi tappiolle.

2 tykkäystä

NVIDIAn H100 on 700W. AMD MI300X puolestaan sitten 750W. Ihan samoilla pallokentillä.

Se millä nahkatakkimies yrittää vetää kotiin päin on että jos katsot koko serveriä näillä ARM-pohjaisilla Grace Hopper-laitteilla, niissä käyttöpaikoissa joissa tämä on OK, virransäästö on sen verran huomattava että TCO saattaa hyvinkin keikahtaa siihen suuntaan että laitteen korkea hinta ei tunnu missään.

x86-pohjaisilla servereillä kilpailutilanne on aika tasan. Saattaa olla jopa AMDin eduksi koska EPYCit ovat virtapihimpiä kuin Xeon-pohjaiset NVIDIAn podit. Paitsi että NVIDIAn vehkeet ovat kalliimpia. Että cherrypickkausta lienee tapahtunut kun tätä TCO-etua hehkutetaan.

En ole tarpeeksi nuuskinut muiden also-ran valmistajien AI-kiihdyttimiä että osaisin sanoa mikä on virrankulutuksen ja tehon suhde siellä, mutta nämä ovat aika lailla pyöristysvirhe markkinalla juuri nyt joten…

16 tykkäystä

Pari viikkoa sitten puhuttiin siitä, voisiko isompi osa nykyisistä CPU-workloadeista olla rinnakkaislaskettavissa ja siten GPU TAM muodostua paljon nykyisiä käyttötapauksia suuremmaksi, kuten Huang on nyt vuosia esittänyt.

Itse en tiedä vastausta, mutta törmäsin tällaiseen Aalto yliopiston ja Suomen Nvidian kurssiin, jonka avulla ajattelin lähetä hakemaan vastauksia. Joku muukin saattaa olla asiasta kiinnostunut: Programming Parallel Computers: https://ppc.cs.aalto.fi/

4 tykkäystä

Ihan peruskaura-opetusmateriaalia ohjelmoijille. “Prossut ja varsinkin GPUt ovat vahvasti rinnakkaisia, älä tee väärin tai hukkaat hurjasti suorituskykyä”. Varmasti tarjoaa hyvää pohjatietoa jos aihe kiinnostaa.

5 tykkäystä

Jep. Ihan peruskauraa tuo ei taida kuitenkaan olla. Ainakin itse onnistunut valmistumaan tietojenkäsittelystä siten, että ainoa rinnakkaisuuteen liittyvä tekeminen on ollut käyttöjärjestelmien monisäikeistystä ja synkronointia :slight_smile:.

Ajatus heräsi, kun tuli luettua pitkästä aikaa tuli luettua tietorakenteiden ja algoritmien kirjaa. Heti ensimmäinen opetettu järjestämisen tehokas algoritmi, merge sort, olisi todella helposti muutettavissa rinnakkaislaskettavaksi. Sama taitaa päteä melkein kaikkiin ns. “divide and conquer” algoritmeihin.

2 tykkäystä

Nahkatakkimies-show tulossa maanantai-iltana. Uutta laskentakorttirautaa (Blackwell, B100)

12 tykkäystä

Jensen GTC:llä: oltiin ihan tyytyväisiä Hopperiin, mutta Blackwell on paljon parempi.

Inferencing performance 30x.

5 tykkäystä

Hupaisinta tässä on se että H200 (eli Hopperin paranneltu painos) on vasta shippaamassa kohta ja firmat jotka ovat tilanneet sitä hurjat määrät ja odottelevat toimituksia lienevät innoissaan kun saavat jo valmiiksi “vanhentunutta” rautaa. :smiley:

Blackwell tosin ei vielä edes saanut päivämäärää (“later this year”, “H2”) eikä hintojakaan vielä kerrottu.

Tämmöinen hyvä yhteenveto yksityiskohdista tuli vastaan:

Arvuuttelevat että volyymitoimitukset kovemman B200 (ja GB200)-piirin osalta olisi vasta 2025. Tosin eiköhän jonoa ole jo korttelin ympäri…

13 tykkäystä

1/4 sähkönkulutus vastaaville workloadeille suhteessa H-sarjaan tuottaa kyllä varmasti ainakin joillekin tahoille ison insentiivin korvata vanhaa rautaa uudella. AI-palveluiden energian käytöstä johtuvat kustannuksethan ovat järkyttäviä ja tuosta saattaa paybackkiä syntyä mahdollisesti hyvinkin pikaisesti.

5 tykkäystä

Kun Blackwellit on esitelty, niin sitten videolla Jensen alkaa kertoa mitä niillä tehdään. Tällä kertaa aiheena on Physical AI eli robotit. Videon kohdasta 12:30 voi asiaan syventyä. Tyylikkäästi Jensen niputtaa AI:n, Omniversen Digital Twins ja robotit. Tietenkin etukeno on iso, mutta niin pitääkin olla. Olen näitä GTC esityksiä katsellut vuosien mittaan, mutta en kyllä tällaista tykitystä ole ennen nähnyt. Jos nyt miettii, että Microsoft etenee Copilotilla ja business case on parantaa konsultin tuottavuutta - kauniit kalvot syntyy käden käänteessä, niin kyllä Nvidia porhaltaa Microsoftin ohi tuottavuuden lisääjänä. Kyllä se iso hyöty saadaan juurikin siitä kun AI viedään teolliseen toimintaan. Kyllä Nvidia voi vielä mennä Microsoftin ohi arvokkaimpana yhtiönä, se kisan kärkipaikan ottaa, joka tuo eniten tuottavuutta asiakkailleen.

8 tykkäystä

Moni iso firma kuunteli korvat höröllä kun NVIDIA paketoi AI:t firman omissa systeemeissä pyöriviin containereihin jotka erikoistuvat firmojen omien datamassojen hanskaamiseen. Tämä ratkaisee tietojen hallinnan ongelmat kun koko AI-chatbotti majailee firman omilla palvelimilla (jotka NVIDIA luonnollisesti myy hyvään hintaan) ja jos tämä koukku uppoaa, saadaan potentiaalisesti paljon syvätaskuisia firmoja “koukkuun” CUDA-pohjaiseen softapinoon joka voi nostaa tuottavuutta sen verran että firmasta saadaan pitkäaikainen asiakas…

Microsoft, Google, Oracle jne pyrkivät tietenkin tarjoamaan vastaavia, mutta pilvifirmoina lähinnä sanovat “trust us” datanhallinnan osalta. Isoilla firmoilla kuitenkin ns. bisneskriittiset asiat ovat usein edelleen omilla servereillä vaikka pilveäkin käytetään ja esim. taloushallinnon tai HR-osaston datoja tuskin syötellään pilvessä majailevalle AI:lle materiaaliksi (tai sitten johto on hitusen pihalla) joten tämän ongelman ratkaiseminen voi tuoda melkoisesti asiakkaita.

14 tykkäystä

Suuri osa firmoista myöskin ajaa bisness kriittiset sovelluksensa pilvessä, ja luottaa pilvitoimittajien kyvykkyyksiin. Tietysti mitä isompi firma sitä enemmän legacya ja hitaammin kääntyvä laiva. On ihan selvää että AWS/Microsoft/Google akselilta löytyy osaamista esimerkiksi tietoturvan jne jne osalta huomattavasti enemmän kuin 99% suuryrityksiltä joiden päätoimialana ei ole IT.

Se että integroit on-prem datavarastosii NVIDIA purkkiin tarkoittaaa jokaiselle asiakkaalle yksilöllistä toteutusprojektia ja jatkuvaa ylläpitoa projektille. Näitäkin varmasti tapahtuu.

Mutta kun suuri pilvipalvelufirma tuottaa SaaS ratkaisun noilla Nvidian purnukoilla, niin se sama ratkaisu voidaan sitten tarjota kaikille platformin asiakkaille valmiilla integraatioilla olemassaoleviin datavarastoihin. Kun palveluntarjoaja ottaa vastuun niistä päivittäisistä ei lisäarvoa tuottavasti ylläpitotoimista, tulee tämä varmasti olemaan kustannustehokkaampaa suurelle osalle yrityksistä.

7 tykkäystä

Pilvipalvelin = Somebody Else’s Computer.

Niin kauan kuin kaikki toimii, homma on hienosti, mutta sinä kauniina päivänä kun ei toimi, firma on täysin palveluntarjoajan armoilla. Tähän on vähitellen herätty ja todella isot firmat järjestään kyllä pitävät huolen että vähintään kaikki oma data on useampaan kertaan varmuuskopioitu paikkaan joka on omassa hallinnassa. Usein myös mennään ns. hybridimallilla jossa pilvi hoitaa ja skaalautuu mutta kaiken takana viimeisenä lenkkinä on ikiomat palvelimet (jotka majailevat jossain datacenterissä jonka tarjoaja on eri kuin pilven tarjoaja) joilla kaikki voidaan nostaa takaisin ylös jos pilvitarjoaja jostain syystä ei pysty täyttämään sopimuksiaan.

AIn kohdalla on lisämutkana se että isot firmat ovat tällä hetkellä täysin paniikissa sen osalta ettei firman sisäisiä salaisuuksia vuoda AI-mallin treenausdataan. Vaikka kuinka MS tai Google sanoo että joo joo privaatti-chattibotti, datanne pysyvät salaisuuksina, niin jos tarkka fyysinen implementointi on pilven syövereissä, pieni pelko kaivelee CTOn mieltä että entäs jos tekoälyttömyyden betatestivaiheessa jossain menee bitti ristiin ja koko firman salaisuudet ovat seuraavaksi julkisen chattibotin datasetissä ja soppa on valmis…

NVIDIAn myyntimies joka voi sanoa “voitte tehdä kaiken ihan omilla palvelimilla täysin omassa kontrollissa ja vielä kontainerisoida eri datamassat omiksi boteikseen ettei ole mitään riskiä että salaisuussetti A:n tiedot olisivat chattibotti Bn datoissa” on näille CTO:ille seireenilaulua…

11 tykkäystä

Alan maallikkona kyllä ihan monttu auki näiden lukujen kanssa. Blackwell on samalla arkkitehtuurilla kuin Hopper, mutta isompi siru, right? Jos luvut olisivat olleet vaikka 1,5x, olisin todennäköisesti ajatellut että Wau, +50% lisää. Mutta 40x? Incredible. Joo, enemmän watteja ja nestejäähdytys. Silti en käsitä, miten tuo tehdään. Jää miettimään, mitä seuraavaksi? Pakkohan siellä on olla edelleen ruutia putkessa, miksi muuten määräävässä markkina-asemassa lanseerata tuollaista jos vähempikin riittisi. En vain ymmärrä miten noin käsittämättömiä harppauksia voidaan ottaa sukupolvien välillä. Silloin vielä kun seurattiin CPU ja gaming GPU kehitystä puhuttiin muutamista 10-% tehokkuuslisästä sukupolvien välillä.

3 tykkäystä

Nämä “30x” tai “40x” ovat hyvin hyvin cherrypickattuja lukuja jotka eivät ole suoraan vertailukelpoisia.

Temppu tehdään heikentämällä tarkkuutta. Piiri tukee uusia dataformaatteja joilla sopivalla softakeitoksella voidaan saada hurjaa etua, mutta tällöin myös duuni mitä tehdään ei ole 1:1 sama.

Omppuja vertailtaessa GB200 on noin 2.5x vs H100 ja hieman alle 2x vs AMD MI300X.

Ne vertailut jossa isompia lukuja lyödään tiskiin on käytössä joku uusi lukuformaatti joka on tietty hyvä edistysaskel, mutta ei tällöin suoraan vertailukelpoinen koska vanhemmat piirit eivät näitä tue erikseen, joten piiri joutuu käyttämään isompaa lukuformaattia ja näin jää helposti todella paljon suorituskyyvssä.

Kyllä, jos vain katsotaan miten nopeasti piiri voi ajaa jotain tiettyä spesifistä softaa (ja tarkkuudesta tingitään) nopeusetu voi olla hurja, mutta silloin duunin mihin piiri ostetaan pitää olla juuri tätä…

7 tykkäystä