Jenkkianalyytikko härkäilee perjantain dipistä huolimatta. 1400$ tavoitehinta mainittu. Rakettimeemit ja tatuoinnit tosin uupuvat.
Jep, en kyllä shorttaisi ennen GTC:tä.
The #1 AI Conference for Developers | GTC 2024 | NVIDIA
Nahkatakki tarinoi, että vaikka kilpailijat antaisivat ai-chippinsä ilmaisiksi nvidian tuotteet silti kustannustehokkampia.
”Of course, companies will be well aware of the Total Cost of Ownership (TCO), which basically means that Nvidia’s claimed benefits like time to deployment, performance, utilization, and flexibility are “so good that even when the competitor’s chips are free, it’s not cheap enough,” according to Huang. ”
Kaverihan puhuu totta, TCO:ssa ratkaisee myös se, mitä tavaralla saa aikaiseksi.
Näin se on, pitkässä juoksussa perf/watt ratkaisee eikä chipin hinta. Sikäli jos AMD:n vehkeet kuluttaa merkittävästi enemmän virtaa niin se voi tosiaan olla sama vaikka ne olisi ilmaisia, sittenkin jäisi tappiolle.
NVIDIAn H100 on 700W. AMD MI300X puolestaan sitten 750W. Ihan samoilla pallokentillä.
Se millä nahkatakkimies yrittää vetää kotiin päin on että jos katsot koko serveriä näillä ARM-pohjaisilla Grace Hopper-laitteilla, niissä käyttöpaikoissa joissa tämä on OK, virransäästö on sen verran huomattava että TCO saattaa hyvinkin keikahtaa siihen suuntaan että laitteen korkea hinta ei tunnu missään.
x86-pohjaisilla servereillä kilpailutilanne on aika tasan. Saattaa olla jopa AMDin eduksi koska EPYCit ovat virtapihimpiä kuin Xeon-pohjaiset NVIDIAn podit. Paitsi että NVIDIAn vehkeet ovat kalliimpia. Että cherrypickkausta lienee tapahtunut kun tätä TCO-etua hehkutetaan.
En ole tarpeeksi nuuskinut muiden also-ran valmistajien AI-kiihdyttimiä että osaisin sanoa mikä on virrankulutuksen ja tehon suhde siellä, mutta nämä ovat aika lailla pyöristysvirhe markkinalla juuri nyt joten…
Pari viikkoa sitten puhuttiin siitä, voisiko isompi osa nykyisistä CPU-workloadeista olla rinnakkaislaskettavissa ja siten GPU TAM muodostua paljon nykyisiä käyttötapauksia suuremmaksi, kuten Huang on nyt vuosia esittänyt.
Itse en tiedä vastausta, mutta törmäsin tällaiseen Aalto yliopiston ja Suomen Nvidian kurssiin, jonka avulla ajattelin lähetä hakemaan vastauksia. Joku muukin saattaa olla asiasta kiinnostunut: Programming Parallel Computers: https://ppc.cs.aalto.fi/
Ihan peruskaura-opetusmateriaalia ohjelmoijille. “Prossut ja varsinkin GPUt ovat vahvasti rinnakkaisia, älä tee väärin tai hukkaat hurjasti suorituskykyä”. Varmasti tarjoaa hyvää pohjatietoa jos aihe kiinnostaa.
Jep. Ihan peruskauraa tuo ei taida kuitenkaan olla. Ainakin itse onnistunut valmistumaan tietojenkäsittelystä siten, että ainoa rinnakkaisuuteen liittyvä tekeminen on ollut käyttöjärjestelmien monisäikeistystä ja synkronointia .
Ajatus heräsi, kun tuli luettua pitkästä aikaa tuli luettua tietorakenteiden ja algoritmien kirjaa. Heti ensimmäinen opetettu järjestämisen tehokas algoritmi, merge sort, olisi todella helposti muutettavissa rinnakkaislaskettavaksi. Sama taitaa päteä melkein kaikkiin ns. “divide and conquer” algoritmeihin.
Jensen GTC:llä: oltiin ihan tyytyväisiä Hopperiin, mutta Blackwell on paljon parempi.
Inferencing performance 30x.
Hupaisinta tässä on se että H200 (eli Hopperin paranneltu painos) on vasta shippaamassa kohta ja firmat jotka ovat tilanneet sitä hurjat määrät ja odottelevat toimituksia lienevät innoissaan kun saavat jo valmiiksi “vanhentunutta” rautaa.
Blackwell tosin ei vielä edes saanut päivämäärää (“later this year”, “H2”) eikä hintojakaan vielä kerrottu.
Tämmöinen hyvä yhteenveto yksityiskohdista tuli vastaan:
Arvuuttelevat että volyymitoimitukset kovemman B200 (ja GB200)-piirin osalta olisi vasta 2025. Tosin eiköhän jonoa ole jo korttelin ympäri…
1/4 sähkönkulutus vastaaville workloadeille suhteessa H-sarjaan tuottaa kyllä varmasti ainakin joillekin tahoille ison insentiivin korvata vanhaa rautaa uudella. AI-palveluiden energian käytöstä johtuvat kustannuksethan ovat järkyttäviä ja tuosta saattaa paybackkiä syntyä mahdollisesti hyvinkin pikaisesti.
Kun Blackwellit on esitelty, niin sitten videolla Jensen alkaa kertoa mitä niillä tehdään. Tällä kertaa aiheena on Physical AI eli robotit. Videon kohdasta 12:30 voi asiaan syventyä. Tyylikkäästi Jensen niputtaa AI:n, Omniversen Digital Twins ja robotit. Tietenkin etukeno on iso, mutta niin pitääkin olla. Olen näitä GTC esityksiä katsellut vuosien mittaan, mutta en kyllä tällaista tykitystä ole ennen nähnyt. Jos nyt miettii, että Microsoft etenee Copilotilla ja business case on parantaa konsultin tuottavuutta - kauniit kalvot syntyy käden käänteessä, niin kyllä Nvidia porhaltaa Microsoftin ohi tuottavuuden lisääjänä. Kyllä se iso hyöty saadaan juurikin siitä kun AI viedään teolliseen toimintaan. Kyllä Nvidia voi vielä mennä Microsoftin ohi arvokkaimpana yhtiönä, se kisan kärkipaikan ottaa, joka tuo eniten tuottavuutta asiakkailleen.
Moni iso firma kuunteli korvat höröllä kun NVIDIA paketoi AI:t firman omissa systeemeissä pyöriviin containereihin jotka erikoistuvat firmojen omien datamassojen hanskaamiseen. Tämä ratkaisee tietojen hallinnan ongelmat kun koko AI-chatbotti majailee firman omilla palvelimilla (jotka NVIDIA luonnollisesti myy hyvään hintaan) ja jos tämä koukku uppoaa, saadaan potentiaalisesti paljon syvätaskuisia firmoja “koukkuun” CUDA-pohjaiseen softapinoon joka voi nostaa tuottavuutta sen verran että firmasta saadaan pitkäaikainen asiakas…
Microsoft, Google, Oracle jne pyrkivät tietenkin tarjoamaan vastaavia, mutta pilvifirmoina lähinnä sanovat “trust us” datanhallinnan osalta. Isoilla firmoilla kuitenkin ns. bisneskriittiset asiat ovat usein edelleen omilla servereillä vaikka pilveäkin käytetään ja esim. taloushallinnon tai HR-osaston datoja tuskin syötellään pilvessä majailevalle AI:lle materiaaliksi (tai sitten johto on hitusen pihalla) joten tämän ongelman ratkaiseminen voi tuoda melkoisesti asiakkaita.
Suuri osa firmoista myöskin ajaa bisness kriittiset sovelluksensa pilvessä, ja luottaa pilvitoimittajien kyvykkyyksiin. Tietysti mitä isompi firma sitä enemmän legacya ja hitaammin kääntyvä laiva. On ihan selvää että AWS/Microsoft/Google akselilta löytyy osaamista esimerkiksi tietoturvan jne jne osalta huomattavasti enemmän kuin 99% suuryrityksiltä joiden päätoimialana ei ole IT.
Se että integroit on-prem datavarastosii NVIDIA purkkiin tarkoittaaa jokaiselle asiakkaalle yksilöllistä toteutusprojektia ja jatkuvaa ylläpitoa projektille. Näitäkin varmasti tapahtuu.
Mutta kun suuri pilvipalvelufirma tuottaa SaaS ratkaisun noilla Nvidian purnukoilla, niin se sama ratkaisu voidaan sitten tarjota kaikille platformin asiakkaille valmiilla integraatioilla olemassaoleviin datavarastoihin. Kun palveluntarjoaja ottaa vastuun niistä päivittäisistä ei lisäarvoa tuottavasti ylläpitotoimista, tulee tämä varmasti olemaan kustannustehokkaampaa suurelle osalle yrityksistä.
Pilvipalvelin = Somebody Else’s Computer.
Niin kauan kuin kaikki toimii, homma on hienosti, mutta sinä kauniina päivänä kun ei toimi, firma on täysin palveluntarjoajan armoilla. Tähän on vähitellen herätty ja todella isot firmat järjestään kyllä pitävät huolen että vähintään kaikki oma data on useampaan kertaan varmuuskopioitu paikkaan joka on omassa hallinnassa. Usein myös mennään ns. hybridimallilla jossa pilvi hoitaa ja skaalautuu mutta kaiken takana viimeisenä lenkkinä on ikiomat palvelimet (jotka majailevat jossain datacenterissä jonka tarjoaja on eri kuin pilven tarjoaja) joilla kaikki voidaan nostaa takaisin ylös jos pilvitarjoaja jostain syystä ei pysty täyttämään sopimuksiaan.
AIn kohdalla on lisämutkana se että isot firmat ovat tällä hetkellä täysin paniikissa sen osalta ettei firman sisäisiä salaisuuksia vuoda AI-mallin treenausdataan. Vaikka kuinka MS tai Google sanoo että joo joo privaatti-chattibotti, datanne pysyvät salaisuuksina, niin jos tarkka fyysinen implementointi on pilven syövereissä, pieni pelko kaivelee CTOn mieltä että entäs jos tekoälyttömyyden betatestivaiheessa jossain menee bitti ristiin ja koko firman salaisuudet ovat seuraavaksi julkisen chattibotin datasetissä ja soppa on valmis…
NVIDIAn myyntimies joka voi sanoa “voitte tehdä kaiken ihan omilla palvelimilla täysin omassa kontrollissa ja vielä kontainerisoida eri datamassat omiksi boteikseen ettei ole mitään riskiä että salaisuussetti A:n tiedot olisivat chattibotti Bn datoissa” on näille CTO:ille seireenilaulua…
Alan maallikkona kyllä ihan monttu auki näiden lukujen kanssa. Blackwell on samalla arkkitehtuurilla kuin Hopper, mutta isompi siru, right? Jos luvut olisivat olleet vaikka 1,5x, olisin todennäköisesti ajatellut että Wau, +50% lisää. Mutta 40x? Incredible. Joo, enemmän watteja ja nestejäähdytys. Silti en käsitä, miten tuo tehdään. Jää miettimään, mitä seuraavaksi? Pakkohan siellä on olla edelleen ruutia putkessa, miksi muuten määräävässä markkina-asemassa lanseerata tuollaista jos vähempikin riittisi. En vain ymmärrä miten noin käsittämättömiä harppauksia voidaan ottaa sukupolvien välillä. Silloin vielä kun seurattiin CPU ja gaming GPU kehitystä puhuttiin muutamista 10-% tehokkuuslisästä sukupolvien välillä.
Nämä “30x” tai “40x” ovat hyvin hyvin cherrypickattuja lukuja jotka eivät ole suoraan vertailukelpoisia.
Temppu tehdään heikentämällä tarkkuutta. Piiri tukee uusia dataformaatteja joilla sopivalla softakeitoksella voidaan saada hurjaa etua, mutta tällöin myös duuni mitä tehdään ei ole 1:1 sama.
Omppuja vertailtaessa GB200 on noin 2.5x vs H100 ja hieman alle 2x vs AMD MI300X.
Ne vertailut jossa isompia lukuja lyödään tiskiin on käytössä joku uusi lukuformaatti joka on tietty hyvä edistysaskel, mutta ei tällöin suoraan vertailukelpoinen koska vanhemmat piirit eivät näitä tue erikseen, joten piiri joutuu käyttämään isompaa lukuformaattia ja näin jää helposti todella paljon suorituskyyvssä.
Kyllä, jos vain katsotaan miten nopeasti piiri voi ajaa jotain tiettyä spesifistä softaa (ja tarkkuudesta tingitään) nopeusetu voi olla hurja, mutta silloin duunin mihin piiri ostetaan pitää olla juuri tätä…
Hyvä pointti. Näistä löytyy todella paljon eri variaatioita liittyen siihen, mistä softasta on kyse, jos/kun sitä pilvessä ajetaan. Jos yhtiön oma mission-critical softa ja data, niin kyllä sen osalta ollaan tarkkoja, missä data lopulta fyysisesti makaa ja kuka siitä huolehtii.
Jensenin yöllistä esitystä katsellessa tuli mieleen, että kuinkahan moni yritys tähän junaan lopulta on kykenevä lähtemään mukaan parin vuoden sisällä. Rahaa ja resursseja pitää olla älyttömästi kaiken nykyisen IT-softan ja -infran lisäksi. Mitäänhän tämä ei korvaa, vaan tuo vain uuden layerin. Enkä nyt puhu pelkästään chatboxeista, vaan näistä yrityskohtaisista neuroverkkototeutuksista.
Jo ihan tietokannan hallinnan osalta on mielenkiintoinen lautanen pöydällä, kun vektorikanta sisältää tokeneita ihan mielettömästi, jotka on sinne ajettu pitkän ja kalliin prosessoinnin lopputuloksena. Jos siellä esiintyy jokin virhe - on sitten syy mikä tahansa - tai datasta häviää jokin pätkä jonkin virheprosessin tuloksena, niin mitäs sitten? Haetaan backup, mutta jos se virhe on sielläkin jne.
Ehkä ajattelen liian vanhoilla aivoilla, mutta jotenkin tuntuu, että nahkatakkimiehen vauhti on kovempi kuin monen CTO:n ja CEO:n kyvykkyys pysyä tässä mukana.
FOMO:han aikaansaa sellaisen illuusion, että “jos ei heti satsata, hävitään kilpailijoille lopullisesti” siinä voidaan tehdä päätöksiä lopulta tietämättä, että mitä ollaan oikeasti saamassa.