NVIDIA - Mahdottoman mahdollistaja

@karhulalainen ja @Neon_Hauer Kvanttilaskenta ja AI muodostavat erittäin hankalan yhtälön kvanttitilojen pysyvyysongelman vuoksi. Tekoälyn nykyparadigma klassisella laskennalla kun perustuu siihen, että opetetaan joku malli, jonka parametrit ovat ikään kuin pysyväismuistiin tallennettu tiiviste opetustiedosta. Kvanttifysiikalla tässä tulee haasteita, kun kvanttikoherenssi tekee tekoälyskaalan tiedon tallentamisen erittäin vaikeaksi ja no clone teoreema mallin monistamisen mahdottomaksi.

Nähdäkseni ratkaisut tuohon ovat:

  1. Mallit, ja kaikki muu malliin liittyvä muistissa oleva tieto, pitäisi pystyä opettamaan inference ajon aikana (todella tehotonta ja aiheuttaa monta muuta ongelmaa)
  2. Kvanttikoneen pitäisi ladata tietoa klassisesta pysyväismuistista (jolloin vähintäänkin hukataan kvanttilaskennan superpositioista saatavia tehokkuushyötyjä)
  3. Koko tekoälyn nykyinen opetusparadigma pitäisi muuttaa joksikin ihan muuksi

Ja tämä pitäisi kyetä ratkomaan kaikkien muiden kvanttilaskennan haasteiden lisäksi ennen kuin kvanttikoneilla otetaan Nvidialta kvanttiherruus tekoälyssä. Quantum memory - Wikipedia

Edit: olen itse henkilökohtaisesti kova kvanttifani ja uskon kehitystä suht läheltä seuraavana vahvasti siihen, että isoja läpimurtoja tehdään varmaan hyvin lyhyellä aikavälillä. Mutta ainakin seuraavat 10 vuotta kvanttikoneet tullee keskittymään klassisiin NP-vaikeisiin algoritmeihin, jotka on helppo kirjoittaa ja suorittaa hyvin suoraviivaisina komentojen ketjuna. AI-laskenta ei ole tällaista. NP-vaikeissa ongelmissakin on aivan tarpeeksi työmaata ja sovelluskohteita: NP-hardness - Wikipedia

11 tykkäystä

Lopulta myös AI:ssa rinnakkaislaskenta tehdään koodissa. Useimmiten se tosin tehdään, jollain Torchin, TensorFlow:n tai Keraksen kaltaisilla kirjastoilla, jotka ohjelmoijalta piilotettuna ohjaa laskennan rinnakkaiseksi. Ohjelmoijan tehtäväksi jää osata kirjoittaa AI-ohjelmansa näillä kirjastoilla ja kehottaa ohjelmaa käyttämään GPU-resursseja.

Se alkuperäinen kysymykseni olikin, voisiko perinteisessä softassa ylipäätään olla matriisilaskennan kaltaisia, rinnakkaisuudesta hyötyviä elementtejä siinä mittakaavassa, että ohjelmia kannattaisi kirjoittaa rinnakkaislaskennalle soveltuvaksi ja siten hyötyä GPU:iden tuomasta rinnakkaisuudesta, kuten Huang nähdäkseni visio, vai onko sarjatulikomennot kuitenkin se laskentatapa, jolla keskivertosoftaa on järkevää suorittaa nyt ja tulevaisuudessa?

1 tykkäys

Tein oman työurani suurkone/zetor-ohjelmoijana, jossa aika usein päädyttiin siihen, ettei säikeistys oikeastaan auta tehokkuutta isojen sovellusten yhteydessä, jossa samanaikaisia käyttäjiä on kymmeniätuhansia ja yli. Ongelmaksi muodostui tietokannat ja lukitukset, jotta eheys tulee hoidettua.
On parempi tehdä lyhytkestoisia tapahtumapohjaisia ohjelmia ja antaa tapahtumamonitorin/tietokonemoottorin hoitaa säikeistys/jonotus.

Sen vuoksi kommentoin jossain hömppädatasta, joka on hyvin eri tyyppistä. Ei strukturoitua, tekstidataa. Edes IOT-data ei hyötynyt tämän tyyppisestä käsittelystä (esim. MongoDB).
Tämän vuoksi tässä on mielestäni muodostumassa sellainen kupla, että yritykset investoi valtavia rahamääriä nopeaan tahtiin GPU:hun tietämättä, mitä ne tulee siitä hyötymään. Olenko väärässä?

11 tykkäystä

En tiedä - tätä olen itse pohtinut kovasti viime päivät. Huang tuntuu olevan sitä mieltä, että olet väärässä julistaessaan karrikoiden CPU-maailman loppumista :slight_smile:. Mulla ei riitä oma asiantuntemukseni tähän ja siksi yritän teiltä viisaammilta udella etenkin sitä, missä Huangin puheet menee överiksi ja missä ei.

Se piti toki vielä sanoa, että uskoisin kyllä niiden yritysten, jotka tällä hetkellä GPU-kapasiteettia etunenässä rohmuaa (Meta, Microsoft, Amazon jne.) tosin tietävän, miten siitä myös hyödytään.

4 tykkäystä

Nämä datacenter-yhtiöt on ihan eri asemassa - nehän nimenomaan nyt investoi tähän LLM-tyyppiseen käsittelyyn sekä ennakoivat, että yritykset lähtee mukaan tekemään tarkempaa kehitystyötä - otetaan nyt vaikka FSD-esimerkkinä. Ei yritysten toiminta kuitenkaan ole tähän nojannut, mikä se promoottori on?
CO/Cocacola kertoo, että markkinointi nopeutuu, kun AI tekee videoita? Jaahas, että sen perusteella myynti kasvaa investointien yli?

1 tykkäys

Sanoisin että osa tietää ja osa ei. Kuplasta kertoo paljon se, että nakkikioskien osake pomppaa 10x kun kertovat “tekevänsä yhteistyötä” Nvidian kanssa. Tulee juurikin mieleen dot com -ajat, jolloin olin vielä teekkarin retku, jossa random firmat ilmoittivat “fokusoivansa internetiin” ja sitten mentiin katosta läpi.

17 tykkäystä

Olen kallistunut hieman samalle kannalle. Sijoittajille on tuttu fear of missing out -käsite. Mielestäni vaikuttaa siltä, että ainakin joissain yrityksissä AI:n suhteen on vähän vastaava tilanne menossa. Tavallaan on kova paine olla eturintamassa, vaikka ei vielä ole ollenkaan selvää, mitä paikoin aika suuristakin investoinneista lopulta on hyötyä. Tilanne on osin vähän se, että ostetaan miljardilla tai parilla softaa, rautaa ja tehdashalleja sekä vaikkapa voimala sähköntuotantoa varten. Katsotaan sen jälkeen sitten, saadaanko niistä jotain hyödyllistä aikaiseksi.

Olen hieman tunnistavinani tässä myös sellaista toisinaan R&D-prosessiin liittyvää tilannetta, jossa jokseenkin näyttävä demo on joskus laadittavissa hyvin aikaisessa vaiheessa teknologian kehittämistä ja demon perusteella on sitten helppo kuvitella teknologian pystyvän “mihin tahansa” tai ainakin paljon enempään kuin se demoiluhetken kehitysvaiheessa pystyy. Tämä näkyy mielestäni tällä hetkellä esimerkiksi siinä, että erityisesti mediassa on tarjolla toinen toistaan villimpiä visioita siitä, miten AI pystyy ihan kohta vaikka mihin, tehostaa työtä valtavasti, vie työpaikat, korvaa ihmiset tuolla ja täällä, tuottaa kohta maailmanlopun ja niin edelleen.

Ainakin osa tarinoista alkaa olla vahvasti irrallaan siitä, mikä on kehityksen nykytila, ja villeimpien visioiden toteuttaminen edellyttäisi jotain oikeasti vahvaa tekoälyä, AGI:ta (artificial general intelligence). Ei ole mitenkään automaattisesti selvää, että esimerkiksi nyt paljon esillä olleen neuroverkkopohjaisen LLM:n tyyppinen ratkaisu ikinä konvergoisi mihinkään tuollaiseen, vaikka mallin kokoa kasvatettaisiin reilustikin nykyisestä.

Varmasti nykyisen kaltaisilla AI-ratkaisuilla saadaan hyötyjä aikaiseksi ja joillain aloilla hyödyt voivat olla merkittäviäkin. Mutta jos käy niin, että laajemmalla rintamalla hyötypuolelle ei realisoidu riittävän nopeasti investointivaiheessa esillä olleiden haavekuvien mukaisia ratkaisuja, niin tämä voi sitten suhteellisen nopeasti alkaa leikata investointeihin käytettävissä olevia budjetteja. Ja tämä on varmaankin se hetki, kun pitäisi ymmärtää hypätä kuplavankkureiden kyydistä pois. Kysymys tietysti kuuluu, miten tuollaisen tilanteen tunnistaa riittävän hyvissä ajoin, jos sellaiseen päädytään?

11 tykkäystä

Itse uskon TA:n antamaan tietoon ja siihen, että mututumpulat alkaa kertomaan siitä valtavasta tulevasta yrityksen tuottamasta arvon noususta 10v päästä. Niin, kysymys on tietysti siitä, että voiko NVDA:n kurssi kaksin tai kolminkertaistua? Tottakai voi, mutta siihenkö nojaat sijoituksesi?

3 tykkäystä

Itse en ole ehkä ihan noin pessimistinen, vaikka aiheetonta hypeä ja etukenoa varmasti tällä hetkellä otetaankin (ennen kaikkea sellaisten tahojen toimesta, joiden ymmärrys ohjelmistoista rajoittuu Officen peruskäyttöön).

Uskon edelleen vahvasti, että CSP:t, Meta, SAP, Adobe, ServiceNow ovat varsin hyvin kartalla siitä, mihin he investoivat. Hyödyistä kertoo mielestäni jotain se, että 40% Nvidian data center revenuesta tulee inferencestä - eli AI-ohjelmistojen käyttäjien tekoälylle kohdistamista palvelukyselystä. Luku on mielestäni todella korkea, kun huomioi, että reilu vuosi sitten lukema oli varmaankin hyvin lähellä 0 prosenttia. Selvästi siis investoinneista näyttäisi syntyvän arvoa. Yksittäisillä LLM-pohjaisilla sovelluksilla, kuten vaikka Github Copilotilla tai Adoben Fireflyllä on jo miljoonien ammattilaisten palvelusta maksava käyttäjäkunta.

Ehkä jossain määrin on myös vaikea nähdä, että tässä olisi syntynyt erityistä GPU-ylihankintaa, kun ongelma on pikemminkin päinvastoin ollut se, ettei GPU-resursseihin ole päässyt käsiksi, vaikka olisi halunnut ja rahaa olisi ollut. Kyse ei siis ole ollut pelkästään siitä, että yritykset eivät ole saaneet tilattua itselleen chippejä vaan myös esim. se, että esim. AWS:n ja Azuren GPU-resurssit ovat loppuneet kesken suurimman osan vuodesta 2023.

En kuvittele myöskään, että Nvidian kurssi kaksin- tai kolminkertaistuisi tai ainakaan se ei ole itselläni tuottotavoite. Toki nousu on ihan mahdollista, jos AMD:n näkemys $400B GPU-markkinasta 2027 tai Huangin näkemys $1000B data center -investoinneista 2028 mennessä pitävät edes puoliksi paikkaansa. Itselläni ei ole ainakaan kykyä antaa parempaa näkemystä.

Sekin on vielä hyvä muistaa, että jokainen nyt mahdollisessa kuplassa myyty Nvidia chippi luo vallihautaa (sekä mahdollista ohjelmistolisenssituloa) tulevaisuutta ajatellen, vaikka tässä takapakkia otettaisiinkin josssain välissä.

8 tykkäystä

Tämähän ei välttämättä esim. Coca-colalta vaadi senttiäkään capex-investointeja vaan ohjelmistolisenssin. Tässähän karkeasti se AI-video-ohjelmistolisenssin vaihtoehtokustannus on maksu AV-tiimille, joka tähän mennessä on tehnyt mainosvideotuotannot.

Missään nimessä ei pidä ajatella, että jokainen yritys maan päällä olisi kohta AI-infraa pyörittävä tekoälyfarmi, jossa tuhannet Nvidian chipit jauhaisivat yritysten omia malleja kuntoon.

12 tykkäystä

Olen tästä jossain määrin eri mieltä. Mielestäni AI-/neuroverkkoetukenoa on todistetusti ollut liikkeellä myös Mag 7 CEO-tasolla. Esimerkkinä tästä Elon Musk ja Full Self Driving (FSD). Musk on vuosia kertonut, miten autonomiset ajoneuvot ovat ihan kulman takana, mutta maali on aina siirtynyt, ks. esim. tämä wikipedia-artikkeli, johon on listattu ennusteet ja sitten aina uudet ennusteet, kun asiat eivät menneet ihan niin kuin piti. Ensimmäisen kerran piti olla valmista 2018, mutta uusin ennuste tarjoilee valmistumisvuodeksi 2024.

Tämä wikipedia-sivu tarjoaa myös jonkinlaisen tiivistelmän osasta noita lausuntoja:

In December 2015, Musk predicted that “complete autonomy” would be implemented by 2018.[128] At the end of 2016, Tesla expected to demonstrate full autonomy by the end of 2017,[129][130] and in April 2017, Musk predicted that in around two years, drivers would be able to sleep in their vehicle while it drives itself.[131] In 2018 Tesla revised the date to demonstrate full autonomy to be by the end of 2019.[132]

In 2019[135][136] and 2020,[137] Tesla’s order page for “Full Self-Driving Capability” stated:

Coming later this year:

  • Recognize and respond to traffic lights and stop signs
  • Automatic driving on city streets.

In January 2020, Musk claimed the FSD software would be “feature complete” by the end of 2020, adding that feature complete “doesn’t mean that features are working well”.[138] In August 2020, Musk stated that 200 software engineers, 100 hardware engineers and 500 “labelers” were working on Autopilot and FSD.[139] In early 2021, Musk stated that Tesla would provide SAE Level 5 autonomy by the end of 2021.[140][141] In a March 2021 conference call between Tesla and the California Department of Motor Vehicles (DMV), Tesla’s director of Autopilot software revealed that Musk’s comments “did not reflect engineering reality.” Details of the call were made public via a Freedom of Information Act request by PlainSite.[142] Speaking via video call at a 2023 AI conference held in Shanghai, Musk admitted that his former predictions were overly optimistic, and predicted that Tesla would finally realize fully autonomous vehicles at some point “later this year”.[143]

Osa Muskin lausunnoista on varmasti otettavissa markkinointina ja hypen luomisena Teslan ympärille, mutta itse ainakin olen sitä mieltä, että paljolti tähän liittyy myös sitä, että ei oikein hyvin ymmärretä, minkälaisen ongelman kanssa ollaan tekemisissä ja toisaalta sitä, miten neuroverkkopohjainen AI on koulutettavissa minkäkinlaiseen tehtävään. Ja mitkä ovat ylipäätään nykyisten kaltaisten neuroverkkopohjaisten ratkaisujen rajat millään tolkullisen kokoisella mallilla.

Teslan autopilotti putoaa nähdäkseni esimerkkinä myös tuohon aikaisemmin mainitsemaani kategoriaan siitä, miten R&D-hommissa on joskus mahdollista saada aikaan näyttävä demo, jonka perusteella on helppo (jopa firman managementin) uskoa teknologian pystyvän johonkin, jonka toteuttaminen voi osoittautua lopulta vaikeaksi ja joudutaan ehkä joskus jopa vaihtamaan alla olevaa teknologiaa kokonaan tavoitteen saavuttamiseksi.

Ei mielestäni ole vielä ihan selvää, ratkeaako FSD ylipäätään neuroverkoilla. Opetusmateriaaliaineisto on ainakin ollut massiivinen (lähde sama wikipedia-sivu):

Tesla’s software has been trained based on 3 billion miles driven by Tesla vehicles on public roads, as of April 2020.[118][119] Alongside tens of millions of miles on public roads,[120] competitors have trained their software on tens of billions of miles in computer simulations, as of January 2020.[121] In terms of computing hardware, Tesla designed a self-driving computer chip that has been installed in its cars since March 2019[122] and also designed and built in-house a neural network training supercomputer (“Tesla Dojo”);[123][124] other vehicle automation companies such as Waymo regularly use custom chipsets and neural networks as well.[125][126]

Jos useampi miljardi ajokilometriä ei riitä opetusaineistoksi, niin herää toki kysymys, onko teknologinen lähestymistapa edes oikea?

According to Elon Musk, full autonomy is “really a software limitation: The hardware exists to create full autonomy, so it’s really about developing advanced, narrow AI for the car to operate on.”[115][116] The Autopilot development focus is on “increasingly sophisticated neural nets that can operate in reasonably sized computers in the car”.[115][116] According to Musk, “the car will learn over time”, including from other cars.[117]

Musk tietysti tuntuu nojaavan jossain määrin hypoteesiin, että jonkinlaisilla hienostuneilla neuroverkkoratkaisuilla homma on hoidettavissa kotiin. Ja auto oppii ajan myötä, miten liikenteessä pitää käyttäytyä. Mutta hyvä kysymys on, missä määrin tehtävä on tosiaan edes ratkaistavissa näin. Se, että Musk puhuu tällaista, ei tietysti vielä tarkoita, että asia olisi niin. Hypoteesista on tosiaan kuitenkin kyse, kunnes ratkaisu on löydetty ja todettu toimivaksi.

Voiko olla, että FSD tarvitsee jotain sellaista kontekstuaalista ymmärrystä tilanteesta, jota ei nykyisen kaltaisilla neuroverkoilla opetettuna helposti synny? Ihmiskuskihan ei tarvitse miljardeja kilometrejä alle muuttuakseen “full self driving”-olioksi, mutta vastaavasti ihminen pystyy hyödytämään kuitenkin muuta elämänkokemustaan pärjätäkseen liikenteessä ja sellaisissa liikennetilanteissa, joita ei ole aiemmin nähnyt. Menestys äärimmäisissä erikoistilanteissa toki voi olla hyvin vaihtelevaa ihmiskuskillakin. Jos Teslan FSD:n kanssa on tämän kaltaista ongelmaa, niin löytyykö myös muiden firmojen muista AI:n suunnitelluista käyttökohteista vastaavia ongelmia?

Vaikka tämä on NVidia-ketju, niin Tesla mielestäni tosiaan käy esimerkiksi yhdestä isosta firmasta, joka on myös NVidian asiakas (Teslan Dojo supertietokone useita tuhansia NVidian GPU:ita) ja jolla on tukeva etukeno neuroverkko- / AI-ratkaisuissa. Tavallaan epäselvää mielestäni on, missä määrin samaa etukenoa on muuallakin. Ja itse olen taipuvainen arvelemaan, että kyllä sitä löytyy.

Kysymys sitten kuuluukin, kuinka monella firmalla riittävät rahkeet, innostus ja omistajien motivoiminen AI:n kehittämiseen, jos esimerkiksi ensimmäiset 10 vuotta eivät tuotakaan ihan sellaista tuottavuusloikkaa ja tulosta, jota lähtötilanteessa toivottiin? Esim. Teslalla saattaa vielä tulla vastaan 10 vuotta siitä, kun FSD:n piti ensimmäisen kerran toteutua 2018 ennen kuin FSD on valmis. Ja voi olla, että vielä 2028 myös lykätään ennusteita eteenpäin.

Lisäksi Tesla kuitenkin rakentaa AI:ta lopulta vain hyvin spesifiin käyttötarkoitukseen. Jotenkin tästä tulee väistämättä sellainen ajatus, että myös monissa muissa varsin spesifeissäkin käyttötarkoituksissa saattaa tulla vastaan ihan samalla tavalla hankaluuksia, jotka alun hyvän demon jälkeen johtavat hyvin pitkälle polulle, jota tallatessa on vaikea saada riittävän luotettavasti toimivaa tuotetta ulos.

Helpompaa tämä tulee varmastikin olemaan ratkottaessa sellaisia tehtäviä, joissa lopputuloksen tarkkuuden kanssa ei ole ihan niin justiinsa, eli voidaan tehdä vähän sinnepäin ja ei ole niin vaarallista, jos AI vähän hallusinoi omiaan aina välillä eikä ole fundamentaalilla tavalla kartalla tilanteesta. Mutta sitten sellaiset tehtävät, jossa pitäisi olla sekä AI:lla pitäisi olla oikeaa ymmärrystä asiasta ja lisäksi pitäisi pystyä luottamaan siihen, että AI:n lopputulos on 99,99% ajasta validia, voivat osoittautua huomattavasti vaikeammiksi rasteiksi. Esimerkiksi autonominen ajaminen kuuluu tietysti sektoriin, jossa ajoittaiselle AI:n sekoilulle on aika pienet toleranssit.

Eli tämä on laajempi perusteluni sille, miksi näen tilanteessa jonkinlaisen AI-hypekuplan aineksia ja miksi pidän ihan mahdollisena sitä, että mahdolliset lyhyen ja keskipitkän tähtäimen pettymykset AI-kehittämisen saralla johtavat siihen, että AI:n kouluttamiseen tarvittavan raudan myynti ja varsinkin myynnin kasvu saattavat jossain vaiheessa sakata merkittävästi. Ja tämä on sitten se, joka saattaa katkaista myös NVidian voittokulun ainakin hetkeksi. Saatetaan päätyä jossain vaiheessa sen kaltaiseen tilanteeseen, jossa logistiikkaketjuun on bufferoitu suuria määriä GPU-chippejä, jotka eivät sitten enää käy toivotulla tavalla kaupaksi. Tulee mahdollisesti alaskirjauksia, kun chipit vanhenevat käsiin, ja samalla kasvuennusteita joudutaan tarkistamaan uuteen asentoon.

Ja edelleen painotan sitä, että uskoakseni kyllä AI:sta varmasti tullaan saamaan jotain hyötyjä ulos varsinkin joillain aloilla ja sopivasti soveltaen. Mutta miten hyvin nämä hyödyt ovat nyt linjassa AI-investointivimman ja sen kustannusten kanssa? Se on se ydinkysymys, johon on tietysti huomattavasti vaikeampi vastata.

12 tykkäystä

Hyvä ja perusteltu kirjoitus! Jaan näkemyksen, että AGI / FSD / vastaavat eivät tule olemaan todellisuutta hetkeen joidenkin kulttihahmojen aiemmista puheista huolimatta.

Mutta en näe, että nykyistä GPU-investointiaaltoa varsinaisesti ajaa nämä kaikkein haastavimmat AI-tavoitteet vaan ennen kaikkea kuluttaja- ja business-softaan upotettavat (generatiiviset) tekoälysovellukset (kuten Github / Office copilotit, Fireflyt, Einsteinit jne.). Ja nämä luovat ihan oikeaa rahaa ohjelmistotaloille. Microsoftin 365 Copilotin huhtaan kasvattavan yläriviä $2-3B edestä kuluvalla fiskaalilla, Github copilot on jo todistetusti tahkonnut $100M lisenssituloja. OpenAI nosti vuodessa $0B revenue run raten $2B:ksi.

Näihin LLM-malleihinkin liittyy paljon vääriä käsityksiä, mutta pointtini on, että isoja investointeja tekevät teknologiatalot tietävät kyllä, mihin he ovat investoimassa ja tekevät todistetusti näillä investoinneilla erittäin kannattavaa recurring revenueta. Tämä on selvästi poikkeavaa aiempiin teknovetoisiin markkinaralleihin - nyt reaalimaailman tulokset ylittävät odotukset.

Se ei silti poista sitä, että sentimentti on nyt erittäin positiivinen eikä tarvita kuin yksi vihjaus siitä, että ehkä Nvidian kasvu ei olekaan tulevaisuudessa vastaavaa kuin 2023-2024, jotta sentimentti saadaan kääntymään.

13 tykkäystä

Tämä on totta. On tässä kierroksessa selvästi lihaa luiden ympärillä. Ja näistä sovelluksista on esimerkiksi Microsoftin tutkimusten perusteella tarjolla niin koettua kuin mitattavaa hyötyäkin, mikä tietysti tarkoittaa sitä, että käyttäjän kannattaa niistä maksaa:

Ja todennäköisesti hyötyjä saadaan vielä enemmän, mitä paremmin työkaluja opitaan / totutaan hyödyntämään.

5 tykkäystä

Havahduin siihen, että NVIDIAn uudet GPUt kuluttaa 40% enemmän energiaa. Eli Jensen lienee soittanut Charles Liangille, tarvitaan isommat jäähdyttimet. Onko muuten kellään tuntumaa millaiset nuo B100 ja B200 prosessorit oikein ovat?

Nvidia’s next-gen AI GPUs could draw an astounding 1000 Watts each, a 40 percent increase — Dell spills the beans on B100 and B200 in its earnings call | Tom’s Hardware (tomshardware.com)

6 tykkäystä

Nvidian osakkeessa on kyllä poikkeuksellista vahvuutta. Ei yhtään anna dippiä. Ei se minusta huoju niin kuin yleensä ATH:ssa pitäisi huojuilla. En graafeja osaa tutkailla, mutta oliko @DayTraderXL llä jotain tarinan tynkää siitä, että mitä tuo osake nyt oikein juonii?

7 tykkäystä

No nyt yksi nvidia johtaja myynyt osan osakkeistaan.

2 tykkäystä

Eli kyseinen herra Coxe myi 5% omistuksestaan. Edelleen omistaa 3.7M osaketta, jotka tämän päivän kurssilla arvoltaan 3.5 MILJARDIA. Sanoisin, että ei nyt hirveästi aiheuta ainakaan itsessäni epäilyksen tuntemuksia, jos johto edelleen mukana kyydissä omaisuuserillä, jollaisia esim. meillä Suomessa ei ole kuin Antti Herlinillä.

21 tykkäystä

Palaan hieman tähän aiempaan keskusteluun, joka sivuaa NVidian vallihautoja GPU-laskennan ympärillä.

ZLUDA lienee kuollut hevonen tässä kisassa (ZLUDA:n GitHub-linkistä):

Shortly thereafter I got in contact with AMD and in early 2022 I have left Intel and signed a ZLUDA development contract with AMD. Once again I was asked for a far-reaching discretion: not to advertise the fact that AMD is evaluating ZLUDA and definitely not to make any commits to the public ZLUDA repo. After two years of development and some deliberation, AMD decided that there is no business case for running CUDA applications on AMD GPUs.

AMD:n tulokulma GPU:n ohjelmointiin vähän CUDA:n tyylisesti on ROCm:

ROCm is an open-source stack, composed primarily of open-source software, designed for graphics processing unit (GPU) computation. ROCm consists of a collection of drivers, development tools, and APIs that enable GPU programming from low-level kernel to end-user applications.

ROCm is powered by Heterogeneous-computing Interface for Portability (HIP); it supports programming models, such as OpenMP and OpenCL, and includes all necessary open source software compilers, debuggers, and libraries. It’s fully integrated into machine learning (ML) frameworks, such as PyTorch and TensorFlow.

Toisin kuin varsin suljettu CUDA, ROCm on rakennettu pääasiassa avoimen lähdekoodin / rajapintojen päälle. Periaatteessa ROCm ei tuota samanlaista vendor lock-in:ia kuin NVidian CUDA, joten kaikilla GPU-valmistajilla on ainakin teoriassa mahdollisuus tukea ROCm:ää helpommin kuin CUDA:aa.

Tämä on totta ja se herättää myös kysymyksen siitä, miten syvät NVidian vallihaudat CUDA:n kanssa oikeastaan ovatkaan? Voi olla, että esimerkiksi ML/AI-puolella vallihaudat ovat varsin matalat, sillä ainakin AMD väittää jo tukevansa esim. PyTorchia ja TensorFlow:ta. Ja uusia kirjastoja varmasti on tulossa.

Vallihauta lienee syvä nyt ja jatkossa lähinnä niillä käyttäjillä, jotka käyttävät paljon CUDA:aa suoraan ilman laajalti käytössä olevia välikirjastoja. Tai sitten jos kirjastot nojaavat johonkin sellaisiin NVidian hardware-toteutuksiin, joita AMD:lla ei vielä ole saatavilla. En tiedä, miten yleisiä nuo erikoisominaisuudet ovat ML/AI-puolella, mutta esimerkiksi grafiikkapuolella noista on joskus tullut jotain vallihautoja erityisesti vähän valtavirrasta poikkeavia ratkaisuita tehdessä. Pelkkä rinnakkaistettu matriisi-/tensorilaskenta yms. perustoiminnallisuus ei kuitenkaan tällaisia rajoitteita aseta ja on suoraviivaisesti toteutettavissa kummalla tahansa raudalla (NVidia vs AMD).

Tuoreehko AMD:tä koskeva kirjoitus Seeking Alphasta sivuaa tätä asiaa. Pari poimintaa artikkelista:

The company is making impressive progress in encouraging large data center customers, as well as rising AI companies, to adopt AMD’s GPUs and ROCm software for their AI workloads, as CEO Lisa Su shared on the Q4 2023 AMD earnings call:

"The additional functionality and optimizations of ROCm 6 and the growing volume of contributions from the Open Source AI Software community are enabling multiple large hyperscale and enterprise customers to rapidly bring up their most advanced large language models on AMD Instinct accelerators.

For example, we are very pleased to see how quickly Microsoft was able to bring up GPT-4 on MI300X in their production environment and roll out Azure private previews of new MI300 instances aligned with the MI300X launch. At the same time, our partnership with Hugging Face, the leading open platform for the AI community, now enables hundreds of thousands of AI models to run out of the box on AMD GPUs and we are extending that collaboration to our other platforms."

Additionally, Meta Platforms, Inc. (META) is also a big customer of AMD’s “MI300X,” and amid its launch in December 2023, analysts at Raymond James highlighted that:

“Meta’s comment that MI300X based OCP accelerator achieved the “fastest design to deployment in its history” suggests that AMD’s software is maturing fast.”

Nämä lienevät käypäisiä esimerkkejä siitä, että ainakaan isoilla ohjelmistotaloilla ei liene vaikeuksia portata AI-stackiaan käyttämään AMD:n rautaa. Ja jos teesinä on se, että suurin osa GPU-asiakkaista on suuria ohjelmistotaloja ja pilvipalveluiden tarjoajia

niin voi olla, että CUDA:n oletettu vallihauta ei tosiaan ole vallihauta ensinkään näissä ML-touhuissa ja se ei välttämättä tuo NVidialle sellaista kilpailuetua, josta on monessa yhteydessä mainittu.

Tuosta samaisesta Seeking Alphan artikkelista tarttui silmään myös tämä kohta:

Furthermore, in terms of net profitability, Nvidia has been able to deliver incredible profit margin expansion relative to AMD over the past year, thanks to its enviable pricing power for its AI chip “H100,” reportedly selling for around $40,000 per GPU.

Although from a positive perspective, Nvidia’s high price tags enable AMD to price its own chips more aggressively as well, with Citi analyst Christopher Danely estimating that:

“It appears as if Microsoft and Meta are the largest customers for the MI300, … with the average selling price at roughly $10,000 for Microsoft and $15,000 or more for other customers”

Mistä tulee mieleen, että millaiset GPU:iden yksikköhinnat lopulta ovat taustalla erilaisissa kassavirtalaskelmissa, joita NVidian osalta esitetään? Jos siis tilanne on se, että AMD tarjoaa suorituskyvyltään kilpailukykyisen GPU-raudan n. 1/3 hinnalla ja GPU:ta lähellä oleva softa (esim. ML/AI framework tai kirjasto) ei lopulta muodosta juuri minkäänlaista vallihautaa ainakaan näissä himotuimmissa ML/AI-käyttökohteissa, niin mitä tämä tarkoittaa NVidian kannalta? AMD saattaa hyvinkin ottaa markkinaosuuksia ja toisaalta NVidia saattaa joutua aivan lähiaikoina mukaan hintakilpailuun, jonka seurauksena aiempia varsin tukevia katteita ei ole enää tarjolla.

Onko tilanne siis mahdollisesti se, että AMD:ta aliarvioidaan, tai se, että NVidian kassavirtalaskelmat ja tulevaisuuden kasvuodotukset perustuvat toistaiseksi sellaisiin katteisiin, jotka eivät ole ylläpidettävissä edes lähitulevaisuudessa?

10 tykkäystä

Tätä on pakko lainata ja kommentoida, sillä mielestäni tämä on aivan keskeistä CUDA:n vallihaudoista keskustellessa ja olen tullut samaan lopputulokseen. 99 prosentilla datatieteilijöistä CUDA-osaaminen rajoittuu tähän python lauseeseen

torch.device('cuda' if torch.cuda.is_available() else 'cpu')

Itsekin olen ottanut annettuna, että Nvidialla olisi CUDA:n kautta ML-laskentaan massiivinen vallihauta. Toki vallihauta on olemassa, mutta se syntyy ennen kaikkea siitä, että näidne suosituimpien kirjastojen kanssa skriptiä kirjoittaessa CUDA-tuki on ihan ylivertainen AMD:hen nähden. Jos PyTorch viritetään todella joskus toimimaan ROCm:n kanssa yhtä hyvin kuin CUDA:lla, tuota vallihautaa ei enää ole, koska devaajalle CUDA:n toiminta on totaalisesti abstraktoitu tuonne kirjastojen sisälle.

6 tykkäystä

Lisäksi aiemmin on ollut se tilanne, että ROCm ei ole ollut tuettuna kuluttaja-GPU:lla / peli-GPU:illa. Tähänkin on tullut viime vuoden loppupuolella muutos:

Tämä osaltaan madaltaa edelleen kynnystä AMD:n tuotteiden käyttämiseen / kokeiluun ML-puolella, vaikka ei toki ole konesalien kannalta niin merkittävä asia.

Tässä on yksi blogientry, jossa on kokemuksia viime vuoden kesältä pykälää vanhemman AMD:n MI250 kortin osalta ja suorituskykyvertailua NVidian A100-kortin kanssa.

https://www.databricks.com/blog/amd-mi250

Training LLMs with AMD MI250 GPUs and MosaicML

With the release of PyTorch 2.0 and ROCm 5.4, we are excited to announce that LLM training works out of the box on AMD MI250 accelerators with zero code changes and at high performance!

Today’s results are all measured on a single node of 4xMI250 GPUs, but we are actively working with hyperscalers to validate larger AMD GPU clusters, and we look forward to sharing those results soon! Overall our initial tests have shown that AMD has built an efficient and easy-to-use software + hardware stack that can compete head to head with NVIDIA’s.

Under the hood, PyTorch is mapping every floating point operation, every GPU command, and every distributed operation like torch.matmul(), torch.cuda.current_device(), inputs.to('cuda:0'), torch.dist.all_gather(), etc. call to the appropriate ROCm and RCCL operations on the AMD system. See Figure 1 for screenshots of what this looks like. We agree, it’s funny to run torch.cuda on an AMD machine, but it works!

The benefit of this approach is that existing PyTorch code requires no changes when switching from NVIDIA to AMD. Since our LLM Foundry codebase is built on top of pure PyTorch, it also works with no code changes. Even advanced distributed training algorithms like Fully Sharded Data Parallelism (FSDP) work seamlessly. In Figure 2 you can see what it looks like in your terminal when training an MPT model on an AMD system with LLM Foundry – it’s exactly the same as on an NVIDIA system.

The results are plotted in Figure 3 with raw data available in Table 2. Overall we find that AMD MI250 achieves an average of ~80% of the per-GPU training throughput of A100-40GB and ~73% of A100-80GB across the different MPT models. We predict that AMD performance will get better as the ROCm FlashAttention kernel is improved or replaced with a Triton-based one: when comparing a proxy MPT model with n_heads=1 across systems, we found a substantial lift that brings MI250 performance within 94% of A100-40GB and 85% of A100-80GB.

Given the consistent performance we see across many MPT model sizes, we believe that at the right price, AMD and NVIDIA systems are interchangeable for LLM training and we would recommend to use whichever one has higher availability or performance per dollar.

Sikäli kun tämä on hyvässä hengessä tehty blogientry, vaikuttaisi siltä, että PyTorch on toiminut jo viime kesänä varsin kunnolla AMD:n raudan kanssa. Tässä esitetyn kokemuksen perusteella suosittavat käyttämään sitä rautaa, jossa on parempi saatavuus tai josta saa enemmän suorituskykyä per dollari.

Edelliseen blogientryyn on jatko-osa viime syksyltä:
https://www.databricks.com/blog/training-llms-scale-amd-mi250-gpus

Training LLMs at Scale with AMD MI250 GPUs

One of the most popular libraries for ML programmers is PyTorch, and as we reported in our last blog, PyTorch runs seamlessly in eager mode on AMD GPUs like MI250. Even advanced distributed training techniques like Fully-Sharded Data Parallelism (FSDP) work out of the box, so if you have a PyTorch program (like LLM Foundry) that works on NVIDIA GPUs, there is a high chance that it will also work on AMD GPUs. This is made possible by PyTorch’s internal mapping of operators like torch.matmul(...) to either CUDA or ROCm kernels.

Another exciting software improvement to the AMD platform is its integration with the Triton compiler. Triton is a Python-like language that allows users to write performant GPU kernels while abstracting away most of the underlying platform architecture. AMD has already added support for its GPUs as a third-party backend in Triton. And kernels for various performance critical operations, like FlashAttention-2, are available for AMD platforms, for both inference and training, with competitive performance (See Figure 3).

In this blog, we’ve demonstrated that AMD MI250 is a compelling option for multi-node LLM training. Our initial results show strong linear scaling up to 128 x MI250, stable convergence, and thanks to recent software improvements, the MI250 is closing the performance gap with the A100-40GB.

We believe these results strengthen the AI training story for AMD GPUs, and thanks to the interoperability of PyTorch, Triton, and open-source libraries (e.g., Composer, StreamingDataset, LLM Foundry), users can run the same LLM workloads on either NVIDIA or AMD or even switch between the platforms, as we demonstrate in Figure 7.

Toki varoituksen sana, että en ole itse kokeillut toistaa tämän tyyppisiä testejä, koska ei ihan niin paljoa lompakossa ole ylimääräistä täytettä, että voisi itselle hankkia mainittua rautaa kokeiluun. Mennään siis vahvasti toisen käden tietojen varassa.

Mielenkiintoista olisikin nähdä vertailu MI300-kortin ja NVidian nykyisen ja tulevan kortin kanssa. Epäilemättä niitä on kohta tarjolla.

3 tykkäystä