NVIDIA - Mahdottoman mahdollistaja

Olen varmaan juuri yksi näistä hölmöistä. Juuri tänään moni julistaa jo NVidialle (ja koko AI-puolijohdesektorille) miltei kuolemaa, mutta vaikea nähdä, miten tämä menisi näin.

JOS tilanne olisi se, että olisi joku AI-malli, jota ei tarvitse enää sen kummemin kehittää ja se tekee jo kaiken mahdollisen, NIIN silloin kyse voisi olla niin yksinkertaisesta optimointitehtävästä, että laskentatahoa tarvittaisiin jatkossa merkittävästi vähemmän. Mutta tämä ei sentään ole tilanne.

Sikäli kun (vähintään tietynlaisten) mallien kouluttamiseen saadaan merkittävä nopeutus, niin tämä kai tarkoittaa näin äkkiseltään ajatellen juuri sitä, että joko voidaan aiempaa nopeammin iteroida uusia malliversioita tai vaihtoehtoisesti rakentaa monimutkaisempia malleja (ja silti ehkä päästä koulutuksessa nopeammin maaliin). Luultavasti kummallekin on tarvetta.

Vastaavasti mallin käyttöpuolella viime joulukuun ARC AGI -läpimurron yhteydessä käytiin läpi seuraavaa:

OpenAI’s new o3 system - trained on the ARC-AGI-1 Public Training set - has scored a breakthrough 75.7% on the Semi-Private Evaluation set at our stated public leaderboard $10k compute limit. A high-compute (172x) o3 configuration scored 87.5%.

Tuon o3-mallin high compute -versio käytti yli 170x määrän laskentatehoa suhteessa “low compute” malliin (joka käytti yli 2x määrän o1 high compute malliin nähden), joten jotain 100x luokkaa olevaa nopeutusta tuon o3 mallin osalta vähintään kaivattaisiin käyttöpuolella. Eikä tämä o3 myöskään mikään valmista kauraa, eli jotain enempi pitäisi saada tehtyä.

Disclaimerina se, että en ole ehtinyt tässä viikonlopun aikana ehtinyt kovin tarkasti katsoa, mitä tuosta Deep Seekistä pitäisi oikein ajatella, mutta näin korkealla tasolla joku 100x nopeutus mihin tahansa väliin on luultavasti erittäin tervetullut ja auttaa puskemaan kehitystä eteenpäin. Ja todennäköisesti edelleen tämänkin jälkeen merkittävästi isommalla laskentateholla saa ainakin jollain asteikolla reilusti enemmän myös aikaan (mallin koulutusnopeus, käyttö, raskaampi malli, jne.).

Näissä Deep Seek reaktioissa haiskahtaa monin paikoin mielestäni panikointi ja ylilyönti. Juuri tämmöisiä pyrähdyksittäin tapahtuvia kehitysaskeleita on odotettavissa silloin, kun menetelmäpuolella tehdään remonttia. Ei kai kukaan olettanut, että AI-kehitys etenisi jotenkin lineaarisesti sen jälkeen, mitä esimerkiksi viimeisen 30 vuoden aikana alalla on tapahtunut?

Se, mikä NVidian (ja AI-puolijohdesektorin voisi tappaa) olisi tilanne, jossa mitään kehitysaskeleita ei saataisi aikaan vuosiin isoista investoinneista huolimatta. Nyt nähty on ainakin (äärimmäisen pintapuolisen tutustumisen pohjalta) jotain ihan päinvastaista.


Lisäänpä tähän vielä sen, että isoimmat panikoijat eivät ehkä muista, mitä AI-mallien koulutukseen tarvittavalle laskentateholle on tapahtunut esim. viimeisen n. 15 vuoden aikana. Tässä kuva, joka auttaa hahmottamaan tilannetta (kuvan lähde: Computing Power and the Governance of AI | GovAI Blog):

Tuolla vasemman puolen asteikolla 100x kerroin tarkoittaa 2 pykälän hyppyä, joten kokonaiskuvassa yksi 100x miltei häviää kohinaan. Jos kauttaaltaan saataisiin 100x parannus (mikä ei ilmeisesti nyt ole tilanne?), niin se veisi laskentakapasiteetin näkökulmasta lopulta vain joitain vuosia laskentaa edelle nyt nähdystä kehityslinjasta.

Vuodesta 2010 alkaen laskentatehon tarve on tosiaan kasvanut n. 10^11 -kertaiseksi, eli 100 000 000 000 -kertaiseksi. Eikä mikään ekstrapolointi tässä osoita siihen suuntaan, että laskentatehon tarve olisi vähenemässä yhtään pidemmällä aikavälillä.

7 tykkäystä

OpenAI:n omat kielimallit perustuvat todella paljon mm. Googlen vapaaseen jakeluun julkaisemasta tutkimuksesta, joten näkisin tämän vähän katkerana kommentointina.

1 tykkäys

Deep Seekiin ja käytössä olleeseen NVidian rautaan liittyen näyttäisi pyörivän tällaisia huhuja X:ssä:

https://x.com/StockMKTNewz/status/1883868749847265473

Saapa nähdä, mitä käänteitä tässä on vielä tarjolla.

8 tykkäystä

Niin eihän kiinaan saanut viedä H100ia. Sinne oli oma H800 malli joka sekin tosin bannattin aika pian.

Tuosta on kyllä melkoisesti huhuja liikenteessä että tämä selostus käytetystä rautakapasiteetista saattaa olla hitusen värikynän kanssa kuvailtu. Toisaalta koska julkistivat aika tarkkaan mitä on tehty, muiden pitäisi pystyä toistamaan tämä temppu. Epäilen että ainakin OpenAIn, Metan ja Googlen toimistolla vedetään juuri pitkää päivää analysoiden tätä keitosta. Tiedämme todennäköisesti aika pian jos kyse on sittenkin Kiinalaisista Saduista ja Tarinoista tuon treenausrautamäärän osalta.

10 tykkäystä

Jossain määrin varmaankin markkinat ekstrapoloivat nimenomaan log-lineaarisesti kehityksen jatkumista. Ja tämä epälineaarisuus aiheuttaa hermoilua ja epävarmuutta -$600M edestä ihan ymmärrettävästi.

DeepSeekin merkitystä pohtiessa kannattaa muistaa ainakin seuraavat asiat:

  1. Jevonsin paradoxi: kun jokin resurssin käytön tehokkuus lisääntyy (ts. halpenee - tässä tapauksessa tekoälyn laskentavaatimus), se johtaa yleensä resurssin kysynnän kasvuun - ei suinkaan vähenemiseen
  2. Edelliseen liittyen, jos nyt saadaan output 100 1/20 hinnalla suhteessa aiempaan, tuskin tyydytään outputtiin 100, vaan lyömällä lisää laskentaa voidaan nyt saada output 2000 aiemmalla kustannuksella.
  3. Edelliseen liittyen: jos ennen Nvidialla potentiaalisia mallikehittäjäasiakkaita oli ehkä 10, nyt niitä on äkkiä tuhansia.

Muistutan edelleen lisäksi, että MoM-, kvantisointi-, ja latent attention -temput, joilla etenkin muistivaatimukset saadaan alas, on hyvin tunnettuja NLP-puolen tekniikoita. DeepSeek ei tue muita modaliteetteja. Sikäli siis vertailut multimodaalisiin malleihin on jossain määrin omena vs. appelsiini -vertailuja. Ei ole ollenkaan selvää, että nuo optimoinnit toimii esim. vision transformereille, joita 4o:ssa on ja jotka haukkaavat eittämättä ison palan koulutus- ja inference-laskennasta.

Senkin muistutan vielä, että DeepSeek saatiin aikaan Nvidian siruilla. Noita jippoja olisi ollut aivan turha yrittää kustomi ASIC:seilla tai AMD:n raudalla. Eli jos haluaa jatkossakin keksiä uusia mullistavia innovaatioita, on parempi luottaa Nvidian stackkiin. Kaiken lisäksi osalle DeepSeekin tehostuskeinoista tulee suoraan algoritminen built-in tuki Blackwelliin.

On ihan ymmärrettävää, että markkina hermoilee - @Jukka_Lepikko on purkanut tämän mielestäni etenkin lyhyen aikavälin epävarmuutena auki ihan oikein. Olen itsekin sanonut täällä, että algoritminen muutos, joka veisi Nvidian vallihaudan, on suurin uhka. Mielestäni tämä ei vienyt vallihautaa eikä myöskään pysäytä AI:n kehitystä ja sitä kautta tapahtuvaa väistämätöntä laskennan kasvua.

Jos Nvidiassa ollut mukana näillä hinnoilla, on pitänyt aidosti uskoa AGI:iin / ASI:in ja 10T valuaatioon 10v sisällä. Kuten @Eevitsi kuvasi, tämä on todennäköisesti tällaisen bull-lopputuleman vauhdittaja pikemmin kuin tappaja. Mielenkiinnolla odotan Huangin näkemystä tästä asiasta muutaman viikon päästä conf callissa.

19 tykkäystä

Juuri näin. Jenseniltä todennäköisesti on jo näkymystä tähän osarin jälkeen. Uskoisin, että tämä voi olla hyvinkin pitkällä tähtäimellä selkeästi positiivista NVDIA:lle, kun heidän rautansa päälle tämäkin on rakennettu. Jos Deepseekistä saadaan ideoita miten tehdään tehokkaammin myös AGI/ASI tulevaisuudessa tämä voi sataa suoraan NVDIA:n laariin.
AGI/ASI:n kohdalla näiden kustannustehokas hyödyntäminen tarjottavissa palveluissa todennäköisesti vaatii vielä uusia innovaatioita ennen kuin nämä kehitysaskeleet ovat valmiita parrasvaloihin ja laajempaan käyttöönottoon.
Seuraavan kvartaalin guidancea odotan myös mielenkiinnolla. Samoin vihjeita mitä lähikvartaalit voivat tuoda tullessaan.

Bearinkin tästä lyhyellä aikavälillä saa, kuten @Jukka_Lepikko on maalaillut. Jos tästä tulee epävarmuutta megateknoilla kuinka paljon kapasiteettiä tarvitaan muutaman kvartaalin sisään, niin voi kysyntä myös laskeakin reippaalla kädellä. Toistaiseksi chippien saatavuus on ollut kysyntään nähden pullonkaula. Miten käy marginaaleille, jos saatavuus paranee? Painetta, painetta alaspäin potentiaalisesti.

Todella mielenkiintoinen tilanne. Tästä saa eri aikajänteillä hyvin erilaiset sijoitusteesit. Molemmille lyötyy perustelunsa. Volatiliteetti ei yllätä.

3 tykkäystä

Koodi on MIT-lisenssillä, kuten alalla pitkälti tapana on. Mallin lisenssi sen sijaan on tyypillinen epästandardi, jossa kielletään kaikenlaisia erilaisia käyttötarkoituksia eli ei täytä yleisesti hyväksyttyjä ”open sourcen” määritelmää (OSD, kohta 5 ”No discrimination against persons or groups”, kohta 6 ”No discrimination against fields of endeavor, like commercial use”) tai FSF:n alkuperäistä freedom zeroa. Mutta ei sentään ole OpenAI:n tyyppistä kilpailijoiden poissulkemista jollain hatusta revityllä liikevaihtorajalla.

Ihan kiinnostavaa tuota on chat.deepseek.com:n kautta testailla. Suosittelen kokeilemaan kiusallisia Kiina-kysymyksiä jos haluaa kunnon viihdettä.

5 tykkäystä

Kun näin…
https://x.com/PGelsinger/status/1883896837427585035?t=x_Cdp4WB7zvN92YuXxWQKw&s=19
…toteaa Intelin viime vuonna väistynyt CEO, niin varmaan rivien välissä on myös jotain katkeran suloista.
Olisiko ollut myös vähän vaikutusta päivän kurssiliikkeisiin?

1 tykkäys

Nvidian osakkeen arvo putosi niin merkittävästi, että se laski alle osakkeen hinnan 200 päivän ja 50 päivän liukuvien keskiarvojen. Teknisessä analyysissä 50 päivän keskiarvon leikkaamista 200 päivän keskiarvosta kutsutaan kuolonristiksi, jota pidetään merkkinä laskutrendin alkamisesta.

4 tykkäystä

mielenkiintoista nähdä mihin suuntaan jatketaan

The DeepSeek panic sell-off is a golden buying opportunity for Nvidia, says Wedbush’s Dan Ives

https://x.com/CheddarFlow/status/1884051216696762749

Nvidia sell-off an ‘overreaction’, presents buying opportunity- Tom Lee
https://x.com/StockMKTNewz/status/1884025257968951463

5 tykkäystä

Ei vielä ole näkynyt tätä juttua täällä. Jos hetkeksi laitan foliohatun päähän, ehkäpä eilinen kurssiliike ei ollutkaan DeepSeekistä johtuva, vaan joku sai tietää näistä suunnitelmista etukäteen.

13 tykkäystä

3 tykkäystä

Trumpin tariffit ovat keppi jota vilautetaan varoitukseksi jolla yritetään saada piirivalmistus jenkkitehtaisiin. Koska tällainen siirtymä vie vuosia, en tiedä miten relevantti tämä on. Ehkä tällä saadaan jotain liikehdintää, mutta kriittinen ongelma on kapasiteetin puute. TSMCn Arizonan tehtaalla ymmärtääkseni on jo tilauksia mm. Applelta ja AMD:ltä mutta siellä ei voi tehdä seuraavan sukupolven kamaa kun ei ole vielä siihen linjoja ja 3nm ja 2nm linjat ovat toiminnassa vasta 2028. Sen päälle on sitten puute paketointikapasiteetista. TSMC Arizonan kiekot lennätetään Taiwaniin paketoitavaksi tällä hetkellä…

Pistän tämän uutisen toistaiseksi osastoon “Trump muistuttaa että pistäkääs töppöstä toisen eteen sen valmistuksen siirtämisessä Jenkkilään”. En jaksa uskoa että nuo tariffit tulevat voimaan kovin nopeasti koska firmat eivät voi nopealla aikataululla tehdä yhtään mitään asian korjaamiseksi.

13 tykkäystä

Avoimien mallien menestys ei ole edes mikään uusi juttu. Tässä klassikkoartikkelissa vuodelta 2023 valiteltiin jo sitä miten ketterät toimijat ja avoimet mallit syö isompien toimijoiden kilpailuedut:

6 tykkäystä

https://x.com/CompoundinGirl/status/1884328718904303798
$BABA just released the best known AI model worldwide

2 tykkäystä

Amatöörinä jäin pohtimaan…

Jos DeekSeekin taustayhtiö on sijoitusyhtiö joka on tehnyt tekoälyalgoritmin avulla kauppaa, onko tämä algoritmi osannut kertoa että uusi disturboiva teknologia tulee vaikuttamaan alan jättiläisten pörssikurssiin ja ehdottanut pientä shorttia sirujätteihin…

10 tykkäystä

Aiemmat Qwen 2.5 mallit ovat olleet hyvin suosittuja GPU-poorien keskuudessa ja hyviä koodauksessa ja matematiikassa, mutta kielellisesti teksti on ollut tönkköä ja virallista. Tosielämän sovelluksissa ainakin itse totesin, että häviää Llama-johdannaisille ja Claudelle valtavasti kielipuolella, joten tuskin Max tuo siihen suurta muutosta.

Nyt kaikki koittavat päästä osaksi hypekeskustelua ja benchmaxxata, joten kaikki julkaisevat uusia malleja. OpenAI:ltakin tulee vastaukset tähän viikkojen/kuukauden sisään. Oikeasti mitään isoa muutosta ei tapahdu.

6 tykkäystä

Näin todennäköisesti. BABA:lla oli kiire saada uutinen ulos ennen ER:ää. Liekö huonoja uutisia tulossa? Eikä tässä vissiin ollut käytetty RL:ää, joka lienee se kovin juttu. Vaan RLHF:ää.

1 tykkäys

Viikkograafit

Päivägraafit

Vahvaa tukea liukuvilta… bullish asetelma vielä kun analyytikot päivittelevät sitä kuinka DeepShit olikin vain hyödyntänyt OpenAI:ta jne.

9 tykkäystä

Tekoälyn kehitystä ohjaa kolme tekijää: fyysinen laskenta, algoritminen tehokkuus ja rajoitusten poistaminen. DeepSeek on osoittanut kyntensä lähinnä algoritmisessa tehokkuudessa, kun taas Nvidia tuo tekoälyn kehittämiseen fyysisen laskennan edut.

Kiina ja Yhdysvallat pyrkivät molemmat mahdollisimman nopeasti saavuttamaan yleisen tekoälyn tekoälyn kehittämisessä. Kyse on geopolitiikasta – supervaltojen valtataistelusta ja jopa olemassaolon edellytyksistä.

Yhdysvallat ei siten halua missään nimessä hävitä Kiinalle kisaa supertekoälyn kehittämisessä, koska silloin se jäisi jälkeen myös sotilasteknisesti.

Yhdysvallat ei jätä yhtäkään kiveä kääntämättä, kun se kilpailee tekoälyn herruudesta Kiinaa vastaan. Silloin DeepSeekin kustannustehokkuus ei riitä, tarvitaan myös Nvidian tarjoamia tehokkaimpia tekoälysiruja.

6 tykkäystä