Olen varmaan juuri yksi näistä hölmöistä. Juuri tänään moni julistaa jo NVidialle (ja koko AI-puolijohdesektorille) miltei kuolemaa, mutta vaikea nähdä, miten tämä menisi näin.
JOS tilanne olisi se, että olisi joku AI-malli, jota ei tarvitse enää sen kummemin kehittää ja se tekee jo kaiken mahdollisen, NIIN silloin kyse voisi olla niin yksinkertaisesta optimointitehtävästä, että laskentatahoa tarvittaisiin jatkossa merkittävästi vähemmän. Mutta tämä ei sentään ole tilanne.
Sikäli kun (vähintään tietynlaisten) mallien kouluttamiseen saadaan merkittävä nopeutus, niin tämä kai tarkoittaa näin äkkiseltään ajatellen juuri sitä, että joko voidaan aiempaa nopeammin iteroida uusia malliversioita tai vaihtoehtoisesti rakentaa monimutkaisempia malleja (ja silti ehkä päästä koulutuksessa nopeammin maaliin). Luultavasti kummallekin on tarvetta.
Vastaavasti mallin käyttöpuolella viime joulukuun ARC AGI -läpimurron yhteydessä käytiin läpi seuraavaa:
OpenAI’s new o3 system - trained on the ARC-AGI-1 Public Training set - has scored a breakthrough 75.7% on the Semi-Private Evaluation set at our stated public leaderboard $10k compute limit. A high-compute (172x) o3 configuration scored 87.5%.
Tuon o3-mallin high compute -versio käytti yli 170x määrän laskentatehoa suhteessa “low compute” malliin (joka käytti yli 2x määrän o1 high compute malliin nähden), joten jotain 100x luokkaa olevaa nopeutusta tuon o3 mallin osalta vähintään kaivattaisiin käyttöpuolella. Eikä tämä o3 myöskään mikään valmista kauraa, eli jotain enempi pitäisi saada tehtyä.
Disclaimerina se, että en ole ehtinyt tässä viikonlopun aikana ehtinyt kovin tarkasti katsoa, mitä tuosta Deep Seekistä pitäisi oikein ajatella, mutta näin korkealla tasolla joku 100x nopeutus mihin tahansa väliin on luultavasti erittäin tervetullut ja auttaa puskemaan kehitystä eteenpäin. Ja todennäköisesti edelleen tämänkin jälkeen merkittävästi isommalla laskentateholla saa ainakin jollain asteikolla reilusti enemmän myös aikaan (mallin koulutusnopeus, käyttö, raskaampi malli, jne.).
Näissä Deep Seek reaktioissa haiskahtaa monin paikoin mielestäni panikointi ja ylilyönti. Juuri tämmöisiä pyrähdyksittäin tapahtuvia kehitysaskeleita on odotettavissa silloin, kun menetelmäpuolella tehdään remonttia. Ei kai kukaan olettanut, että AI-kehitys etenisi jotenkin lineaarisesti sen jälkeen, mitä esimerkiksi viimeisen 30 vuoden aikana alalla on tapahtunut?
Se, mikä NVidian (ja AI-puolijohdesektorin voisi tappaa) olisi tilanne, jossa mitään kehitysaskeleita ei saataisi aikaan vuosiin isoista investoinneista huolimatta. Nyt nähty on ainakin (äärimmäisen pintapuolisen tutustumisen pohjalta) jotain ihan päinvastaista.
Lisäänpä tähän vielä sen, että isoimmat panikoijat eivät ehkä muista, mitä AI-mallien koulutukseen tarvittavalle laskentateholle on tapahtunut esim. viimeisen n. 15 vuoden aikana. Tässä kuva, joka auttaa hahmottamaan tilannetta (kuvan lähde: Computing Power and the Governance of AI | GovAI Blog):
Tuolla vasemman puolen asteikolla 100x kerroin tarkoittaa 2 pykälän hyppyä, joten kokonaiskuvassa yksi 100x miltei häviää kohinaan. Jos kauttaaltaan saataisiin 100x parannus (mikä ei ilmeisesti nyt ole tilanne?), niin se veisi laskentakapasiteetin näkökulmasta lopulta vain joitain vuosia laskentaa edelle nyt nähdystä kehityslinjasta.
Vuodesta 2010 alkaen laskentatehon tarve on tosiaan kasvanut n. 10^11 -kertaiseksi, eli 100 000 000 000 -kertaiseksi. Eikä mikään ekstrapolointi tässä osoita siihen suuntaan, että laskentatehon tarve olisi vähenemässä yhtään pidemmällä aikavälillä.