Riippuu siitä, miten kapeaksi “toimialan” määrittää. Mielestäni tässä voi kuitenkin olla yhdenlainen selkeä mahdollisuus skaalata rautaa reilusti tehokkaampaan suuntaan.
Esimerkiksi NVidia tarjoilee Blackwellien kanssa tensor coreilla laskettavaksi niin erilaisia formaatteja aina FP4-FP64 asti. Ainakin FP32:lle taitaa olla ilmoitetuista nopeuksista päätellen kokonaan HW-tuettu laskenta, FP64 mahdollisesti jollain tapaa emuloitu, koska se on niin reilusti FP32:ta hitaampi. Ja tensor coreilla siis saadaan tehtyä rinnakkaisia kertolaskuja ja yhteenlaskuja nopeasti matriisilaskennan hengessä.
Mitä jos esim. kävisi niin, että pelkästään FP4 riittäisi lopulta hyödyllisimpien neuroverkkojen inferenceen? Ja jos AI tulee “joka puolelle” käyttöön, niin tällöin varmastikin inferencen suhteellinen osuus laskentakuormasta alkaisi kasvaa reilusti. Tällöin esim. Blackwellien monimutkaiset tensor-coret olisi redusoitavissa pelkästään FP4 -tuen omaaviksi, jolloin rauta olisi selvästi yksinkertaisempaa (vähemmän transistoreja) tai sitä voisi vaihtoehtoisesti samalla piilastulla huomattavasti enemmän.
Tai sitten tämä vaihtoehto, jota itsekin spekuloit toisessa ketjussa:
Tuollaisten ternary bittien käyttö tekisi vielä edelleen HW-vaatimuksista yksinkertaisemmat, jos ei tarvitsisi tukea geneerisiä tensor coreja ollenkaan. Eli jos tuo osoittautuisi toimivaksi ratkaisuksi, niin tavalliset tensor coret voisi raapaista kokonaan pois ja tilalle saisi moninkertaisen määrän yksinkertaisia operaatioita tekeviä ternary bittien tensor coreja.
Samalla voisi tietysti dropata pois kaikkea muuta tarpeetonta monimutkaisuutta raudasta, jos sillä on tarkoitus ajaa lähinnä noita yhdenlaisia operaatioita. Blackwell soveltuu edelleen kuitenkin varsin geneeriseen laskentaan, mikä voi jossain tilanteissa olla hyvä, mutta jos sitä käytetään hyvin paljon vain yhteen tarkoitukseen, niin se on ehkä tarpeettoman monimutkainen työväline siihen. Yhden tarkoituksen laskimen voisi siis rakentaa halvemmalla, yksinkertaisemmin ja paremmilla yieldeillä.
Jos oikein villisti visioi, niin voisiko esim. inferenceen sopivan raudan rakentaa kokonaan eri näkökulmasta kuin geneerisen laskimen? Noissa Blackwellin kahdessa chipissä on kuitenkin yli 200 miljardia transistoria, eli massiivinen kompleksisuus on kyseessä ja vaan yhtä operaatiota tehdessä siitä kompleksisuudesta suurin osa menee hukkaan.
Jos esim. käytettäisiin ternary bittejä, niin voisiko olla järkevää rakentaa rauta niin, että se laskee esim. rinnakkain neuroverkkomallin yhden layerin operaatiot samanaikaisesti (tai vain parissa erillisessä osassa) ja sitten layerit peräkkäin. Tähän voisi integroida muistin / välimuistit sillä tavalla sopivasti, että kerroindata ja edellisen layerin inputit olisivat optimaalisesti haettavissa layerien välissä. Tuolla raudalla ei sitten paljon muuta tehtäisi, mutta se olisi todennäköisesti äärimmäisen tehokas niin suorituskyvyn kuin sähkön kulutuksenkin osalta juuri tuossa yksittäisessä operaatiossa. Ja todennäköisesti se olisi myös huomattavasti yksinkertaisempi suunnitella ja halvempi valmistaa kuin monimutkaisempia operaatioita tekevä, transistorimäärältään paljon isompi chippi.
Tällä tavalla toteutettu ratkaisu ei välttämättä vaatisi mitään sen kummempaa ohjelmoitavuutta nykyisten GPU:den tyyliin (vrt. esim. GPU:lla suoritettavat ohjelmakoodi) vaan toiminta voisi olla varsin pitkälle hardkoodattua ja kaikki HW-optimoinnit voisi suunnitella sen ympärille. Tuo olisi enemmänkin jonkinlainen “signaaliprosessoritoteutus” kuin geneerinen laskin. Syötedata ja neuroverkon kerroindata vaihtuisivat, mutta operaatiot olisivat paljolti fiksattuja ja parametroitavissa ainoastaan esim. verkon topologian parametrien kautta (layereiden määrä, nodejen määrä layereissä tms.).
Tuo voi olla edessä sitten, kun tarkemmin tiedetään, millaisia ratkaisuita tullaan tarvitsemaan. Ja se voi tarjoilla ehkä mahdollisuuden joillekin kammeta NVidia ainakin osin pois jakkaralta, jos löytyy sopivia yksinkertaisia ja käytännöllisiä “sovelluskohtaisia” ratkaisuita.
Vastaavaa optimointia voisi olla tehtävissä myös neuroverkkojen opetusta ajatellen. NVidia myy nyt kuitenkin AI-käyttöön sveitsiläistä linkkuveistä, josta sitten monessa AI-käytössä ehkä lopulta tarvitaan vain korkkiruuvia ja hammastikkua. Erillinen korkkiruuvi ja hammastikku voisivat olla sekä halvemmat toteuttaa että tehokkaammat käytössä.