Puolijohdejätit: AMD, Intel, NVIDIA, TSMC, TI, Micron, Broadcom, Qualcomm, ASML yms

Sama näkemys. Vallalla tuntuu olevan jotenkin tosi vääristynyt käsitys, että joku Nilsiän konepaja -tyyppinen yhtiökin on nyt hankkimassa AI-rautaa varastoon. Todellisuushan on kuitenkin se, että lukumäärällisesti mitattuna ylivoimisen suuri osa yrityksistä ostaa GPU-resurssit on demand -pilvestä, kuten muunkin laskennan tai osana ohjelmistoa (kuten Copilot). Ennusteongelma on siis lähinnä CSP:illä (Azure, AWS, Oracle jne.) ja isoilla ohjelmistotaloilla (Meta, SAP, ServiceNow, jne.) sekä tietysti tuotantopuolella TSMC:llä. Omia huolia helpottaa se, että näillä yhtiöillä lienee valistuinein näkemys tällä planeetalla AI-laskennan mahdollisuuksista ja kysynnästä.

5 tykkäystä

Vaikka Japaniin ja USA:aan ollaan investoimassa aika paljon, niin Taiwaniin on tulossa vielä isompia projekteja. TSMC on sopinut Taichung kaupungin kanssa neljän uuden 2nm fabin rakentamisesta siten, että pitäisi olla valmista 2027 mennessä.

Land for up to four TSMC 2nm-and-below fabs near Taichung, Taiwan (central) has been approved, media report, with construction set for June and all fabs to be completed by 2027, provide 4,500 jobs, and have an average yearly output value of NT$500 billion (US$15.8 billion). TSMC…

— Dan Nystedt (@dnystedt) February 28, 2024
4 tykkäystä

Viime viikolla saatiin ensimmäinen puolivallankumouksellinen algoritminen haaste Nvidialle. MS:n datanörtit, julkaisi The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits -tutkimuspaperin. Asiaan kannattaa tutustua täällä: Paper page - The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits, jossa tutkijat vastaavat yleisökysymyksiin :slight_smile:.

Tämänkin olisi voinut kirjoittaa Nvidia-ketjuun, mutta kirjoitellaan nyt tänne. Pari päivää olen nyt yrittänyt pohtia implikaatioita Nvidialle ja miksei muillekin Semi-toimittajille. Ihan vielä en ole valmis julistamaan Nvidian kilpailuetua kadotetuksi.

Kyse on siis siitä, että neuroverkkojen painomatriisit on tässä mallissa muutettu ns. ternary-biteiksi ja voivat saada vain ja ainoastaan arvon -1, 0 tai 1. LLM:t ennen tätä ovat käyttäneet ns. floating point -lukuarvoja, eli tuttavallisemmin tavallisia desimaalilukuja. No mikä tässä on niin mullistavaa on se, että matriisien kertolaskuoperaatio katoaa. Eli kun syötearvoja “kerrotaan” luvuilla -1, 0 tai 1, ei kertolaskua tarvtitse suorittaa. Laskentavaatimukset pienenevät merkittävästi. Etenkin muistivaatimukset, joka on edelleen keskeisin rajoite GPU-laskennassa, pienentyy tällä lähestymismallilla.

No miksei tämä “keksintö” kaada Nvidiaa:

  1. Tehohyödyt mallin opetuksen osalta ovat edelleen rajalliset. Malliopetetaan edelleen backpropagationilla floating point -masterkertoimilla ja itseasiassa syö jopa enemmän muistia kuin “tavallinen” opetus tulkintani mukaan. Keskeisin tehokkuushyöty tässä vaiheessa liittyy inferenceen (mikä toki myös on investointinäkymien kannalta iso asia).
  2. Paperin benchmark-malli on 3B parametrinen. Ei ole vielä ollenkaan selvää, mitä +1T mallien response-performanssi on. Koneoppimistutkimus on vielä aika empiiristä, eikä analyyttisesti voida sanoa mitenkään varmasti, että ternary-ajatus skaalautuu myös esim. tulevaan GPT-5 parametriskaalaan.
  3. Myös infrence vaatii tulevaisuudessakin GPU-laskentaa. Toki rajallisemmilla malleilla voidaan päästä järkeviin latensseihin ehkä CPU:llakin, mutta scaling laws pätee silti edelleen.
  4. Optimaalisimmillaan ternary-bitin käyttö olisi sitä tukevalla raudalla (ns. Ternary tietokoneella). Sellaista ei ole kilpailijoillakaan - edelleenkin GPU on paras laskentaväline myös ternary-bittimalleille. Edelleen kuitenkin peruslogiikka perustuu lineaarialgebraan ja syväoppimiseen ja tässä GPU:t ovat ylivertaisia. Ehkä seuraavassa GPU-sukupolvessa nähdään ternary-tensorit?

Silti tulee olemaan kiinnostavaa seurata, mihin tämä “läpimurto” kantaa. Tässä on monta mahdollista skenaariota - heitän hatusta muutaman:

  • Mallit voivat kasvaa entistä suuremmiksi, kun hinta- ja esim. muistirajoitteet pienenevät.
  • Investointikynnys madaltuu, tekoälynkehitys vain kiihtyy
  • Uusia pelureita, katteet tippuvat
  • Malli ei lunasta lupauksiaan ja jäämme odottamaan seuraavaa läpimurtoa
10 tykkäystä

Itse odotan että jos tämä keksintö mahdollistaa nykymallit heikommalla raudalla, mallit toimivat kuin data yleisesti - laajentuvat ja täyttävät kaiken käytettävissä olevan tilan ja kapasiteetin. Eli paras rauta on edelleen haluttua ja mallit vain paisuvat kuin pullataikina.

Ja jos inference-puolella pärjätään pienemmällä kustannuksella per asiakastapahtuma, tämä voi mahdollistaa paremmin AIn käytön tilanteissa joissa ansaintalogiikan ongelmat aiemmin eivät sitä mahdollistaneet. Eli käytännössä kuukausimaksullisten palveluiden hinnat voivat laskea ja ilmaiseksi voidaan tarjota parempia maistiaisia. Ja käyttäjien omilla koneilla pyörivät AI-toteutukset voivat parantua vaikka käytössä olisi alitehoista GPUta tai pientä NPUta kiihdytyksenä.

En näe että tämä uhkaa mitenkään AI-raudan myyjien bisneksiä.

8 tykkäystä

Tämä on juuri näin. Kvantisoitujen mallien treenaus on paljon vaikeampaa kuin flotarimallien, rajallinen tarkkuus aiheuttaa kaikenlaisia haasteita backpropagaatiossa. Mahdollisesti joudutaan joka tapauksessa kouluttamaan flotarimalli josta distillaation avulla sitten tuo pienempi.

Toinen juttu on, että ovatko mallien kehittäjät isossa skaalassa halukkaita tekemään tutkimusta ternary-malleja käyttäen johtuen em. haitoista. Heitä kiinnostaa keskimäärin useammin SOTA-performanssin parantaminen eikä muistin/laskennan optimointi.

Toimii samalla tavalla kuin moottoritiet jenkeissä. Kaistojen lisääminen ei vähennä ruuhkaa…

2 tykkäystä
3 tykkäystä

Nvidian moat katoamassa?

3 tykkäystä

Ja kun B100 julkistetaan loppuvuodesta, taas kaikki haluavat sitä koska se on paras. Lähinnä todistaa että AMDkin voi tehdä näitä ja myy varmasti kaiken minkä saa ulos. Tällä hetkellä poikkeuksellisesti MI300 on nopeampi ja halvempi kuin NVIDIAn vehje. Ei merkitystä niin kauan kuin jonoa on, mutta sitten kun jonot on palveltu, NVIDIA joutuu tinkimään katteistaan tai markkinaosuudestaan.

3 tykkäystä

Tuolla NVidian ketjun puolella pohdiskelin samaa pari päivää sitten:

Tuolla ketjussa käyty asiaa tarkemmin läpi, mutta olen itse vähitellen päätynyt siihen näkemykseen, että NVidian vallihaudat softapuolella ovat keskeisten AI/ML-sovellusten osalta pitkälti hävinneet viime vuoden aikana. Vallihaudat ylipäätään noita sovelluskohteita ajatellen rakentuivat pitkälti muutamien keskeisten sovelluskirjastojen toimintaan, joten kun AMD on rakentanut (a) toimivan API-rajapinnan omalle GPU:lleen ja (b) saanut sen toimimaan tehokkaasti keskeisten kirjastojen kanssa, niin vallihaudat ovat tämän suhteen madaltuneet merkittävästi. Keskeisten sovellusten osalta tilanne lienee siis se, että NVidian kortille spesifien sovellusrajapintojen käyttö todennäköisesti on hyvin abstrahoitu hyvin rajalliseen osaan koodikantaa, jolloin vaihtaminen on suhteellisen suoraviivaista - erityisesti kun AMD panostaa luonnollisesti näiden keskeisten osuuksien porttaamiseen myös omalla osaamisellaan.

Kilpailu voi olla kohta veristä GPU-rintamalla, kunhan vaan tehtaat puskevat kummankin toimijan chippejä tarpeeksi ulos. TSMC:n tehtailla on siis tuotantolinjat kuumana, joten ainakin yksi voittaja on selvillä joka tapauksessa. :slight_smile:

6 tykkäystä

Niin kuin Nvidia-ketjussa ollaan puhuttu, olen kallistumassa samaan lopputulokseen. Keskimääräisen data scientistin tai edes engineerin ei tarvitse tietää CUDAsta nykyisin sen enempää kuin vaikkapa kääntäjästä saati alla olevasta raudasta.

Silti ihmettelen tuota tulosta. Nykykirjastot kun eivät ihan nyt hirveän hyvin tue AMD:n rautaa ja välillä ainakin itsellä (vaikken ammattilainen olekaan) palaa kyllä käämit Nvidian GPU-resurssien toiminnan kanssa. En ainakaan itse keksi hirvittävän montaa hyvää syytä, miksi haluaisin lisätä tuskaani.

2 tykkäystä

ASML on alkanut toimittamaan ensimmäisiä high- NA laitteitaan asiakkailleen. Tämä on erittäin merkittävä uudistus ASML:n laitteisiin ja nykypäivän litografiaan. Kun optiikassa käytetään isompaa NA:ta(Numerical aperture) kärsii lopputuloksessa DOF(Dept of focus) joten uudistus tarkoittaa, että ASML on selvästi löytänyt kompromissin jolla saavutetaan erittäin hyvä resoluutio, mutta DOF ei kärsi liikaa.

8 tykkäystä

Ei nyt oikein Intelin tehdassuunntelmat mene putkeen…

Rahaa on mennyt 4.5 miljardia tähän mennessä mutta sitä piti mennä 20 miljardia taalaa ja vähän epäilyjä ilmassa että Intelillä on pientä akuuttia rahapulaa jota paikataan venyttämällä rakennusaikataulua muutamalla vuodella.

9 tykkäystä

Korjataan nyt sen verran, että rahaa on mennyt $1,5 miljardia. Rakentamiseen liittyviä sopimuksia on tehty $3 miljardin edestä.

4 tykkäystä

Ok, mutta käytännössä ellei Intel ala purkamaan sopimuksia ja oikeasti keskeytä projektia, kolme miljardia lisää on jo lukittu. Pääpointti kuitenkin se että projekti on iso ja sitä venytellään kenties siksi että tuo rahanmeno tapahtuisi myöhemmin…

2 tykkäystä

Pilviseminaarissa kuunneltua;

Mikä on parviälyn tuomio vs myyntimiehen puheet:

Sustainable Computing in the Age of AI
Building more sustainable data centers is a challenge, ###Ampere’s Chief Product Officer Jeff Wittich will show you the benefits of using Cloud Native Processors to deliver more sustainable computing for demanding workloads and services, including those that are rapidly adding AI inference.**

Kovin kehuivat että heidän teknologia päihittää GPU pohjaiset ratkaisut.
En juurikaan löytänyt Ampere mainintoja foorumilta

1 tykkäys

Pieni also-ran startup, ehkä heillä on kova teknologia, vielä ei ole näkynyt myyntimäärissä.

2 tykkäystä

Tässä viime kesältä hyvä artikkeli AMD:n uusimmista prosessoreista. Lyhyesti AMD EPYC Bergamon ja Ampere Altra Max vertailusta:

The impact of this is that AMD is now offering 3x the SPEC CPU2017 performance at similar idle but only around 50% higher power consumption.

Mutta tottahan se on että GPU:t käyttää paljon enemmän energiaa kuin CPU. Inference puolella tullaan varmasti näkemään monenlaisia ratkaisuja joilla saadaan kustannuksia pienennettyä.

2 tykkäystä

Ja joitain hyvin pieniä neuroverkkoja voi olla joissain tilanteissa järkevää ajaa jopa FPGA-pohjaisilla ratkaisuilla:

The full-featured Lattice sensAI stack includes everything you need to evaluate, develop and deploy FPGA-based Machine Learning / Artificial Intelligence solutions - modular hardware platforms, example demonstrations, reference designs, neural network IP cores, software tools for development, and custom design services.

The Lattice’s FPGA-based machine learning solutions are highly flexible, easy to implement, low power (from under 1 mW - 5 W), small (package sizes starting at 5.5 mm2) and priced for high volume production.

Lattice can help you accelerate deployment of always-on, on-device AI into a wide range of Edge applications including mobile, smart home, smart city, smart factory, and smart car products.

Ei näillä tietenkään mitään ChatGPT:tä ajeta, mutta jotain paljon kevyempää hyvinkin minimaalisella virrankulutuksella.

1 tykkäys

GPU:than käyttävät itseasiassa selvästi vähemmän energiaa per workload CPU:hun verrattuna. Tämähän on Nahkatakkiäijän keskeisimpiä myyntiargumentteja.

Tosin tässä(kin) pätee Jevonsin paradoksi lähes täydellisenä esimerkkinä: kun laskennan yksikköhinta laskee, resurssien kulutus kasvaa siten, että kokonaisuutena kulutamme yhä enemmän.

Infrencen puolella onkin jo nähty algoritmisia tehokkuusuudistuksia. Taisi olla tässäkin ketjussa keskustelua MS:n pari viikkoa sitten julkaisemasta 1.58B tritti-mallista, jolla infrenceä voidaan saada paljon vähemmän laskentaa vaativaksi ja siten energiatehokkaammaksi.

1 tykkäys

Kauppasota chipeissä jatkuu. Intel ja AMD halutaan ulos. Nvidia ei vissiin vielä ehditty kopiomaan riittävästi joten saavat jatkaa.

Jutussa lisäksi mainittu: Myös pahoista softataloista kuten Microsoft halutaan eroon

7 tykkäystä