Kiitos! Aihe todella kiinnosta - pitääpä opiskella koko luentosarja. Nopealla intro-luennon läpikäynnillä näyttäisi, ettei tarkalleen ottaen fokus ole “tehokkuuden parantamisessa” vaan kustannus-hyöty-optimoinnissa.
ML-malleissa, kuten muuallakin elämässä, on marginaalihyödyn ja -kustannuksen käsite vahvasti läsnä ja monessa käyttötapauksessa (etenkin Nvidian hinnoittelulla ) voi tulla nopeastikin vastaan piste, jossa marginaalikustannus ylittää output-tarkkuudesta saatavat marginaalihyödyt.
Puolijohdesijoittajan näkökulmasta huojentava viesti ensimmäiseltä luennolta on, että suuremmat mallit, jotka vaativat paljon laskentaa, johtavat parempiin lopputuloksiin. Saman asian voi todeta esim. LLM:ien osalta näistä erilaisista Leaderboardeista, joissa ELO-rankingin ja parametrien määrän korrelaatio on luokkaa 0.7-0.8, riippuen siitä, millaiseen parametrimäärähuhuun luottaa ei-avointen mallien osalta (LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys). Toinen huojentava viesti on se, että pienemmät ja prunatutkin mallit vaativat GPU:n säädyllisiin inference-aikoihin.
Edit: Tästä samasta aiheesta on muuten väännetty peistä tässä ketjussa: ChatGPT, muut kielimallit ja tekoäly.