ChatGPT, muut kielimallit ja tekoäly

Poistettu viesti, joka oli tarkoitettu kahvihuoneeseen.

“Mikään ei voi mennä pieleen tämän kanssa” :smiley:

2 tykkäystä

Artikkeli tekoälyn tulemisesta luoville aloille.
Olen pitänyt kiinni vanhoista oletuksistani tekoälyn suhteen

  • tekoälysovellukset tulevat yleistymään ja nostavat monessa paikassa tuottavuutta paljon (nopeuttavat, poistavat virheitä, enemmän tuotoksia pienemmillä resursseilla jne), mikä on lähtökohtaisesti hyvä asia
  • iso osa ihmisistä yliarvioi kuinka vaikea heidän työpanoksensa on korvata.
  • tekoälysovellusten yleistyminen aiheuttaa disruption, mikä tulee tuhoamaan valtavan määrän työpaikkoja! Disruptio myös polarisoi työmarkkinoita voimakkaasti; hyvin monessa työtehtävässä/yrityksessä kysyntä ei kasva, mutta tehokkuus lisääntyy → suuri osa työntekijöistä voidaan irtisanoa ja jäljelle jää muutama tehokkain ja parhaiten palkattu hoitamaan erikoistilanteita ja valvomaan että asiat sujuvat
7 tykkäystä

Nyt tuli kunnon tylytystä tekoälystä: ”En halua pyykätä ja tiskata, jotta tekoäly voisi minun sijastani tehdä taidetta ja kirjoittaa” – 100 000 peukaloa ja 2,9 M lukijaa | Tekniikka&Talous (tekniikkatalous.fi)

Hyvä vasta-artikkeli: “Monet fyysisen maailman arkiset suoritukset, kuten siivoaminen, ovat kuitenkin liian vaikeita roboteille. Onko siis tekoäly orjuuttamassa ihmiset takaisin rutiinityön raatajiksi, Maciejewska kysyy.”

6 tykkäystä

Näkökulma on siinä mielessä hassu, että tekoäly (laajinta mahdollista määritelmää käyttäen) on tehostanut fyysisen maailman arkirutiineja jo vuosikymmenet. Aika paljon jäisi vähemmän aikaa luovuudelle ilman pyykin- tai astianpesukoneita, pölynimureita tai muita arjen töitä helpottavia teknologisia innovaatioita.

Isomassa makrokulmassa näkemys osuu kyllä oikeaan: hienomotoriset kyvyt ovat haastavia laskennalla hoidettavaksi ja tällaiset ammatit esimerkiksi transformoituvat oletettavasti viimeisenä (parturit, timpurit jne.). Toisaalta luovaa ja emotionaalista avaruutta, joka vaatii antropomorfista tietoisuutta ympäristöstä, jäänee vielä ihmiselle täytettäväksi vuosikymmeniksi tai ehkä ikuisuuksiksi.

9 tykkäystä

Olisipa asia noin yksinkertaista, mutta ei kannata aliarvioida poliitikkojen halua luoda säätelyä ja uusia hallinnollisia mekanismeja. (Ainakin, jos ollaan Euroopassa.)

EU:n tiedotteessa lukee mm. seuraavalla tavalla:

Sen vuoksi lakitekstissä vaaditaan, että kansalliset viranomaiset tarjoavat yrityksille tosielämää mukailevan testiympäristön.

Voidaan taittaa peistä mille tasolle tosielämää mukaeleva tesiympäristö laitetaan, mutta Suomen tapauksessa asiassa mennäään arvatenkin kohti ääretöntä ja sen yli. “Joku” tuonkin maksaa.

Vastaavasti tarvitaan “joku” lukemaan lupalappusia ja tekemään bias-tarkistuksia ja tutkimaan mitä kaikkea keksitäänkään pelätä. EU:n (linkatussa uutisessa mainittu) tekoälysäädös on siitä oiva osoitus. Eri aloja laitetaan keskenään erilaisen regulaation kohteeksi. (Josta tuli mieleeni - tämähän voisi olla yksi tapa arvioida voiko joku sektori nostaa tehokkuutta erityisen paljon vrt. enemmän regulaation kohteeksi joutuva.)

Jos ja kun uhat konkretisoituvat ja säädöksistä välitetään piut ja pait, keksitään pankkialan tyyliin lisää sääntelyä. Periaatteena armeijasta tuttu yksi ryssii, kaikki kärsivät.

Oman näkemykseni mukana syntyy veroparasiitien kaltaisia “AI-parasiiteja”, joissa regulaatio on lievää ja kaikki on sallittua. Houkutus leikata hallinnollisesta taakasta on liian iso.

3 tykkäystä

Asiasta tai ohi, EKP:n pankkisääntelyä saa kiittää siitä, että talouden verenkierron eli pankkitoiminnan riskitaso on tosi pieni ja varsinkin Etelä- ja Keski-Euroopan pankkien holtiton riskinotto on saatu kuriin. Enää ei se toimikaan, että voitot saa sijoittaja ja tappiot veronmaksajat. Nyt sijoittaja on ensisijainen maksumies, jos hommat kusee. Mitä pahaa siinä on?

Sääntely voi tietysti joskus yksittäistapauksissa mennä naurettavan puolelle, kuten etteivät vakavaraiset pankit saaneet yhtenä vuotena maksaa osinkoja, vaikka oli tarve panna kuriin vain holtittomat. Jatkossakin vastaavia vetoja varmasti tulee, sillä EKP ei jatkossakaan halua sormella osoittaa suurelle yleisölle hommansa ryssineitä pankkeja. Se olisi uhka rahamarkkinoiden vakaudelle, jopa bank runille.

Analogia AI-jain sääntelyyn? Vastuun konkretisoitumisen kautta? EU valmistelee asiaa, on valmistellut jo pitkään, mutta eipä ole niitä vihreitä ja muita välipapereita Suomen media juuri uutisoinut.

2 tykkäystä

EU tukee AI:n kehittämistä useassa eri ohjelmassa, mutta perehtyy myös sen eettiseen puoleen ja valmistelee sääntelyä. Lisätietoa:

Juurikki ei vastaa dokumenttia koskeviin kysymyksiin, koska ei ole itsekään ehtinyt siihen tutustua, ei vaikka luvassa voisi olla asiatuntijoille syyskuussa seminaarimatka Reykjavikiin. Kesälomalla luetaan ihan muuta. :sunglasses:

1 tykkäys

Mennee jo ohi otsikon aiheen, mutta menkööt.

Pankkitoiminta on taatusti stabiloitunut ja merkittävä syy on kilpailun hiipuminen. Hyvää tarkoittavilla säännöksillä on luotu uusille tulijoille vallihaudat. Kuten Björn Wahlroos joskus totesi, “pankkisääntely pitää vanhat pankkiirit paksuina”. (Nordea salkun isoin rivi, joten myös osakkeenomistaja puhkoo vyöhön uusia reikiä.)

Sääntelyase pitäisi mitoittaa kaadettavan eläimen mukaan. Jos autoliikenteessä rajaamme enimmäisvauhdiksi vaikkapa 20 km/h, tippuu liikenneonnettomuuksissa kuolleiden määrä lähelle nollaa. Lopputulos hyvä, mutta mikä on nopeusrajoituksen kustannus?

Kuluttaja maksaa aina. Joko regulaation kustannuksista tai pankkien tapauksessa yliyönneistä pankkitukia. Pankkitoiminta on lopulta melko lokaalia toimintaa, kun taas tekoälyn osalta regulaation määrä asettaa eurooppalaiset yritykset alakynteen kevyemmin säänneltyjä kilpailijoita vastaan.

AI-startupien syntyminen hiipuu, jos kahta koodaria kyttää sama määrä AI-compliance officereita (keksitty esimerkki). Ei ihme, jos eurooppalainen innovaatio on myydä amerikkalaisia tuotteita hieman lokaisoituina painoksina. Wahlroosin sanoja mukaellen, “AI-sääntely pitää vanhat IT-toimijat paksuina”.

5 tykkäystä

Ei pidä täysin paikkaansa. Esim. Alisa on alle 30 M€ arvoinen kioski, mutta noudattaa täysimääräisesti pankkisäädöksiä. Mies ja sorvi -pankkeja ei tarvita ihan asiakkaiden suojelemisen näkökulmasta.

Ei ole kilpailu hiipunut pankkisektorilla ainakaan Suomessa. Vastaavaa Trumpin järkkäämää pienten pankkien vastuista vapauttamista ei Euroopassa tulla näkemään, mutta ei niin helposti nähdä myöskään pienpankkien konkursseja niin kuin USA:ssa.

Tarkastelu ei mene yhtään ohi aiheen, sillä näiden analogioiden kautta kenties ymmärretään paremmin, mikä on oikea sääntelyn taso AI-jaille.

Open letter OpenAI:n ja Google/Deepmindin työntekijöiltä

https://righttowarn.ai/

2 tykkäystä

Heitetäänpä tänne vähän tiivistelmää arXiv:ssa muutama päivä sitten julkaistussa (toistaiseksi vertaisarvioimattomasta) artikkelista koskien LLM-tyyppisten mallien päättelykyvyn rajoja.

Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models

Abstract

Large Language Models (LLMs) like closed weights ones GPT-3.5/4, Claude,
Gemini or open weights ones like LLaMa 2/3, Mistral, Mixtral, and more recent
ones Dbrx or Command R+ are often described as being instances of foundation
models - that is, models that transfer strongly across various tasks and conditions in
few-show or zero-shot manner, while exhibiting scaling laws that predict function
improvement when increasing the pre-training scale. These claims of excelling
in different functions and tasks rely on measurements taken across various sets of
standardized benchmarks showing high scores for such models. We demonstrate
here a dramatic breakdown of function and reasoning capabilities of state-of-the-
art models trained at the largest available scales which claim strong function,
using a simple, short, conventional common sense problem formulated in concise
natural language, easily solvable by humans. The breakdown is dramatic, as
models also express strong overconfidence in their wrong solutions, while providing
often non-sensical “reasoning”-like explanations akin to confabulations to justify
and backup the validity of their clearly failed responses, making them sound
plausible. Various standard interventions in an attempt to get the right solution, like
various type of enhanced prompting, or urging the models to reconsider the wrong
solutions again by multi step re-evaluation, fail. We take these initial observations
to the scientific and technological community to stimulate urgent re-assessment
of the claimed capabilities of current generation of LLMs. Such re-assessment
also requires common action to create standardized benchmarks that would allow
proper detection of such basic reasoning deficits that obviously manage to remain
undiscovered by current state-of-the-art evaluation procedures and benchmarks

Artikkelin testipatteri ei tosiaan ollut monimutkainen vaan kyseessä oli varsin yksinkertainen, seuraavanlainen kysymyksenasettelu eri versioineen:

The original problem formulation, of which we will present various versions in our investigation is as following: “Alice has N brothers and she also has M sisters. How many sisters does Alice’s brother have?”. The problem features a fictional female person (as hinted by the “she” pronoun) called Alice, providing clear statements about her number of brothers and sisters, and asking a clear question to determine the number of sisters a brother of Alice has. The problem has a light quiz style and is arguably no challenge for most adult humans and probably to some extent even not a hard problem to solve via common sense reasoning if posed to children above certain age.

Tulokset eivät olleet erityisen hyviä:

We posed varying versions of this simple problem (which in following we will refer to as “Alice In Wonderland problem”, AIW problem) to various SOTA LLMs that claim strong reasoning capabilities. We selected closed ones like GPT-3.5/4/4o (openAI), Claude 3 Opus (Anthropic [ 22]), Gemini
(Google DeepMind [23 ]), and open weight ones like Llama 2/3 (Meta), Mistral and Mixtral (Mistral
AI), including very recent Dbrx by Mosaic [24] and Command R+ by Cohere [ 25 ] (which are stated
in numerous announcements to lead the open weights models as of April 2024, according to open
LLM leaderboards). We analyse the response statistics and observe strong collapse of reasoning and inability to answer the simple question as formulated above across most of the tested models, despite claimed strong reasoning capabilities. Notable exceptions are Claude 3 Opus and GPT-4 that occasionally manage to provide correct responses backed up with correct reasoning as evident in structured step by step explanations those models deliver together with solution. However, Claude 3 Opus and GPT-4 still show frequent failures to solve this simple problem across trials. Following the relational logic of the problem, we formulated a harder form, where both Claude 3 Opus and GPT-4o collapse almost to 0 success rate.

Tässä mainitut vaikeammat ongelmat olivat sen tyyppisiä, että niissä oli muita sukulaisuussuhteita, esim. veljenpoikia, serkkuja yms. Tarkempi kuvaus eri ongelman varianteista löytyy artikkelin liitteen C taulukosta 2.

Ja tarjolla on hallusinoinnille tyypillistä mallin ylivertaista itseluottamusta ja myöskään interventioilla ei ollut saavutettavissa merkittävää parannusta tilanteeseen:

This breakdown can be considered to be dramatic not only because it happens on such a seemingly simple problem, but also because models tend to express strong overconfidence in reporting their wrong solutions as correct, while often providing confabulations to additionally explain the provided final answer, mimicking reasoning-like tone but containing nonsensical arguments as backup for the equally nonsensical, wrong final answers. Those confabulated explanations may mislead readers into thinking that there might be sound reasoning behind the wrong answers, or at least stir confusion, as they often sound plausible while being entirely or partly off. The breakdown appears dramatic also because when attempting to fix the failures via various usual interventions like enhanced prompting or by explicitly pointing the models to committed mistakes and requesting to reconsider the responses, the models keep producing more nonsense, often in lengthier and sometimes more entertaining form, leading stubbornly to the same wrong final answers

4 tykkäystä

Se ei varsinaisesti yllätä, että LLM ei suoriudu erityisen hyvin aritmetiikkaa tai verkon läpikäyntialgoritmeja hyödyntävissä tehtävissä.

Edelleen LLM on “vain” edellisten token-syötteiden perusteella seuraavaa suurimman todennäköisyyden tokenia tulostava kone. Tuollainen serkun kummin kaiman -logiikkapäättely ei vain ole nykytekniikalla LLM:lle kovinkaan ominainen, koska LLM:n näkökulmasta väliä on lähinnä vain sanojen kontekstuaalisella läheisyydellä. Sen vuoksi myöskään tutkimuksen jatkopromptaus ei vie LLM:ää yhtään lähemmäksi oikeaa päättelyä, koska se ei lähtökohtaisesti osaa sitä tehdä.

Tällaisia puutteita varten esim. Open AI on jo ilmeisesti kohta vuoden kehitelly Q*-teknologiaa: What is Q*? And when we will hear more? - Community - OpenAI Developer Forum

Parempien mallien puutteessa nykyisiä LLM:iä kannattaa siis käyttää vain käyttötapauksiin, joista ne suoriutuu ihmiseen verrattuna ylivertaisesti.

8 tykkäystä

Kyllä. Mutta tästä huolimatta tuntuu siltä, että nykyisten LLM-pohjaisten ratkaisujen harteille asetetaan paikoitellen kohtuuttoman suuria odotuksia. Tästä näkökulmasta tällaiset rajatut koetilanteet mielestäni havainnollistavat järjestelmän rajoituksia ja ehkä osaltaan kalibroivat odotuksia realistisempaan suuntaan.

Tässä edellisen jatkoksi yksi esimerkki tämän kesän tulevan ACL 2024 konferenssin artikkelista:

Can Language Models Serve as Text-Based World Simulators?

Abstract

Virtual environments play a key role in benchmarking advances in complex planning and decision-making tasks but are expensive and complicated to build by hand. Can current language models themselves serve as world simulators, correctly predicting how actions change different world states, thus bypassing the need for extensive manual coding? Our goal is to answer this question in the context of text-based simulators. Our approach is to build and use a new benchmark, called BYTE-SIZED32-State-Prediction, containing a dataset of text game state transitions and accompanying game tasks. We use this to directly quantify, for the first time, how well LLMs can serve as text-based world simulators. We test GPT-4 on this dataset and find that, despite its impressive performance, it is still an unreliable world simulator without further innovations. This work thus contributes both new insights into current LLM’s capabilities and weaknesses, as well as a novel benchmark to track future progress as new models appear.

2 tykkäystä

Juu, aivan oikea havainto.

Esim. Yann LeCun (Metan Chief AI scientist) on puhunut paljon siitä, ettei LLM:t ole tie laajempaan (loogiseen) ymmärrykseen saati tietoisuuteen. Esim. neljävuotias lapsi on pelkän näköaistinsa kautta ottanut 50 kertaa enemmän tietoa kuin internetissä on dataa ylipäätään olemassa LLM malleille opetettavaksi. Johtopäätös: tekstin mahdollistama kaistanleveys on liian pieni päästäkseen ihmisen kognitiivisen tason oppimiseen.

Oletettavasti siis hyvin nopeasti LLM:t jäävät syrjään uusien oppimismodaliteettien syrjäyttäessä ne.

Toinen kiinnostava aspekti on se, voidaanko malleille opettaa tietyt lainalaisuudet sellaisenaan. Tarkoitan tässä esim. yllä kuvatun koeasetelman sukulaisuussuhteiden ymmärtämistä tai vaikka fyysisen maailman lakeja, jotka me tunnemme varsin hyvin. Nythän paradigma on sellainen, että LLM oppii ne kontekstista, jos oppii (monesti ei opi). Vaihtoehtoinen paradigma on syöttää ne malliin sellaisenaan, mikä osaltaan voisi tuoda helpotusta näihin meistä ihmisistä tosi idioottimaisilta tuntuviin epäloogisuuksiin.

3 tykkäystä

Lisäksi aistien kautta tuleva datamäärä on pakottanut ihmisaivot kehittymään erittäin hyviksi suodattamaan olennaisen informaation massasta. Ihminen oppii monia (ei-motorisia) asioita kerrasta, siinä missä nykyiset tekoälymallit vaativat koulutusvaiheessa tuhansia tai jopa miljoonia toistoja.

Pitää silti muistaa se, että tekoälyn ei tarvitse olla yhtä hyvä algoritmi kuin meidän aivojemme algoritmi ollakseen meitä parempi. Biologia asettaa omat rajoitteensa, joita tekoälyllä ei ole. Tämä on varsin ilmeistä, kun miettii, miten yksinkertaisella tavalla generatiiviset mallit toimivat. Jos yhtä heikon algoritmin löisi ihmisaivojen tilalle, ei ihminen selviäisi päivääkään. Tästä huolimatta se sama algoritmi tuottaa joissakin tilanteissa ihmiseen nähden ylivertaista kyvykkyyttä.

9 tykkäystä

Ilya Sutskever, ex-OpenAI mastermind, on pistänyt pystyyn uuden tekoälyfirman Safe Superintelligence Incin. Tavoitteena ei vähempää kuin turvallisen supertekoälyn kehittäminen. Sutskeverillahan meni sukset ristiin OpenAI:n Altmanin kanssa nimenomaan turvallisuusasioihin liittyen. Mielenkiintoista nähdä mitä tämä kaveri saa aikaa, sen verran kova nimi AI-skenessä.

Mielenkiintoista on myös se että tässä skipataan termi AGI (Artificial General Intelligence) ja hypätään suoraan supertekoälyyn. Mitä lie Sutskever nähnyt OpenAI:lla…

5 tykkäystä

ChatGPT on häränpaskaa

" Applications of these systems have been plagued by persistent inaccuracies in their output; these are often called “AI hallucinations”. We argue that these falsehoods, and the overall activity of large language models, is better understood as bullshit"

5 tykkäystä

Tuossa on tärkeä huomata, että artikkelissa termiä bullshit käytetään hyvin määritellyllä, tieteellisellä tavalla. Jopa abstraktissa viitataan klassikkoteokseen On Bullshit, joka määrittelee termin: bullshit on puhetta tai tekstiä, jonka tuottajaa ei kiinnosta, onko se totta vai ei. Tämä huomioiden artikkelin väite on helppo hyväksyä.

Teos on muuten suomennettu nimellä Paskapuheesta.

7 tykkäystä