Tesla - Johtava tulevaisuuden autovalmistaja? (Osa 2)

Pari mielenkiintoista kommenttia Mobileyen tulospuhelusta, joissa viitataan suoraan Teslaan tai autonomiseen ajamiseen.

We believe that SuperVision provides a validated bridge to a true eyes-off system across a wide domain, which is seen by many OEMs as a true value driver long term. But the performance requirements for eyes-off are really underappreciated by the public and also by certain OEMs who are throwing everything they have at an eyes-on system with seemingly no clear plan on how to boost mean time between failure from one safety intervention every few hours to one every hundred of thousands of hours.

Now, whether [Tesla] could introduce robotaxi using only cameras, we are kind of skeptical, but no, we don’t know what they’re going to introduce. Maybe they’ll introduce a robotaxi with additional active sensors, not only camera. We believe that eyes-off systems—rather than calling this robotaxi, let’s call it eyes-off systems because eyes off means that you can drive autonomously on selective type of roads, not necessarily on every type of road. It’s still a great value. Eyes-off system, which is our Chauffeur product line has a great value proposition. We also believe that in time, it will even overtake the Level 2-Plus in terms of volume, but we see that as something for the next decade in terms of the volume ramp. SuperVision is this decade and eyes-off would be, in terms of scaling and overtaking Level 2-Plus, we see that as something for the next decade. But we’ll be very happy to be proven wrong and to have this accelerated.

Amnon, seven months ago you posted on LinkedIn that Tesla decision to adopt an end-to-end generative AI approach to full self-driving to train neural networks was—I’m quoting—neither necessary nor sufficient for full self-driving programs. Do you still feel the same way today, Amnon?

Now in my prepared remarks, I mentioned that on the EyeQ6, we’re going to have end-to-end both perception and actuation, and that does not contradict the point that we made. The Tesla end-to-end is the sole technology. Our end-to-end is just one engine on top of multiple engines in order to create a decomposable system that is explainable, that is modifiable, that you can explain what it does to the regulatory bodies, that you can customize the driving experience for OEM. If you look at some of our competitors like Waymo, they have the same view that there’s a very, very strong reliance on the neural networks, on data-driven networks, language models, but at the end of the day, it needs to be a system that is designed to be explainable and modifiable. We’re not against end-to-end. We are against end-toend being the sole engine for the system. Back at the CES a few months ago in January. I presented Mobileye’s end-to-end perception engine, right? What I call the multi by the power of 5, how to build an end-to-end perception engine, and this is running on the EyeQ6. We have also another engine, which also includes actuation. So this is going from videos to actuation as an end-to-end, but it’s a component. It’s a subsystem of a more complex system.

Amnon, in the past, I think Mobileye has discussed something like you were hoping for 10x better miles per disengagement from SuperVision when we compare it to something like full self-driving. I think a lot of those comments were pre Version 12. Any thought on how you think SuperVision, again, as a supervised eyes-on system, the competitive statistics stacks up today?

We are targeting the current generation with EyeQ5. It’s improving all the time. We have over-the-air update every two months or so. We are close to achieving a 100-hour mean time between intervention on highways, less so in the urban but it’s more than one or two hours of mean time between intervention. On the EyeQ6 system, as I mentioned in my prepared remarks, just for the camera subsystem, it’s about 1,000 hours of mean time between intervention on highways. I don’t know what is the mean time to intervention on Tesla’s Version 12. I don’t know if anyone measured that, but these are the kinds of things that we measure in terms of KPIs on how we progress.

7 tykkäystä

Tämä on oikeastaan ainut mielenkiintoinen asia tuossa tarinassa.

Luulin, että nuo luvut olisivat huomattavasti suuremmat.

Tällaisestahan voisi muuten syntyä teoriassa feedback loop jossa kun yrität ymmärtää jotain juttua, päädytkin koko ajan muuttamaan sitä miten se oikeastaan toimii. Analogiana Heisenbergin epätarkkuusperiaate. :thinking:

1 tykkäys

Tämä tunnetaan ML piireissä CACE prinsiippinä (“changing anything changes everything”, esim 7 costly surprises of machine learning: part three | by Brad Cordova | super.AI | Medium). Yksi tapa ratkoa tuota olisi tehdä ratkaisusta jollain tapaa modulaarisempi, sen sijaan siis että olisi yksi valtava malli jonka tarkkaa toimintaa on vaikea ymmärtää tai hienosäätää. Jukan yllä lainaamat Mobileeye kommentit ovat kiinnostavia koska niissä viitataan tähän problematiikkaan.

5 tykkäystä

Mielenkiintoinen juttu Kiinalaisten autojen Kiinan vs. Euroopan hinnoista sekä suunniteltavista tullimaksuista:

Hesarissa linkki alkuperäiseen Financial Times juttuun.

Pari nostoa:

"
Tutkijoiden mukaan BYD:n tapaiselle jätille pitäisi ehkä asettaa yli 50 prosentin tullit, jotta ”Euroopan markkinat eivät houkuttelisi”.

Tullit eivät osu pelkästään kiinalaisiin brändeihin. Esimerkiksi Tesla rakentaa autoja Kiinassa ja tuo niitä sieltä Eurooppaan. Tullit voisivat tuhota tämän bisneksen.
"

Johtopäätös on siis että tekee niin tai näin niin Kiinalaiset lopulta voittaa tämän bisneksen?

2 tykkäystä

Aika hyvä kauppa tavalliselle autoyhtiölle.

7 tykkäystä

Näin juuri. Tämä on yksi syy sille, miksi aiemmissa viesteissä puhuin tästä myyräpelin konseptista:

Perinteisessä softakehityksessä yksittäinen ongelmatilanne on usein (ei toki aina) lokaalimmin korjattavissa ja korjausyritysten sivuvaikutukset usein suhteellisen hyvin ennustettavissa. ML-järjestelmän tapauksessa kyseessä on taas enemmänkin “musta laatikko”, joka muodostaa jonkinlaisen kompromissin yli kaikkien esitettyjen opetusesimerkkien, ja siten ongelmatilanteiden korjaaminen ole enää samalla tavalla lokaalien muutosten avulla hoidettavissa. Kun järjestelmälle antaa korjaavia esimerkkejä yhteen tilanteeseen, se voi samalla muuttaa käytöstä muissa tilanteissa. Ja tästä tulee juuri analogia myyräpeliin: kun lyöt yhden myyrän alas, jostain muualta todennäköisesti nousee yksi tai useampi myyrä esiin.

Ja jos sattuu käymään niin, että ML-malli / musta laatikko ei ole arkkitehtuurinsa tai kokonsa puolesta riittävä ongelman ratkaisemiseen, myyräpeli muodostuu käytännössä loputtomaksi mätkimiseksi, jossa joka iteraatiolla eri virheet vain korostuvat tai painottuvat vähän eri tavoin. Tällöin enempi opetusdata ei vie asiaa maaliin vaan pitää lähteä uudistamaan mallia itsessään ja toivoa sitä kautta parempaa menestystä seuraavilla opetuskierroksilla.

Tästä syystä on sitten taas nähdäkseni äärimmäisen vaikea ennustaa tai luvata, milloin malli tulee toimimaan riittävän hyvin monimutkaisia tilanteita sisältävissä sovelluksissa, joissa vaaditaan hyvin lähelle täydellistä suorituskykyä (kuten FSD, jossa virheet maksavat pahimmillaan ihmishenkiä). Etukäteen ei pysty kuitenkaan varmaksi sanomaan, mikä arkkitehtuuri / malli riittää, vaan käytännössä tuo selviää vasta sen jälkeen, kun ratkaisu on löytynyt eli kehitystyö on valmis.

10 tykkäystä

Toki FSD koostuu useista eri malleista tai erillisistä lohkoista. Siten hienosäätö (fine tuning) lienee erilaista ja tehdään kaikkiin lohkoihin. Tämä on toisin, kuin vaikka GPT-kielimalliin, joka on yksi Transformer-malli.

Tesla on kouluttanut perusmallia yli vuoden. Heillä on pakko olla etukäteen mietitty keinot sen säätämiseen käyttökohteiden mukaan. Mobileyen CEO-kritisoi juuri sitä, että tuo perusmalli on musta laatikko, johon ei voi vaikuttaa

Olettaisi, että loppuvaiheessa ketjua on konseptitasolla iso Transformer-malli tai vastaava (kuten Waymolla), joka ajan saatossa oppii kaikkien asioiden suhteet, jotka vaikuttavat ajoreittien suunnitteluun.
Jos ajatellaan, että voitaisiin kouluttaa äärettömällä määrällä dataa, olisi tuossa mallissa kaikkien tarvittavien asioiden suhteet toisiinsa ihmisen kaltaisten liikkeiden ennustamiseen.
Sitten vain otetaan ajossa juuri sillä hetkellä kameroissa näkyvät asiat ja ennustetaan Transformer-mallin suhteilla tulevat liikeradat kaikille objekteille

Vielä 2 vuotta sitten olisi pidetty hulluna, että voidaan kouluttaa puhtaista kameran kuvista järjestelmä, joka pystyy tunnistamaan “kaiken”.
Nyt kehitys on mennyt tässä niin nopeasti eteenpäin, että tässä voi vain seurata, voiko tämä Teslan uhkapeli onnistua.

Joka tapauksessa Teslalla on itsevarmuus end2end-järjestelmän oppimiseen lisääntynyt.

7 tykkäystä

Toki mallissa voi olla useita erillisiä lohkoja, jotka kommunikoivat jonkin rajatumman tai paremmin määritellyn interfacen kautta. Mutta edelleen nuokin lohkot ovat väistämättä lopulta aika korkealla tasolla. Jos eivät olisi, niin tällöin alettaisiin lähestyä vähitellen sitä, että alettaisiin käsin koodaamaan asioita, mikä oli juuri se, mikä on osoittautunut myös huonoksi lähestymistavaksi ja jota piti tällä koko hommalla välttää.

Näitä lohkoja koskevat sitten samat mustan laatikon ongelmat kuin isompaakin mallia. Sivuvaikutusten määrä vaan on luultavasti lohkojaon takia rajatumpi, mutta perusperiaate on sama. Kyse on vain sarjaan kytketyistä vähän pienemmistä mustista laatikoista, joiden pitää toivoa oppivan riittävän hyvin opetusdatan perusteella asioita. Ja edelleen rakenteen riittävyys ja toimivuus selviää vasta sitten, kun systeemi on saatu valmiiksi.

Näen juuri tässä kohdassa merkittäviä eroja perinteiseen softatekemiseen, jossa jo jonkinlaista perusarkkitehtuuria suunniteltaessa pystyy paljon tarkemmin hahmottamaan järjestelmän suorituskykyä. ML-systeemissä enemmänkin hahmotellaan ensin jokin arkkitehtuuri parhaiden arvausten perusteella, sen jälkeen koulutetaan GPU:t punaisena datalla (oikealla tai simuloidulla) ja sen jälkeen katsotaan, mihin tällä päästiin.

Jos jollain olisi kivenkovaa faktaa siitä, millainen AI-arkkitehtuuri varmuudella toimii FSD:ssä, niin tällä samalla taholla olisi myös toimiva FSD jo nyt kädessä ja todennäköisesti myös kassakoneen kilinän takia tarvitsisi tuplakuulonsuojauksen.

Järjestelmähän ei kai voi perustua määräänsä enempää yksittäisiin käyttökohteisiin ja niiden mukaan tehtävään kovin voimakkaaseen säätämiseen vaan nimenomaisesti siihen, että opitaan käyttäytymään laajalti vaihtelevissa liikennetilanteissa, joita ei etukäteen voi speksata ja säätää. Yksittäisiä käyttökohteita (erilaisia dynaamisia liikenteessä vastaa tulevia tilanteita ja niiden kombinaatioita) on yksinkertaisesti liikaa. Tarkoitus on oppia yleiset mallit, jolloin väistämättä yksittäinen tilanne ja yksittäinen käyttökohde on vain yksi osa opetusdataa, joka vaikuttaa jollain tavalla opittuun kompromissiin, joka taas on määritetty globaalisti yli laajan opetusdatajoukon. Opittu kompromissi voi sitten olla joko koko järjestelmän tai jonkin osajärjestelmän (lohkon) laajuinen.

5 tykkäystä

Oletan, että tässä tehdään perusmallia, joka riittävän hyvin yleistää perusajamisen. Sitä hienosäädetään erilaisiin tarpeisiin.
Muuten jos vuoden opetetaan perusmallia USA:n liikenteessä, voi olla haastavaa viedä se vasemmanpuoleiseen liikenteeseen tai vaikka Intian liikenteeseen.
Jokaista erilaista liikennekulttuuria/-sääntöjä kohteden ei voi opettaa vuoden perusmallia.

Pelkkä finetuning ei liene ainoa säätämisen mahdollisuus, näin oletan. Tosin en tiedä, miten Tesla tuon tekee.
Wayve käyttää Self Superviced learning metodia, joka datasta jota ei ole labeloitu ryhmittelee tiedot (pseudo labels). Pienellä labeloidulla datalla se labeloi tarvittavat objektit mm. hienosäätöä varten.

Lisäksi Wayve käyttää muitakin tapoja mustan laatikon ongelman ratkaisemiseen.

Itse kuten ei luonnollisesti kukaan tällä palstalla voi tietää, miten tässä käy. Mutta tämän hetken AI-kehityksen trendien ja kehitysnopeuden mukaan, mitään ei voi sulkea pois.

Edit
Wayven CEO:n kommentit end2end filosofiasta. Hyvin oletettavaa, että nämä pätevät Teslan FSD:n

Foundation Model vs Fine tuning
“And for us, if we’re deploying our technology in a grocery delivery application, or ride hailing, or public transport, there’s differences in each of these scenarios. So what our technology is able to do is learn a base foundation model that learns how to drive in general, and then learns different driving cultures, whether it’s Britain, or the US, or southeast Asia. Once we have that, we can fine tune it through feedback for specific scenarios.”

Datan määrän merkitys end2end-järjestelmälle
“Central to this approach is self-supervised learning. By framing the learning problem as predicting the next data token in the sequence, whether it’s the next word in LLMs or the next driving command in Wayve’s model, the system thrives on unsupervised learning from raw, unlabelled data.
The more data fed into the model, the richer and more expressive the AI model becomes for its specific application. The ability to train on a vast array of driving recordings without human input constitutes the power and magic of self-supervised learning”

4 tykkäystä

Asensin omalle koneelleni Llama-3 instructin. Pirun hidas. Vastaa niin hitaasti, että itse kirjoittaisin nopeammin.
FSD vaatii nopeaa vasteaikaa, mutta toisaalta opetusdataa tarvitaan valtavasti eli malli paisuu. Onko riski, että malleista tulee niin raskaita, että vaikka periaatteessa ongelma ratkeaa, käytännössä inference on niin raskasta, että se vaatii niin järeää rautaa autoon, että homma ei taloudellisesti kannata / tyhjentää akun?

Zuckerberg totesi jotenkin siihen suuntaan, että tekoälyn rajoittava tekijä nykyään on sähkön riittävyys🤷

Onko koneessa useamman kilon kuparimötikällä varustettu erillinen GPU jonka hintalappu oli nelinumeroinen tai hyvin lähellä sitä? Jos ei, tämä on ihan normaalia.

1 tykkäys

Ei toki. Sehän tästä niin mielenkiintoista seurattavaa tekeekin.

Nähdäkseni tämä pätee edelleen vain johonkin rajaan asti, vaikka sen kuka sanoisi. Jos AI-mallin koko tai arkkitehtuuri pidetään fiksattuna, niin se asettaa itsessään jo jotain implisiittisiä rajoja sille, mitä malli ylipäätään voi oppia. Niinpä lisädatan syöttäminen ei enää noissa tilanteissa paranna mallin suorituskykyä.

Äärimmäisen yksinkertaistettu esimerkki vähän samankaltaiseta tilanteesta olisi se, että yritettäisiin sovittaa painotetulla regressiomallilla toisen asteen polynomia vaikkapa viidennen asteen polynomista kerättyyn dataan. Lokaalisti tuo voi sopia hyvin, mutta erikoistapauksia lukuunottamatta kunnollista globaalia sovitusta ei saa aikaan. Ei auta, vaikka miten paljon ottaisi uutta dataa käyttöön, jos mallin ilmaisuvoimaa rajoittaa mallin rakenne. Ja loputtoman myyräpelinkin tuosta saa aikaan, jos painottaa virheitä eri puolilla vähän eri tavoin aina uusien havaintojen perusteella.

Toki AI-skenaariot ovat älyttömästi moniulotteisempia ja monimutkaisempia, mutta samalla tavalla näihin sisältyy mallin rakenteesta aiheutuvia rajoitteita, jotka eivät millään lisädatan keräämisellä oikene. Yhdenlaista mallin sovittamista tuo ML-touhukin pohjimmiltaan kuitenkin vain on, vaikka se onkin paljon jännempää puuhaa kuin perinteiset regressiomallit. :slight_smile: Se, miten rajoitteet sitten estävät minkäkin yksittäisen asian oppimista tai suorituskykyä, on toki ihan toinen juttu eikä siitä voi yleisellä tasolla kovin yksityiskohtaisia johtopäätöksiä vetää.

3 tykkäystä

Tesla’s deal with Baidu isn’t new, the mapping data Tesla will collect likely can’t leave China, and Full Self-Driving can’t compete with the more advanced Chinese alternatives.

This was a “watershed moment,” Wedbush Securities senior analyst Dan Ives said in an interview with Bloomberg Television. However, Tesla has been using Baidu for in-car mapping and navigation in China since 2020. The revised deal, in which Baidu will now also provide Tesla with its lane-level navigation system, clears one more regulatory hurdle for Tesla’s FSD in China. It does not enable Tesla to introduce driverless cars in China or anywhere else, as some media outlets have reported.

Press reports have also claimed that Musk has secured permission to transfer data collected by Tesla cars in China out of China. This is improbable, noted JL Warren Capital CEO and head of research Junheng Li, who wrote on X: “[Baidu] owns all data, and shares filtered data with Tesla. Just imagine if [Tesla] has access to real-time road data such as who went to which country’s embassy at what time for how long.” That, she stressed, would be “super national security!”

According to Reuters, Musk is still seeking final approval for the FSD software rollout in China, and Tesla still needs permission to transfer data overseas.

Li added that a rollout of even a “supervised,” data-lite version of FSD in China is “extremely unlikely.” She pointed to challenges for Tesla to support local operation of the software. Tesla still “has no [direct] access to map data in China as a foreign entity,” she wrote.

7 tykkäystä

Noin se tuntuisi menevän. Tesla eikä Wayve ole julkaissut tarkkoja tietoja AI-malleistaan, joten vaikea sanoa. Wayve on vain kertonut, että Transformer on keskeisissä osissa.

Tosin vaikea uskoa, että Wayven CEO valehtelisi. Jotain tuossa sitten on, jota emme tiedä.

Mallin arkkitehtuuri lienee alussa mitoitettu kasvuun.
Konseptitasolla olen pohtinut, että voiko Transformerin embedding avaruutta kasvattaa lisäämällä sinne asioita sekä tunnistamaan hienovaraisemmin eri asioiden suhteet vaikka parametrien määrä ei muutu (mm. vektorien koko on vakio). Alussa on varauduttu isoon tokenien määrään ?

Oletan Wayven kirjoituksista, että Transformer on putken lopussa. Tähän perustuu myös Wayve multimodal ratkaisu, eli opetuksessa syötetään kuvatieto, action ja teksti tokeneiksi. Malli oppii näiden suhteet ja tätä tietoa voi käyttää paitsi kyselyyn siitä,“Mitä AI olet nyt tekemässä” tai pyytää sitä tekemään jotain toisin.

Mutta kiinnostava kuulla jos Tesla aikaan kertoo tarkemmin

2 tykkäystä

Nämä Elonin ja Ashokin kommentit Q1 puhelussa avaa hyvin FSD kehitystyötä tällä hetkellä vaikkei menekään detaileihin.

Elon MuskChief Executive Officer and Product Architect

Yeah. And we do have some insight into how good the things will be in like, let’s say, three or four months because we have advanced models that our far more capable than what is in the car, but have some issues with them that we need to fix. So, they are there’ll be a step change improvement in the capabilities of the car, but it will have some quirks that are – that need to be addressed in order to release it. As Ashok was saying, we have to be very careful in what we release the fleet or to customers in general.

So, if we look at, say, 12.4 and 12.5, which are really – could arguably even be Version 13, Version 14 because it’s pretty close to a total retrain of the neural nets in each case are substantially different. So, we have good insight into where the model is, how well the car will perform in, say, three or four months.

Ashok ElluswamyDirector, Autopilot Software

Yeah. In terms of scaling loss, people in the community generally talk about model scaling loss where they increase the model size a lot and then their corresponding gains in performance, but we have also figured out scaling loss and other access in addition to the model side scaling, making also data scaling. You can increase the amount of data you use to train the neural network and that also gives similar gains and you can also scale up by training compute, you can train it for much longer and one more GPUs or more dojo nodes that also gives better performance, and you can also have architecture scaling where you count with better architectures for the same amount of compute produce better results. So, a combination of model size scaling, data scaling, training compute scaling and the architecture scaling, we can basically extrapolate, OK, with the continue scaling based at this ratio, we can perfect big future performance.

Obviously, it takes time to do the experiments because it takes a few weeks to train, it takes a few weeks to collect tens of millions of video clips and process all of them, but you can estimate what is going to be the future progress based on the trends that we have seen in the past, and they’re generally held true based on past data.

2 tykkäystä

Ok eli mallin skaalausta, datan skaalausta, opetustietokoneen skaalausta ja arkkitehtuurin skaalausta tehdään eikä näköjään uudelleen koulutus älyttömästi vie aikaa.

Olisikin ollut ihme, jos Elon olisi ilmoittanut vaikka kesällä, että nyt loppui kaikki FSD:n kouluttaminen. Malliin ei mahdu enempää dataa. Tulevaisuus mennään tällä mallilla ja kehitys on loppu :slight_smile:

3 tykkäystä

Spinnaakohan Tesla SC:t pois? Tuli vaan mieleen tästä jutusta.

5 tykkäystä

Tuskin. Taitaa olla Muskin elämänkerrassa mainittu rynnäkkövaihe menossa. Porukkaa ulos ja tehtävät (Muskin mielestä) paremmalle jengille. Ei olisi eka kerta.

2 tykkäystä

Tuosta lienee juuri kysymys. Vauhti ja selitykset eivät kelvanneet.

https://x.com/fomahun/status/1785333618157527081?s=46&t=-b097nZLkeVbsKlIwJmQYA

2 tykkäystä