Teslan liiketoiminnalle keskeistä ovat intohimoisesti Teslaan suhtautuvat ja siksi Musk lupaa heille jotain muuta, mitä kertoo virallisissa dokumenteissa
Tesla käyttää kommunikoinnissaan teknisiä termejä, jotka luovat uskottavuutta fanien keskuudessa, mutta jotka tuntuvat monesta asiantuntijasta lähinnä markkinointitermeiltä.
Edellä mainittu Mersu käyttää NVIDIA:n platformia, jossa on paljon samoja elementtejä, kuin vaikka Mobileye:n platformissa (kamera, lidar, AV/HD-kartat…)
Silti en ihmettele, vaikka moni uskoo Teslan ja Muskin onnistumiseen. Elon Musk on saanut poikkeusellisen paljon aikaan.
Niissä asioissa joista itselläni on kokemusta, Elon Musk ei puheissaan tunnu olevan varsinaisesti tekninen asiantuntija. Hän on visionääri, liikemies, tietää sopivalla tasolla laajasti tekniikasta, osaa viedä laajoja asioita eteenpäin ja kykenee palkkaamaan päteviä ja intohimoisia alaisia.
Jos FSD ei onnistuisi johtuisi se omasta mielestäni 2017 tapahtumista, joissa laajan vision omaava Sterling Anderson lähti Auroralle ja Musk palkkasi puhtaan AI-gurun Andrej Karpathyn vetämään FSD:tä.
Tämän jälkeen Musk alkoi lupailemaan täysin autonomista Teslaa nopealla aikataululla. Tällä hetkellä FSD:n kehityksen suuntaan taitaa vaikuttaa enemmän Andrej kuin Musk
Aika näyttää onko Andrej intohimoisesti AI:n suhtautuva guru, joka ei hahmota laajasti tieliikenteen autonomisoitumisen vaatimuksia vai nero, jota moni ei tässä vaiheessa vielä ymmärrä.
Kyllä. Teslalla on päällä kasvuvauhti, jollaista ei saman kokoluokan yrityksillä ole ennen nähty. Kasvunopeus kiihtyy voimakkaasti kun uuden sukupolven tehtaat (Berlin, Austin) aloittavat tuotannon. Shanghain tehtaalla myös paljon resursseja kiihdyttää tuotantoa.
Kyllä. Kun ymmärtää, että autonomia ratkaistaan massiivisella määrällä dataa, jonka avulla tekoälyn neuraverkon kokoa kasvatetaan riittävän suureksi suoriutumaan kaikista tosimaailman liikennetilanteista. Kilpailijoiden hd-kartta ja lidar ratkaisut eivät tule koskaan skaalautumaan samalla tavalla. Teslan ratkaisu sen sijaan skaalautuu helposti ja liiketoimintamalli, jolla Tesla kehittää FSD:ta, on loistava: 1. itse suunniteltu rauta ja softa 2. maksavat asiakkaat keräämässä dataa.
MobileEye:een ja muihin kilpailijoihin uskovat puolustautuvat sanomalla, että kyllä muutkin käyttävät neuraverkkoja ja kameroita. Tuossa argumentissa missataan täysin datan määrän merkitys. Waymolla on 30 miljoonaa mailia ajettua dataa, kun Teslalla sama luku on 30 miljardia mailia (lähde: ARK Invest)
Jos Waymolla olisi käytössä 1 000€ niin samassa suhteessa Teslalla on käytössä 1 000 000 €.
Musk on ikuinen optimisti. Jokainen Tesla-bull ymmärtää suhtautua varauksella Muskin antamiin aikatauluihin. Bullien keskuudessa onkin muodostunut termi “Elon time”. Muskilla on kuitenkin tapana ennemmin tai myöhemmin toteuttaa tavoitteensa. Siitä on hyvä track record.
Tämä FSD-keskustelu on jakaantunut hyvin vahvasti kahteen leiriin ja keskustelun taso on sitä myötä itseään toistavaa juupas eipäs väittelyä. Mä ajattelin palata FSD-höpinöihin sitten, kun tarjolla on videoita FSD Beta 9.0:n ajosuoritteista. Lidar-uskovaisten mieltä ei pysty kääntämään muulla kuin tosielämän videoesimerkeillä
Olen tällä palstalla jo monet kerrat selittänyt, miksi Tesla on jo voittanut autonomian. En jaksa vastata jokaiseen viestiin, kun argumentaatiotaso on luokkaa:
“Kaikki alan asiantuntijat ovat sitä mieltä että lidar on tarpeellinen”
“Kyllä muutkin ajavat ilman hd-mappeja”
“Kyllä muutkin käyttävät kameroita ja neuraverkkoja”
Jos yllä olevat argumentit pitävät paikkaansa, niin videoesimerkkejä pitäisi löytyä vaikka kuinka. Itse en ole löytänyt ainuttakaan.
Kukaan ei mielestäni ole vastannut tähän, kun olen kysynyt, mutta kiinnostaisi tietää miten Tesla on ratkaissut yleensä kameroille “mahdottomat” tilanteet kuten äärimmäiset vastavalot yms. kameran sokaisevat tilanteet? Vastavalolla tulee muitakin haastavia tilanteita jossa varjoja ja valonvälähdyksiä yms tulee mm. jalankulkijoiden takaa eikä selkeitä hahmotettavia ihmishahmoja tule kameran kennolle. Auto pysähtyy ja ei tee mitään kun se ei näe?
En ole tekoälyasiantuntija mutta kuvatunnistuksesta ja kameratekniikoista on kokemusta enkä näe että tätä seikkaa voi perinteisillä kameroilla mitenkään välttää. L3:kin on tällä perusteella pelkästään haave vain kaukaisuudessa.
Jos ymmärrät kameratekniikoiden päälle, niin varmaan ymmärrät että kameroiden valotusta voidaan muuttaa. Kameran valotusasetukset voi vastavalossa säätää niin että tie näkyy ja ajamisen kannalta tarpeeton taivas palaa puhki.
Yleisvastauksena: jos ihminen pystyy niin lopulta tekoäly pystyy, kun dataa haastavista tilanteista on tarpeeksi.
edit: seuraavat FSD-vastaukset annan Beta 9.0 julkaisun jälkeen. Oma veikkaus että tulee 20.4
Usein ihminenkään ei näe noissa tilanteissa. Valotuksen säätäminen kuulostaa äkkiseltään helpolta ratkaisulta, mutta se ei käytännössä toimi, ei ainakaan nykyisellä kennotekniikalla.
Tesla Vehicle Safety Report for the first quarter of 2021 reveals that the average distance per accident while driving on Autopilot is not improving significantly year-over-year, but rather has recently decreased
Toistaiseksi ei siis mitään erityisen lupaavaa dataa autopilotista.
Puheentunnistus olisi jo ratkaistu, jos pelkkä data riittäisi. Samoin kielenkäännös. Ja tarjolla oleva data näissä tapauksissa olisi erinomaista ja helposti hyödynnettävää. Ja miljardimarkkinat olisi noillakin sovellusalueilla luvassa toimivan ratkaisun kehittäjälle. Toki autokäännettyjä manuaaleja tehdään, mutta kukaan itseään kunnioittava tuotemerkki ei niihin sorru. Ongelmana tuntuisivat olevan kokoluokkaa helpompia kuin L5 autonomous driving. Datavirta puheesta on aika paljon pienempi kuin autonomous ajossa eikä ole läheskään yhtä aikakriittistä tulkita dataa.
Luulen kyllä, että sinun osalta tämä on juupas eipäs väittelyä, itse kyllä pystyn halutessa kommentoimaan myös kokemuspohjaisilla mielipiteillä.
Kommenteistasi välittyy, että sinulla ei ole kokemusta kirjoittamistasi asioista, missä ei ole mitään hävettävää, koska suurella osalla ei ole.
Muutama tosiasia
Lidar on sensori, eikä sillä ole mitään vaikutusta skaalautumiseen
AV-kartta, jota luodaan automaattisesti lennossa skaalautuu ja mm. ARK Investin lukemani selvitys ei pohjautunut faktaan.
datan määrä ei ole neuroverkolle ainoa keskeinen asia vaan laadukkaan ja riittävän laajan (paljon ongelmaa tukevia featureja) datan määrä
Itse en ole Mobileye tai Tesla uskova, vaan pyrin pohjaamaan käsitykseni kokemukseeni tai sen antamaan mahdollisuuteen ymmärtää oikeasti näistä asioita
Muuten kyse ei ole neuraverkosta vaan neuroverkosta
Todella paljon auttaa ymmärtämään neuroverkon haasteita ja miksi datan laatu on tärkeää, kun ymmärtää miten neuroverkko oppii. Se ei itse asiassa muista mitään vaan neuroverkko käytännössä laskee sisääntulojen arvot matriisilaskennan läpi ja lopputuloksena on jokin todennäköisyys. Mitään luovaa ajattelua neuroverkko ei ajon aikana suorita
@JukkaM yritän löytää olisiko joku julkaissut tutkimusta lidar vs. pseudo-lidar -eroista. Teslan ratkaisu käsittääkseni on luoda ensin kameroilla lidaria vastaava point cloud, jotta hekin voisivat käyttää tehokkaita lidar-pohjaisia algoritmeja…
Tähän voisi vielä lisätä että datan organisointiin, siivoamiseen, augmentointiin, normalisointiin yms. kuluu helposti yhtä paljon aikaa kuin itse verkon treenaamiseen. Mitä enemmän dataa, sitä vaikeammaksi tehtävä muodostuu. Ellei sitten ole pirun hyvä automatiikka.
En ole ikinä väittänyt että Teslasta tulisi maailman #1 automerkki, eikä sen tarvikaan. Minun sijoitusteesi on todellakin se, että riittää kun asiakkaat (aktiivinen fleet) lasketaan kymmenissä miljoonissa, joille sitten myydään palveluja (nettiyhteyttä, sovelluksia, maksullisia upgradeja, sähköä). Tämä erottaa Teslan bisnesmallin muista, joiden value chain loppuu tehtaalta ulosajoon. Lisäksi valuaatiota nostaa energiapuoli, joka kasvoi 2020 battery storagen osalta peräti 83% ja solarin osaltakin 18% (tähän väliin olisi kiva spekuloida miksi Tesla nosti solar roofien hintaa poskettoman paljon).
Kyllä eli neuroverkkoja on useita ja kaikilla voi olla valtava määrä sisääntuloja, jotka on skaalattava samaan koko luokkaan. Mahdollisesti tehtävä augmentointia jne. Eli ei ole yksiä aivoja vaan manuaalisesti suunniteltava neuroverkkoarkkitehtuuri jonka datan käsittely vaatii paljon manuaalista työtä.
Tunnen tuon Teslan kameroilla tehtävän 3D-mallin. Andrej on sitä monessa videossa esitellyt. Käytännössä tuon generointi kameroiden tiedoista vaatii luonnollisesti enemmän prosesointinopeutta.
Voin havainnollistaa sitä haastetta, jota itse tarkoitan, vaikka ei tämän jälkeen mitään neuroverkkokeskustelua jatkettaisikaan, koska ei kuulu sijoituskeskusteluun
Jos ihminen kääntyy vaikeassa X-risteyksessä vasemmalle, ihminen tekee jatkuvasti luovia ratkaisuja sitä mukaan kun näkee reitin tarkemmin. Ihminen kykenee käyttämään muistia ja assosiaatioita menneisiin tapahtumiin. Tämän vuoksi ei ole väliä vaikka ihminen ei risteystä heti näe kokonaisuutena, koska ihminen kykenee reaaliajassa ajattelemaan luovasti
Kun neuroverkon ohjaama auto kääntyy vasemmalla, ei sillä ole muistia vaan kaikki mahdolliset vaihtoehdot, joita se voi tehdä, on neuroverkon rakenteessa (ei muistissa).
Neuroverkon sisääntulossa voisi olla eri asioita, kuten sen näkemiä objekteja (kävelijä, auto, pyöräilijä…).
Riippuen mitä sisääntuloissa on, neuroverkko laskee yksinkertaiset yhteen ja kertolaskut ja lopputuloksena on todennäköisyys sille, mitä tulisi tehdä. Noiden laskutoimitusten kertoimet on saatu neuroverkon opetuksesta.
Koska neuroverkon rakenteessa on kaikki eri vaihtoehdot, tätä työtä voi helpottaa siten, että neuroverkko selkeästi tietää muitakin asioita kuin kameran näkemät, kuten vaikka AV-kartan kertomat tarkat tien muodot. Näin neuroverkon rakenteen ei tarvitse tukea niin montaa vaihtoehtoa.
Yllä oleva vain konseptimainen selitys, koska oikeasti on useita neuroverkkoja eri tehtäviä varten
En olisi ihan varma. Jos kyseessä on puhdas CNN, toki, mutta miksi olisi. TTS, puheentunnistus jne. perustuvat kaikki “muistillisiin” arkkitehtuureihin eli LSTM/RNN/Transformer.
Edit: kuvantunnistus perustuu CNN-ratkaisuun, mutta agenttia ohjaa reinforcement learning, joka on muistillinen otus. Esimerkkinä paperi jossa opetettiin AI:ta pelaamaan counter strikea: https://arxiv.org/pdf/2104.04258.pdf
Asian liittyvä poiminta paperista: “An agent receiving a single frame as input would be unable to estimate the movement of itself and other players. We initially used a stacked input approach to overcome this, where the previous n frames are jointly fed into the NN. Whilst successful in the simpler aim training mode, this approach failed in deathmatch mode, with the agent often getting stuck in doors or corners, and forgetting about enemies midway through firefights. The final agent used a convolutional LSTM layer [Shi et al., 2015] after the EfficientNetB0, which seemed to fix both these problems. A linear layer connects the convolutional LSTM to the output layer.”
Mainitsin, että esimerkkini on konseptuaalinen. Eli oikeassa neuroverkkoratkaisussa on erilaisia neuroverkkomalleja.
Esimerkissäni en viitannut mihinkään tiettyyn vaan pääosin neuroverkon oppiminen perustuu oppimisen aikana haettuihin optimaalisiin painoarvoihin. Monen mallin osana on perusneuroverkko eli jonkinlainen Feed Forward
Koska en ole itse ohjelmoinut Recurrent NN:ää (tai sen sukulaisia ) vaan ainoastaan konseptitasolla tutkinut, en ota siihen suuresti kantaa. Mutta kyse kuitenkin lienee tilasiirtymiin pohjautuvasta ratkaisuista, jonka haittapuolena se, että ei ole yhtä ihmisen aivojen kaltaista älyä ja muistia vaan tilasiirtymiä, jolloin pidemmissä tilasiirtymäketjuissa on haasteita.
RNN myöskin usein taitaa perustua opetuksessa haettaviin optimaalisiin painoarvoihin.
Eli kun ihminen kääntyy X-risteyksestä vasemmalle, hän ajattelee luovasti ja kykenee käyttämään muistia ja assosioimaan useita eri aikana historiassa olevia tapahtumia.
Kun neuroverkko ohjaa autoa vasemmalle, sen toiminta perustuu pääosin painoarvoihin, jotka on opetuksessa haettu optimaalisiksi, ottamatta kantaa Neuroverkkomalleja. Tai pohjautuuko neuroverkkomalli annotoituun dataan vai pyrkiikö neuroverkko itse jäsentämään datan ja ehkä syöttämään sitä seuraavalle neuroverkolle