Mikä on Deep Learning AF: miten Canonin tekoälyllä toimiva automaattitarkennus toimii?

Canon on aiheuttanut paljon melua uudesta Deep Learning AF -järjestelmästä, joka on valmistajan uusimman ammattilaiskameran ydin. Se kuulostaa uskomattoman fiksulta, mutta kysymyksiä on paljon - mikä on syväoppiminen? Kuka opettaa? Oppiako järjestelmä kuvaamisen aikana? Onko se todella tekoäly kamerassa? Tekeekö se autofokusta todella parempaa?

Jos olet lukenut Canon EOS-1D X Mark III -katsauksen, tiedät, että vastaus viimeiseen kysymykseen on selvästi kyllä. Mitä tulee vastauksiin muihin Deep Learning AF: tä koskeviin kysymyksiin, ota itsellesi drinkki ja välipala ja lue …

Canon EOS-1D X Mark III: n automaattitarkennusmekanismi on uskomattoman älykäs ja tukee kahta yksittäistä automaattitarkennusjärjestelmää. Ensimmäinen on optinen järjestelmä, joka kuvaa 16 kuvaa sekunnissa etsimen kautta käyttämällä 400 000 pikselin mittausanturia yhdessä erillisen Digic 8 -prosessorin kanssa 191-pistetarkennusta varten, joka pystyy seuraamaan kasvoja.

Sitten on Live View -järjestelmä, joka voi kuvata 20 kuvaa sekunnissa ja käyttää kaikkia 20,1 miljoonaa pikseliä kuvakennosta yhdistettynä uuteen Digic X -prosessoriin, 3869 Dual Pixel CMOS -pisteelle, jotka voivat suorittaa täyden silmätunnistuksen automaattitarkennuksen.

Molempien järjestelmien virransyöttö on Canonin ydin EOS iTR AFX -teknologia - viimeisin älykkään seurannan ja tunnistuksen automaattitarkennuksen iterointi, joka esiteltiin alkuperäisessä EOS-1D X -mallissa (ja myöhemmin matkalla 7D Mark II- ja 5D-perheeseen). Ja sen piiriin on haudattu Deep Learning -algoritmi.

Syvä oppiminen EI ole sama kuin tekoäly

Ensinnäkin on tärkeää selventää, että syvää oppimista ei pidä sekoittaa tekoälyyn (AI). Tekoälyjärjestelmä on jotain, joka on jatkuvassa kehityksessä. Syväoppiminen eli koneoppiminen on tekoälyn osajoukko.

Toisin kuin todellinen tekoäly, syvällinen oppiminen on suljettu prosessi. Se on kokoonpanoa edeltävä algoritmi, jonka avulla kameran arkkitehtuuri opettaa olennaisesti itsensä, paljon nopeammin kuin ihmisen insinöörit voisivat ohjelmoida sen manuaalisesti. Kun tämä oppiminen on suoritettu, se lukitaan ja ladataan kameraan.

Siitä lähtien enempää oppimista ei voida suorittaa; nimestä huolimatta - ja syvä oppiminen on tekniikan nimi, ei prosessin kuvaus - kamera ei opi jatkuvasti eikä tule 'paremmaksi', sitä enemmän kuvaat (todellakin, todellinen tekoälyjärjestelmä oppii niin monta samoin kuin hyvät tapasi!).

"Se on opetettu", kertoo Mike Burnhill, Canon Europen teknisen tuen johtaja. "Laitat sen tietokoneeseen, se luo algoritmin, joka ladataan sitten kameraan. Joten se eroaa tekoälystä - tekoäly on jatkuva oppiminen; syvä oppiminen on pohjimmiltaan, se opettaa itseään ja antaa sinulle lopputuloksen, joka ladataan sitten kameraan. "

Mikä herättää kysymyksen: Voiko kamera todella tukea tekoälyä, kun niin monet yritykset huutavat tekoälypohjaisista ominaisuuksista?

"Kamerassa ei voida suorittaa prosessointitehoa aidon tekoälyn tekemiseen", Burnhill sanoo. "Jos haluat tehdä niin, on puhelimia - mutta tietoja ei ole puhelimessasi, ne ovat Piilaaksossa. Siellä on tekoälyjärjestelmä. Se on vain, puhelinyhteytesi muodostaa yhteyden siihen - se ei ole täällä, se on siellä (sisään pilvi), koska tarvitset palvelinta. Voisimme tehdä kameran, mutta sinä laukaisit jättimäisen lentokotelon ympärilläsi koko ajan. "

Kuinka syvä oppiminen opettaa itseään?

Joten, Deep Learning -algoritmi opettaa itseään - mutta mistä se todella oppii? Vastaus on yksinkertaisesti sanottuna "parhaasta".

"Canon työskenteli toimistojemme kanssa", Burnhill kertoo. "Saimme pääsääntöisesti pääsyn heidän koko urheiluvalokuvakuvatietokantaansa kaikilta suurimmilta toimistoilta, työskentelimme urheilua kuvaavien suurlähettiläidemme kanssa ja he antoivat kuvansa eri aiheista, ja se antoi meille mahdollisuuden opettaa tälle automaattitarkennusjärjestelmälle, kuinka tunnistaa ihmisiä urheilussa. "

Urheilu on tietysti kohdennettu opetusmenetelmä, koska Canon EOS-1D X Mark III on ensisijaisesti urheilukamera. Ongelmana on, olipa kyseessä koripalloilija, joka on suunnattu kamerasta poispäin, hiihtäjä, jolla on suojalasit, tai Formula 1 -kuljettaja, jolla on kypärä, urheilussa olevien ihmisten kasvot ovat usein peitossa - mikä tarkoittaa, että perinteinen kasvojen tai edes silmien havaitseminen ei auta Se ei toimi, ja kamera lukkiutuu sen sijaan asioihin, kuten pelaajan puvun numeroihin.

Antamalla Deep Learning -algoritmille pääsyn laajaan kuvakirjastoon kaikesta ylösalaisin olevista voimistelijoista jääkiekkoilijoihin, joissa on tyynyjä ja kypärää, se pystyy oppimaan ja erottamaan ihmismuodon loputtomissa tilanteissa - ja lopulta pystyy suorittaa tämä "pään tunnistus" niin, että vaikka henkilön kasvot eivät olekaan näkyvissä, pää on aina ensisijainen kohdepiste.

"Syvä oppiminen on pohjimmiltaan kuvia, luot joukon sääntöjä, joiden avulla se voi oppia, ja sitten se menee pois ja se luo oman algoritminsa", Burnhill jatkaa. "Joten asetat parametrit sille, miltä henkilö näyttäisi, menet:" Tässä on henkilö ", sitten se analysoi kaikki ihmisten kuvat ja sanoo:" Tämä on henkilö "," Se on henkilö ". käy läpi miljoonia kuvia tietyn ajanjakson ajan ja luo tietokannan, ja se oppii itse. "

Itse asiassa algoritmi luo itse asiassa kaksi tietokantaa - yhden optisen etsimen automaattitarkennusjärjestelmän ja mittauksen palvelemiseksi Digic 8: n avulla ja toisen Live View -tarkennusjärjestelmän palvelemiseksi, joka käyttää Digic X: ää. Koska Digic X tekee kaiken laskennan pään seuranta, kun AF-algoritmi havaitsee henkilön kehyksessä, kaikki työnnetään uudelle prosessorille.

"Kun olet saanut henkilön sisään, sinulla on tosiasiallisesti kaksinkertainen käsittely", Burnhill sanoo. "Tässä on kaksi tietokantaa, koska molempien antureiden tulo tulee olemaan hieman erilainen, joten miten se tunnistetaan, on hieman erilainen, joten nämä ovat saman algoritmin osajoukkoja. Molempien ydintiedot ovat samat, se on vain miten se tunnistetaan ja siihen käytetään oikeita tietoja. "

Jos se ei voi oppia uusia asioita … entä eläinten AF?

Tietysti Canon EOS-1D X Mark III ei ole vain urheilukamera - sen toinen keskeinen yleisö on villieläinten ampujia. Kameralla ei kuitenkaan ole eläinten automaattitarkennusta, ja olemme todenneet, että Deep Learning ei voi itse oppia uusia temppuja, kun se on paistettu kameraan. Onko niin? Eikö kamera edes keskity perhekoiraan tämän hienon uuden tekniikan ansiosta?

On totta, että tällä hetkellä kamerassa ei ole eläinten (tai eläimen silmien) automaattitarkennusta. "Pohjimmiltaan keskitymme ihmisiin, joista aloittaa, jotta tällainen algoritmi toimisi ensin", Burnhill vastaa. "Siksi olemme keskittyneet tavallaan urheiluun, koska se on asetettu parametri ja voimme opettaa sitä tietyn ajan kuluessa"

Vastaus piilee siis laiteohjelmistossa. Burnhill vahvisti, että kameralla on potentiaalia syvällisempään oppimiseen esimerkiksi lintujen ja villieläinten tapaan ja että tämä päivitetty algoritmi levitetään käyttäjille laiteohjelmistopäivitysten kautta - tosin ei ole konkreettisia suunnitelmia ilmoittaa.

"Kehitämme sitä koko ajan, joten tällä hetkellä ei ole vielä selvää, miten ja minne menemme. Mutta kehitystiimi menee ja tarkastelee muita eläinvalokuvia - ymmärrämme, että on olemassa joukko aloja, mutta tietysti iso tämän kameran painopiste on urheilu ja sitten villieläimet, ja Tokion 2022-2023 kanssa tämä oli tietysti etusijalla. "

Se on reilu asia; jos Canon odotti, että Deep Learning oppii kaiken, kameran vapauttaminen olisi pitänyt kestää kauemmin. Ja vaikka Sonyn kaltaisilla valmistajilla onkin valikoissa eläinten automaattinen automaattitarkennus, Burnhill huomauttaa, että Canon julkaisi mieluummin kokonaisen eläintautomaattiratkaisun kuin valikoivan, paloitellun. Ja tässä syvällinen oppiminen tulee korvaamattomaksi.

"Ongelma on villieläimissä, siellä on paljon erilaisia eläimiä - sinulla on ilmeisesti saalistajia, joiden silmät ovat edessä, ja sitten sinulla on kanien (silmät) sivussa, sinulla on käärmeitä, sinulla on lintuja … ei ole järjestelmää, joka tunnistaa kaikkien eläinten kasvot. Ja siellä pääset koko tähän syvään oppimiseen, opettamaan järjestelmää tunnistamaan nämä monimutkaiset asiat. "

Joten vaikka Sony pystyy ehkä seuraamaan koirasi tai kissasi, mutta ei salamanteria tai flamingoa, Canon haluaa tuottaa kameran, joka tekee kaiken tai ei mitään. "Jos aiomme tehdä sen, haluaisimme tehdä sen niin laajalle spektrille - emme halua tehdä koiralle ja kissalle sopivia kameroita, me haluamme tehdä eläimille sopivan kameran joka toimii laajalle joukolle eläimiä, joita (ammattilaiset) ampuvat. "

Canon EOS-1D X Mark III -katsaus
Kuinka Canon teki kaikkien aikojen nopeimman DSLR-kameran? Suunnittelemalla peilikotelo uudelleen
102 päivitystä Canon EOS-1D X Mark III: een