Articles

ML Practicum: Image Classification

Ismerje meg, hogyan fejlesztette ki a Google a legkorszerűbb képosztályozási modellt a Google Fotókban. Szerezzen be egy gyorstalpaló tanfolyamot a konvolúciós neuralnetworks-en, majd készítse el saját képosztályozóját, hogy megkülönböztesse a macskafotókata kutyafotóktól.

előfeltételek

  • Machine Learning Crash Course vagy azzal egyenértékű tapasztalat ML fundamentals

  • jártasság a programozás alapjait, és néhány tapasztalat kódolás Python

Bevezetés

2013 májusában a Google kiadta search for personalphotos, így a felhasználók képesek letölteni fényképeket a saját könyvtárak alapján a tárgyak jelen a képeket.

képernyőkép a Google Fotókból, amely a Siamesecats keresését mutatja 1. ábra. Google Fotók keresésAz ázsiai macskák szállítják az árut!

a funkciót, amelyet később beépítettek a GooglePhotosin 2015-be, széles körben úgy tekintették, mint egy játékváltót, a koncepció bizonyítékátszámítógépes látás szoftver képes osztályozni a képeket az emberi szabványok szerint, hozzáadott értéktöbbféleképpen:

  • a felhasználóknak már nem kellett címkézniük a fényképeket olyan címkékkel, mint a “beach” a kategorizáláshozképtartalom, kiküszöbölve egy kézi feladatot, amely meglehetősen unalmassá válhatszáz vagy ezer kép készletének kezelésekor.
  • a felhasználók új módon fedezhetik fel fotógyűjteményüket, a searchterms segítségével olyan objektumokat találhatnak meg, amelyeket esetleg soha nem címkéztek meg. Például kereshettek “pálmafát”, hogy felszínre hozzák az összes nyaralásukatfotók, amelyeknek pálmafák voltak a háttérben.
  • a szoftver potenciálisan” látja ” azokat a taxonómiai megkülönböztetéseket, amelyeket a felhasználók maguk nem képesek észlelni (pl. a Sziámi és az Abyssinian macskák megkülönböztetése), hatékonyan növelve a felhasználók domainismeretét.

hogyan működik a Képosztályozás

a Képosztályozás felügyelt tanulási probléma: definiáljon egy targetclasses-t (objektumokat azonosítani a képeken), és képezzen ki egy modellt, hogy felismerje őket címkézett példaképekkel. A korai számítógépes látásmodellek a nyers pixeldata-ra támaszkodtak a modell bemeneteként. Amint azonban a 2. ábrán látható, a raw pixel dataalone nem nyújt elég stabil ábrázolást ahhoz, hogy felölelje a képen rögzített objektum themyriad variációit. Az objektum helyzete, az objektum mögötti háttér, a környezeti megvilágítás, a kamera szöge és a kamerafókusz mind ingadozást eredményezhet a nyers pixeladatokban; ezek a különbségek elég jelentősek ahhoz, hogy a pixel RGB értékek súlyozott átlagával nem korrigálhatók.

fotók kollázsja különböző pozíciókban, különböző hátterekkel és fényviszonyokkal, valamint a képek átlagolt pixeladatai 2.ábra. Balra: a macskák rögzíthetőkegy fényképen különböző pózokban, különböző hátterekkel és világításokkalkörülmények között. Jobb: a pixeladatok átlagolása ennek a fajtának a figyelembevétele érdekében nem eredményez értelmes információkat.

az objektumok rugalmasabb modellezéséhez a klasszikus számítógépes látásmodellek új képpontadatokból származó jellemzőket adtak hozzá, mint például a színhisztogramok, textúrák ésformák. Ennek a megközelítésnek a hátránya az volt, hogy a funkcióa mérnöki munka valódi teherré vált, mivel annyi bemenet volt a csípéshez. A catclassifier számára mely színek voltak a legfontosabbak? Mennyire rugalmasnak kell lennie az alakdefinícióknak? Mivel a funkciókat olyan pontosan kellett hangolni, a buildingrobust modellek meglehetősen kihívást jelentettek, a pontosság pedig szenvedett.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.