Articles

ML Practicum: Billedklassificering

Lær, hvordan Google udviklede den avancerede billedklassificeringmodel, der driver søgning i Google Fotos. Få et crash kursus på convolutional neuralnetværk, og bygg derefter din egen billedklassifikator for at skelne kattefotosfra hundebilleder.

forudsætninger

  • maskinlæring Crashkursus eller tilsvarende erfaring med ML fundamentals

  • færdigheder i grundlæggende programmering og nogle erfaringer kodning i Python

introduktion

i maj 2013 frigav Google søgning efter personalfotos, hvilket giver brugerne mulighed for at hente fotos i deres biblioteker baseret på de objekter, der findes i billederne.

skærmbillede fra Google Fotos, der viser søgning efter Siamesecats Figur 1. Google Fotos søg eftersiamese katte leverer varerne!

funktionen, der senere blev indarbejdet i Googlephotosi 2015, blev bredt opfattet som en spilskifter, et bevis på konceptet om, at computervisionsprogrammer kunne klassificere billeder til menneskelige standarder og tilføje værdipå flere måder:

  • brugere behøvede ikke længere at tagge fotos med etiketter som “strand” for at kategorisere billedindhold, hvilket eliminerer en manuel opgave, der kan blive ret kedelignår man administrerer sæt med hundreder eller tusinder af billeder.
  • brugere kunne udforske deres samling af fotos på nye måder ved hjælp af Søgetermer til at finde fotos med objekter, de måske aldrig har tagget. For eksempel kunne de søge efter “palme” for at overflade alle deres feriebilleder, der havde palmer i baggrunden.programmer kan potentielt “se” taksonomiske forskelle, som slutbrugere måske ikke selv er i stand til at opfatte (f.eks. skelne mellem siamesere og abyssinske katte), hvilket effektivt øger brugernes domænekendskab.

Sådan fungerer Billedklassificering

Billedklassificering er et overvåget læringsproblem: Definer et sæt målklasser (objekter, der skal identificeres i billeder), og træn en model til at genkende demved hjælp af mærkede eksempelbilleder. Tidlige computersynsmodeller var afhængige af rå billeddata som input til modellen. Som vist i figur 2 giver rå billeddataalone imidlertid ikke en tilstrækkelig stabil repræsentation til at omfatte themyriad-variationer af et objekt som taget i et billede. Placeringen af objektet, baggrunden bag objektet, omgivende belysning, kameravinkel og kamerafokus kan alle producere udsving i rå billeddata; disse forskelle er betydelige nok til, at de ikke kan korrigeres ved at tage vægtede gennemsnit af RGB-værdier.

collage af fotos med katte i forskellige positioner med forskelligebaggrunde og lysforhold og de resulterende gennemsnitlige billeddata frabillederne figur 2. Venstre: katte kan fangesi et billede i en række forskellige poser, med forskellige baggrunde og belysningbetingelser. Til højre: gennemsnitsdata for at tage højde for denne sort giver ikke nogen meningsfuld information.

for at modellere objekter mere fleksibelt tilføjede klassiske computersynsmodeller nye funktioner, der stammer fra billeddata, såsom farvehistogrammer, teksturer og former. Ulempen ved denne tilgang var den funktioningeniørblev en reel byrde, da der var så mange input til at tilpasse. For en katklassifikator, hvilke farver var mest relevante? Hvor fleksibel skal formdefinitionerne være? Fordi funktioner skulle indstilles så præcist, var buildingrobust-modeller ret udfordrende, og nøjagtigheden LED.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.