Articles

ML Practicum: Image Classification

Learn how Google developed the state-of-the-art image classificationmodel powering search in Google Photos. Faça um curso intensivo sobre redes neurológicas convolucionais, e depois construa o seu próprio classificador de imagem para distinguir as fotos de Gatos das fotos de cães.

pré-Requisitos

  • de Aprendizagem de Máquina de Falha de Curso ou equivalente experiência com o ML fundamentos

  • Proficiência em noções básicas de programação, e alguma experiência de codificação em Python

Introdução

Em Maio de 2013, o Google lançou procurar personalphotos,dando aos usuários a capacidade para recuperar fotos em suas bibliotecas com base no theobjects presentes nas imagens.

screenshot from Google Photos showing search for Siamesecats Figure 1. Google Photos search forSiamese cats deliver the goods!

O recurso, mais tarde incorporada GooglePhotosin 2015, foi amplamente percebida como um divisor de águas, uma prova de conceito thatcomputer software de visão poderia classificar imagens para os padrões humanos, acrescentando valuein várias maneiras:

  • Usuários não é mais necessário para marcar fotos com rótulos como “praia” para categorizeimage de conteúdo, eliminando uma tarefa manual que poderia se tornar muito tediouswhen gerenciar conjuntos de centenas ou milhares de imagens.
  • Os usuários poderiam explorar sua coleção de fotos de novas formas, usando searchterms para localizar fotos com objetos que eles podem nunca ter marcado. Por exemplo, eles podiam procurar por “palmeira” para emergir todas as suas férias que tinham palmeiras ao fundo.
  • o Software poderia potencialmente ” ver ” distinções taxonômicas que acabam com os usuários podem não ser capazes de perceber (por exemplo, distinguindo gatos siameses e abissinianos), efetivamente aumentando o conhecimento do domínio dos usuários.

How Image Classification Works

Image classification is a supervised learning problem: define a set of targetclasses (objects to identify in images), and train a model to recognize themusing legended example photos. Os primeiros modelos de visão computacional baseavam-se em pixeldata raw como a entrada para o modelo. No entanto, como mostrado na Figura 2, o pixel raw dataalone não fornece uma representação suficientemente estável para englobar as variações de um objeto como capturado em uma imagem. A posição do objecto, o fundo por detrás do objecto, a iluminação ambiente, o ângulo da câmara e o camerafocus podem produzir flutuações nos dados brutos dos pixels; estas diferenças são suficientemente significativas para que não possam ser corrigidas tomando como referência médias ponderadas os valores RGB dos pixels.

colagem de fotos com gatos em uma variedade de posições, com diferentes acampamentos e condições de iluminação, e os dados médios de pixels resultantes das imagens Figura 2. Esquerda: os gatos podem ser capturados numa foto em uma variedade de poses, com diferentes cenários e condições de luz. Direita: a média de dados de pixels para contabilizar esta variedade não produz qualquer informação significativa.

para modelar objetos de forma mais flexível, os modelos clássicos de visão computacional adicionaram novas características derivadas de dados de pixels, tais como colorhistogramas, texturas e paisagens. O lado negativo desta abordagem foi o facto de a engenharia de proezas se ter tornado um fardo real, uma vez que havia tantos contributos para ajustar. Para um catclassifier, quais as cores mais relevantes? Quão flexíveis devem ser as definições moldadas? Como as características precisavam ser ajustadas com tanta precisão, modelos buildingrobust eram bastante desafiadores, e a precisão sofreu.

Deixe uma resposta

O seu endereço de email não será publicado.