la idea será contar el número de veces que aparece la palabra visual en toda la
región en el primer nivel, en cada una de las 4 regiones en el segundo nivel,
y en cada una de las regiones en el tercer nivel.
Como vemos aquí, el vocabulario es común para todos los histogramas y
todas las regiones y todos los niveles, con lo que el cálculo es bastante
más eficiente que antes, porque no tenemos que calcular los 21 histogramas.
Ahora, el paso final de las pirámides espaciales será aprender.
O bien, cada clasificador aprenderá independientemente uno de los niveles,
por tanto tendremos tres clasificadores, o lo que haremos será concatenar todos los
histogramas en un único histograma y, que sea la entrada para un clasificador.
Veamos qué implica cada uno de estos dos casos.
Para hacer la selección de clasificadores,
una vez se han generado para cada región y nivel los histogramas normalizados con
norma L1 color L2 como vimos en el inicio del curso, lo que utilizamos es
cada histograma es la entrada de un clasificador independiente.
Por tanto tenemos el histograma 1 del nivel 1, clasificador nivel 1,
los 4 histogramas correspondientes al siguiente nivel
se concatenan para aprender un segundo clasificador, y finalmente los
16 histogramas que se corresponden con las 16 rejillas con regiones del nivel 0,
serían la entrada a lo que aprenderíamos concatenados de un clasificador.
Al final lo que haríamos sería combinar con
cualquiera de las estrategias que vimos en el último video de la pasada semana.
El gran inconveniente que tiene esta aproximación es el costo computacional
en el aprendizaje de los pesos de los histogramas y de los clasificadores.
Es decir, aumentar el tamaño del vocabulario hará muy costoso
saber los pesos de los histogramas y de los clasificadores
a nivel de validación cruzada.
Como alternativa a la selección de clasificadores donde cada uno aprende
el vocabulario común de las regiones en cada uno de los niveles,
tenemos 3 niveles, tenemos 3 clasificadores.
Aquí veremos la mezcla de clasificadores, en la que todos ellos
trabajan sobre un mismo vocabulario visual común y sobre un mismo histograma.
Es decir, el clasificador aprende sobre las 3 regiones,
los 3 niveles de la pirámide.
La idea será, tenemos un mismo vocabulario visual común para todos los niveles,
y para cada nivel calcularemos el primer bin.
Corresponde a una determinada palabra visual,
y contaremos el número de veces que aparecen en toda la imagen.
Repetimos el proceso para el segundo nivel, en el que para uno,
cada una de las 4 regiones de la imagen, el primer bin contará el número de veces
que aparece esta palabra en la región correspondiente, hasta llegar al tercer
nivel en el que tendremos 16 histogramas por cada una de las regiones de la malla,
y el primer bin del histograma contará el número de veces que aparece esta palabra
visual, en este caso en la primera rejilla de la malla.
Lo que hacemos es concatenar todos los histogramas,