1. El análisis de componentes principales en un sencillo ejemplo.

El propósito del análisis de componentes principales (ACP) y la reducción de dimensionalidad es aproximar una colección de datos proyectándolos a un subconjunto apropiado como una línea, un plano, etc, dependiendo del número de componentes principales utilizadas. Una de las múltiples aplicaciones del ACP es la compresión de datos de tal forma que su transmisión sea más efectiva. Para ilustrar esto, tomemos la siguiente foto en la escala de grises

FotoOriginal
Esta imagen es una foto con $512\times 512$ pixeles en la escala de grises. Como se explicó en esta lectura, dicha foto se puede pensar como una matriz de tamaño $512\times 512$ cuyas entradas corresponden a la intensidad de cada pixel. En otras palabras, para transmitir esta foto necesitamos $512\times 512=262,144$ parámetros. Utilizando el análisis de componentes principales, podemos aproximar dicha imagen utilizando un número menor de parámetros correspondientes a unas direcciones llamadas direcciones principales. Estas direcciones nos permiten aproximar los datos por medio de unos vectores llamados componentes principales. La idea general consiste en escoger las direcciones principales de forma que correspondan a vectores propios de una matriz llamada matriz de covarianzas. Las direcciones que aportan mayor información corresponden a los valores propios más grandes de la matriz de covarianzas. En general, cuando incrementamos el número de direcciones principales que utilizamos obtenemos una mejor aproximación. La siguiente figura ilustra este proceso aplicado a la anterior foto. En estas imágenes el número de componentes principales utilizadas se incrementa de manera paulatina para obtener una mejor aproximación de la imagen.
Componentes principales2(Créditos: Las anteriores imágenes fueron tomadas de la página https://www.projectrhea.org/rhea/index.php/PCA_Theory_Examples).
El objetivo de esta sección es explicar de manera geométrica la manera en la que funciona el análisis de componentes principales por medio de un sencillo ejemplo. En la próxima sección exploraremos los detalles de esta teoría, en particular, explicaremos allí como la diagonalización ortogonal de matrices simétricas juega un papel crucial en esta teoría.

Un sencillo ejemplo

Supongamos que tenemos los siguientes datos y queremos estudiar algunas de sus propiedades: \[ v_{1}=\begin{bmatrix}2 \\ 2.1 \end{bmatrix}, \ v_{2}=\begin{bmatrix}0 \\ 0.9 \end{bmatrix}, \ v_{3}=\begin{bmatrix}-1 \\ 0.6 \end{bmatrix}, \ v_{4}=\begin{bmatrix}-2 \\ 0.1 \end{bmatrix} . \] Notemos que dichos datos están dados como vectores con dos dimensiones, en particular, podemos dibujarlos en el plano cartesiano como se muestra en la siguente figura
DatosUna primera observación es que dichos datos parecen estar aglomerados a lo largo de una recta como se muestra a continuación

Datos con linea El objetivo del análisis de componentes principales es encontrar, en cierto sentido, el mejor conjunto (recta, plano, etc) donde se aglomeran los datos. En la figura anterior queda claro que los datos se aglomeran alrededor de la recta que se muestra en azul. El siguiente paso es proyectar los datos de manera ortogonal sobre dicho conjunto. De esta forma se pueden aproximar los datos originales pero con una reducción de dimensionalidad, en otras palabras, se necesitan menos parámetros para describir los datos aproximados. En la siguiente figura se muestran los datos originales en color rojo y los datos aproximados en color verde.

Datos aproximados El proceso para encontrar esta aproximación es el siguiente. En primer lugar, debemos centrar los datos en el origen, esto se logra restando el promedio de los datos a cada uno de los datos dados. En nuestro ejemplo los datos centrados se muestran en esta figura

Datos centrados

Con los datos ya centrados procedemos a realizar una rotación de los datos. Dicha rotación se realiza por medio de la diagonalización ortogonal de la matriz de covarianza que se obtiene con los datos centrados. La forma en la que se determina esta rotación se explica en la sección siguiente. Para el ejemplo anterior, después de centrar los datos y rotarlos obtenemos lo siguiente:

arreglo

Ya con estos datos rotados podemos proyectarlos al eje $x$ para obtener lo siguiente

Datos rotados y proyectados

Después de proyectar los datos, observamos que toda la información relevante de estos está concentrada en la primer componente. Eliminando la segunga componente de los datos obtenemos la primer componente principal que se ve de la siguiente manera

Componentes principales1De esta forma hemos realizado un proceso de reducción de dimensionalidad, nuestros datos originales estaban dados como vectores con $2$ entradas y con la primera componente principal hemos resumido toda la información de los datos con vectores que solamente tienen $1$ entrada.

Finalmente, si queremos aproximar los datos orginales podermos devolver las operaciones que realizamos anteriormente. Para empezar, podemos tomar los datos proyectados y los podemos rotar en la direccion contraria a la realizada originalmente. De esta forma obtenemos los siguientes datos que se ilustan en color verde.
Datos rotados y aproximadosPara terminar, podemos sumar el promedio de los datos originales a estos datos, de esta manera obtenemos la aproximación deseada

Datos aproximados
En la próxima sección describiremos la manera en la que se puede realizar este proceso.