El coeficiente de correlación de Pearson (con ejemplo en Python)
Imagina que necesitamos construir un modelo lineal a partir de datos de varias variables. ¿Cómo identificar si dichas variables están relacionadas o no?
Para ellos podemos utilizar coeficientes, uno de los mas utilizados es el de correlación lineal de Pearson. Que nos ayuda a identificar qué variables nos sirven para nuestro modelo lineal, y cuales no. Siendo una herramienta importante para la toma de decisiones , como en el ejemplo que veremos más adelante.
Un poco de teoría:
Este coeficiente sólo debe utilizarse para comparar variables cuantitativas y continuas. Por acá tenemos la fórmula para calcularlo:

El valor del índice de correlación varía en el intervalo [-1,1]
Si este coeficiente es igual a 1 o -1 (o cercano a estos valores) significa que una variable es fruto de una transformación lineal de la otra. Teniendo una relación directa al tratarse de 1 (cuando una variable aumenta, la otra también), mientras que existirá una relación inversa al tratarse de -1 (cuando una variable aumenta la otra disminuye).
Mientras que, Si r = 0 (o cercano a este valor) no existe relación lineal, aunque puede existir algún otro tipo de relación no lineal.
Un ejemplo con Python
Utilizaremos un set de datos correspondiente a la cantidad de dinero invertido (me parece que son euros, no estoy seguro del tipo de moneda utilizado) en publicidad a través televisión, radio y periódico. Así como las ventas que trajo consigo dicha inversión en publicidad.
El set de datos se llama “Advertising” y se encuentra en formato csv, y lo puedes descargar directamente desde Kaggle:
Creamos nuestro notebook, yo utilizaré Jupyter.
Importamos las librerías Pandas y matplotlib.pyplot

Ahora cargaremos el dataset en python con la librería Pandas. El archivo “Advertising” lo guardé en la misma carpeta donde cree el notebook, para evitar navegar en el path para localizarlo.

Con df.head() veremos una parte del dataset, para tener una idea de la información que contiene, sin mostrarlo todo.

Por alguna razón hay una columna que se llama “Unnamed:0” la cual no tiene ninguna utilidad, así que procederemos a eliminarla. Posteriormente volvemos a mostrar el dataset, para verificar que se ha eliminado.

Calculamos el Coeficiente de Correlación de Pearson, y mostramos los resultados en una matriz:

Crearemos un gráfico con la matriz de correlación:

Algunas interpretaciones de nuestro ejemplo:
Lo que más nos importa es la relación entre las ventas y las inversiones en los diferentes medios de comunicación, para poder tomar decisiones.
El coeficiente de correlación de Pearson, para la inversión de publicidad en TV y las ventas es de 0.78, podemos considerar una relación directa entre ambas variables. Hagamos un gráfico para observar mejor esto:

Existe cierta tendencia lineal entre estas variables, de manera que a mayor inversión en publicidad de TV, se traducirá en más ventas para la empresa.
¿Qué pasa con la relación entre las ventas y la inversión publicitaria en periódico?
En este caso el coeficiente de correlación de Pearson es de 0.23, cercano a 0.
Veamos como se comportan estas variables en un gráfico.

Como era de esperarse, los puntos están totalmente dispersos. Alejados de un modelo lineal. Quizás sea mejor que la empresa deje de hacer inversiones publicitarias en el periódico y las utilice para la campaña en TV.
Para el caso de la inversión en radio y las ventas, el coeficiente de Correlación de Pearson es de 0.57. ¿Cómo crees que sea la relación entre dichas variables?
Comentarios
Publicar un comentario