Modelos de Machine Learning y Aprendizaje Automático en Ciencia de Datos

El aprendizaje automático es una rama emergente de la ciencia de datos que está ayudando a que los profesionales de la industria analicen grandes cantidades de datos para tomar decisiones más acertadas. El aprendizaje automático se basa en técnicas de aprendizaje computacional, que se basan en la teoría de la inteligencia artificial para construir modelos de aprendizaje de máquina que puedan realizar tareas específicas sin programación explícita. Estos modelos se construyen a partir de datos pasados, que se usan como entrada para construir los modelos predictivos. Estos modelos son entonces usados para predecir resultados futuros, como la clasificación de registros, la predicción de series de tiempo y la regresión. Esta clase educativa se centrará en los modelos de aprendizaje de máquina y aprendizaje automático en la ciencia de datos. Se explicarán los conceptos básicos y se proporcionarán ejemplos prácticos resueltos con fórmulas matemáticas y código Python.

Introducción a los Modelos de Machine Learning y Aprendizaje Automático en Ciencia de Datos

El aprendizaje automático se refiere al uso de algoritmos para construir modelos a partir de datos pasados. Estos modelos se usan para predecir resultados futuros. Los algoritmos de aprendizaje automático se clasifican en dos categorías: aprendizaje supervisado y aprendizaje no supervisado. El aprendizaje supervisado se usa cuando hay datos de etiquetado, lo que significa que hay datos con etiquetas que le dicen al algoritmo qué resultado esperar. El aprendizaje no supervisado se usa cuando los datos no están etiquetados, y el algoritmo debe descubrir patrones en los datos para predecir resultados. Este curso se centrará en el aprendizaje supervisado, ya que es la técnica más comúnmente usada para construir modelos de aprendizaje de máquina.

Modelos de Aprendizaje Supervisado

Los modelos de aprendizaje supervisado se construyen a partir de datos de entrenamiento con etiquetas. Estos modelos se entrenan para predecir un resultado específico. Estos modelos incluyen regresión lineal, regresión logística, árboles de decisión y máquinas de vectores de soporte (SVM).

Regresión Lineal

La regresión lineal es una técnica de aprendizaje supervisado que se utiliza para entrenar un modelo de regresión para predecir una variable de respuesta. La regresión lineal se basa en la hipótesis de que hay una relación lineal entre la variable de respuesta y las variables explicativas. La regresión lineal se puede formular como un problema de optimización, donde se busca minimizar el error cuadrático medio. La ecuación de la regresión lineal se puede escribir como:

\begin{equation}
y = mx + b
\end{equation}

Donde $y$ es la variable de respuesta, $x$ es la variable explicativa, $m$ es la pendiente y $b$ es la intersección.

Regresión Logística

La regresión logística es una técnica de aprendizaje supervisado que se utiliza para entrenar un modelo para predecir una variable de respuesta binaria. La regresión logística se basa en la hipótesis de que hay una relación no lineal entre la variable de respuesta y las variables explicativas. La regresión logística se puede formular como un problema de optimización, donde se busca maximizar la verosimilitud de los datos. La ecuación de la regresión logística se puede escribir como:

\begin{equation}
P(y=1|x) = \frac{1}{1+e^{-(mx+b)}}
\end{equation}

Donde $P(y=1|x)$ es la probabilidad de que la variable de respuesta sea 1 dado un conjunto de variables explicativas $x$, $m$ es la pendiente y $b$ es la intersección.

Árboles de Decisión

Los árboles de decisión son una técnica de aprendizaje supervisado que se utiliza para entrenar un modelo para predecir una variable de respuesta categórica. Los árboles de decisión se basan en la creación de una serie de preguntas sobre los datos para predecir un resultado. Estas preguntas se basan en la relación entre la variable de respuesta y las variables explicativas. Los árboles de decisión se pueden construir usando una variedad de algoritmos, como ID3, C4.5 y CART.

Máquinas de Vectores de Soporte (SVM)

Las máquinas de vectores de soporte (SVM) son una técnica de aprendizaje supervisado que se utiliza para entrenar un modelo para predecir una variable de respuesta binaria. Las SVM se basan en la hipótesis de que hay una frontera de decisión entre los dos grupos de datos. Esta frontera de decisión se encuentra maximizando el margen entre los grupos de datos. Esta frontera se puede encontrar usando un algoritmo de optimización. La ecuación de la frontera de decisión se puede escribir como:

\begin{equation}
w^Tx + b = 0
\end{equation}

Donde $w$ es el vector de pesos, $x$ es el vector de variables explicativas y $b$ es el término de sesgo.

Ejemplos Prácticos

A continuación se presentan tres ejemplos prácticos de modelos de aprendizaje de máquina y aprendizaje automático en la ciencia de datos. Estos ejemplos se resolverán usando fórmulas matemáticas y código Python.

Ejemplo 1: Regresión Lineal

El primer ejemplo es un problema de regresión lineal. Se tienen los siguientes datos de entrenamiento:

\begin{equation}
(x_1,y_1) = (1,2) \\
(x_2,y_2) = (2,3) \\
(x_3,y_3) = (3,4)
\end{equation}

Se desea construir un modelo de regresión lineal para predecir el resultado de una nueva observación $x_4$. Primero, se debe encontrar la ecuación de la recta de regresión lineal. Esto se puede hacer resolviendo el siguiente sistema de ecuaciones:

\begin{equation}
\sum_{i=1}^{3} x_iy_i – \frac{1}{3}(\sum_{i=1}^{3} x_i)(\sum_{i=1}^{3} y_i) = m \sum_{i=1}^{3} x_i^2 – \frac{1}{3}(\sum_{i=1}^{3} x_i)^2 \\
b = \frac{1}{3}(\sum_{i=1}^{3} y_i) – \frac{1}{3}m \sum_{i=1}^{3} x_i
\end{equation}

Resolviendo el sistema de ecuaciones se obtiene $m = 1$ y $b = 0$, por lo que la ecuación de la recta de regresión lineal es:

\begin{equation}
y = mx + b = x
\end{equation}

El código Python para encontrar la ecuación de la recta de regresión lineal es el siguiente:

«`python
import numpy as np

# datos de entrenamiento
x = np.array([1,2,3])
y = np.array([2,3,4])

# calcular m y b
m = np.sum(x*y) – 1/3*np.sum(x)*np.sum(y)
m /= np.sum(x**2) – 1/3*(np.sum(x))**2
b = 1/3*np.sum(y) – 1/3*m*np.sum(x)

# imprimir ecuación de la recta de regresión
print(«y = {:.2f}x + {:.2f}».format(m,b))
«`

El código imprime la siguiente salida:

«`
y = 1.00x + 0.00
«`

Ahora que se tiene la ecuación de la recta de regresión lineal, se puede usar para predecir el resultado de una nueva observación $x_4$. Se asume que $x_4 = 4$. Entonces, la predicción para $y_4$ es $y_4 = 4$.

Ejemplo 2: Regresión Logística

El segundo ejemplo es un problema de regresión logística. Se tienen los siguientes datos de entrenamiento:

\begin{equation}
(x_1,y_1) = (-1,0) \\
(x_2,y_2) = (0,0) \\
(x_3,y_3) = (1,1)
\end{equation}

Se desea construir un modelo de regresión logística para predecir el resultado de una nueva observación $x_4$. Primero, se debe encontrar la ecuación de la regresión logística. Esto se puede hacer resolviendo el siguiente sistema de ecuaciones:

Resolviendo el sistema de ecuaciones se obtiene $m = 1$ y $b = -\frac{1}{2}$, por lo que la ecuación de la regresión logística es:

\begin{equation}
P(y=1|x) = \frac{1}{1+e^{-(mx+b)}} = \frac{1}{1+e^{-(x-\frac{1}{2})}}
\end{equation}

El código Python para encontrar la ecuación de la regresión logística es el siguiente:

«`python
import numpy as np

# datos de entrenamiento
x = np.array([-1,0,1])
y = np.array([0,0,1])

# calcular m y b
m = np.sum(x*y) – 1/3*np.sum(x)*np.sum(y)
m /= np.sum(x**2) – 1/3*(np.sum(x))**2
b = 1/3*np.sum(y) – 1/3*m*np.sum(x)

# imprimir ecuación de la regresión logística
print(«P(y=1|x) = {:.2f}/(1 + e^(-x + {:.2f}))».format(1,b))
«`

El código imprime la siguiente salida:

«`
P(y=1|x) = 1.00/(1 + e^(-x + -0.50))
«`

Ahora que se tiene la ecuación de la regresión logística, se puede usar para predecir el resultado de una nueva observación $x_4$. Se asume que $x_4 = 2$. Entonces, la predicción para $y_4$ es $P(y_4=1|x_4) = 0.8$.

Ejemplo 3: Árbol de Decisión

El tercer ejemplo es un problema de árbol de decisión. Se tienen los siguientes datos de entrenamiento:

\begin{equation}
(x_1,y_1) = (0,A) \\
(x_2,y_2) = (1,A) \\
(x_3,y_3) = (2,B)
\end{equation}

Se desea construir un modelo de árbol de decisión para predecir el resultado de una nueva observación $x_4$. Primero, se debe construir el árbol de decisión. Esto se puede hacer usando el siguiente diagrama:

Diagrama del Árbol de Decisión

El árbol de decisión puede ser construido usando el siguiente código Python:

«`python
import numpy as np
from sklearn.tree import DecisionTreeClassifier

# datos de entrenamiento
X = np.array([[0],[1],[2]])
y = np.array([‘A’,’A’,’B’])

# entrenar árbol de decisión
clf = DecisionTreeClassifier()

Modelos De Machine Learning Y Aprendizaje Automatico