El aprendizaje automático o supervisado hace parte de la minería de datos. Estos se concentran justamente en los modelos generados a partir de datos de naturaleza empírica, es decir, datos preexistentes resultado de un trabajo previo que no necesariamente estaban destinados a análisis de negocio, por ejemplo el histórico de ventas de un producto, su razón principal de ser es mantener un control sobre stock y ventas, pero a partir de estos registros podemos extraer mucha información relacionada con el producto. Actualmente este es el método mas utilizado, a partir de bases de datos existentes se hace el análisis de datos, de ahí el nombre de minería de datos, encontrar los valiosos patrones existentes en estas colecciones.

Tenemos muchas metodologías que nos sirve de marco (KDD, SEMMA, ASUM-DM entre otras), la mas conocidas y utilizadas esta CRISP-DM.

CRISP-DM

Cross-Industry Standard Process for Data Mining, integra todas las tareas necesarias para los proyectos de minería de datos, veamos sus fases:

Predicción

En el aprendizaje supervisado tenemos dos tipos de problemas en función del tipo de salida, que llamaremos clase (variable objetivo):

  • Regresión: variable de salida es numérica (número real).
  • Clasificación. variable es categórica (número discreto o etiqueta nominal).

Esta clase(predicción) se apoya en el conjunto de datos de entrada(dataset), en donde cada celda representa un dato de entrada; estos campos pueden ser de tipo numérico o categórico que llamaremos atributo, los cuales hacen parte de una instancia, es decir, una fila del dataset.

dataset

Las características principales para describir un data set son:

  • Número de instancias.
  • Número de atributos.
  • Nombre, tipo y breve descripción de cada atributo.
  • Tipo de datos de la clase, si tiene, y dominio de valores.
  • Nombre y breve descripción de la clase, si tiene.
  • Cantidad de valores ausentes.

El dominio se refiere al conjunto de valores que puede tomar la clase.

Principales roles

Voy a listar algunos de los roles mas comunes:

  • Director técnico de proyecto(data scientist chief): Conocimientos de gestión y técnicos. Mucha experiencia en el campo.
  • Científico de datos(data scientist – ML engineer): Buena comunicación, selección de soluciones y estrategias. Fuertes bases matemáticas y de informática. MLOps.
  • Analista de datos(data analyst): Fuertes bases de estadística, conocer la inteligencia de negocio.
  • Ingeniero de datos(data engineer): Manejo de bases de datos, uso de herramientas y lenguajes para construir las soluciones.

Para profundizar mas en estos roles recomiendo el artículo de The different data science roles in the industry

Diferencia entre Bias y Varianza

Tenemos tres tipos de errores:

  1. Error irreducible: Propio de los datos.

  2. Error de bias: Es la diferencia entre la predicción esperada de nuestro modelo y los valores verdaderos.

  3. Error de varianza: Se refiere a la cantidad que la estimación de la función objetivo cambiará si se utiliza diferentes datos de entrenamiento.