Se dice que los datos son el nuevo petróleo. Al igual que en la minería tradicional es necesario extraer laboriosamente desde una montaña de áridos el material valioso mediante técnicas sofisticadas y con el uso de herramientas especializadas, los elementos de valor de los datos deben ser también extraídos o minados. La minería de datos o Data Mining es una disciplina que comprende estas técnicas y herramientas, de modo que, aquella montaña de datos que ha sido recopilada en el tiempo pueda ser usada para entender de mejor forma el negocio y construir modelos que permitan hacer predicciones, que pueden ser usadas en las decisiones y las acciones de la empresa.
El Diplomado en Minería de datos se diferencia de otros similares, debido a que no requiere conocimientos previos de programación ni tampoco de estadística, ya que incluye un curso para aprender a programar en Python y un curso de fundamentos de estadística. Además, los otros dos cursos de minería de datos permiten llegar a un nivel de profundidad más alto.
La modalidad del diplomado es 100% en línea y se estructura sobre cuatro cursos que utilizan técnicas metodológicas activas. Gracias a estas últimas, el participante puede interactuar con sus pares y profesor-tutor a través de los recursos tecnológicos que provee la plataforma educativa virtual.
Dirigido a:
- Todas las personas interesadas en adquirir las habilidades para aplicar técnicas de Data Mining a su trabajo.
- Todas las personas que han aprendido lo esencial de Data Mining, pero necesitan profundizar y adquirir fundamentos estadísticos.
Objetivos de aprendizaje:
- Escribir programas simples usando el lenguaje Python.
- Analizar datos de forma exploratoria para explicar la correlación entre variables, aplicando conceptos estadísticos.
- Predecir el comportamiento de una organización, a través de modelos que incorporan algoritmos de aprendizaje de máquina.
Al finalizar el curso podrás:
- Identificar conceptos y operaciones básicas de programación, tales como variables, funciones, operadores lógicos.
- Utilizar los comandos de control de flujo y los ciclos para la dirigir y repetir eficientemente un conjunto de operaciones básicas.
- Emplear elementos básicos como tipos de archivos (.txt, csv), tipos de datos (texto, entero, decimal, listas), entre otros en el procesamiento de datos.
- Aplicar conceptos y herramientas básicas de programación, como lectura, escritura de archivos y edición masiva de datos, resolviendo problemas reales relacionados con el procesamiento de datos.
- Desarrollar programas en el lenguaje de programación Python que permitan resolver problemas sencillos.
Contenidos:
Introducción a la programación
- Motivación.
- Secuencias de comandos en Python.
- Operaciones básicas.
- Creación y asignación de variables.
- Operaciones lógicas.
Control de flujo
- Control de flujo.
- Iteración y ciclos.
Tipos de datos y funciones
- Enteros, decimales, textos y listas.
- Manejo de strings de caracteres.
- Definición y uso de funciones.
- Listas.
Procesamiento de datos
- Listas de listas.
- Trabajo con archivos.
- Procesamiento de datos.
Diccionarios y tuplas
- Listas y listas de listas.
- Diccionarios.
- Aplicaciones con listas y diccionarios.
- Tuplas como tipo de dato inmutable.
- Operaciones sobre tuplas.
- Combinando listas, tuplas y diccionarios.
Funciones
- Concepto de función.
- Definición de funciones.
- Parámetros y valores de retorno.
- Importación y llamado de módulos.
- Invocación de funciones y scope.
- Parámetros con nombre y parámetros por defecto.
- Funciones recursivas.
- Aplicación de funciones.
Al finalizar el curso podrás:
- Producir desde un dataset histogramas y medidas estadísticas como parte de un análisis exploratorio de los datos.
- Mostrar en forma gráfica distribuciones empíricas de los datos.
- Modelar un problema en base a distribuciones analíticas conocidas.
- Analizar la interrelación entre dos o más variables.
- Evaluar la validez de una hipótesis en base a los datos.
Contenidos:
Análisis exploratorio de datos e introducción a las distribuciones
- Variables y transformaciones.
- Dataframes.
- Histogramas y su interpretación.
- Distribuciones.
Distribuciones y funciones de probabilidad
- Varianza y efecto del tamaño.
- Funciones de probabilidad.
- PMFs y sus gráficas.
- Distribuciones discretas.
Funciones de probabilidad
- Distribuciones continuas.
- Familia exponencial.
- Familia normal.
- Funciones de distribución acumulada (CDFs).
Modelación de distribuciones e introducción a las relaciones entre variables
- Distribución exponencial y distribución normal.
- Gráficas y distribución lognormal.
- Diagramas de dispersión.
- Correlación.
Relación entre variables, correlación y una introducción al testeo de hipótesis
- Covarianza.
- Correlación, correlación de Pearson y causalidad.
- Testeo de hipótesis.
- Diferencia de medias.
Testeo de hipótesis, regresión e introducción a las series de tiempo
- Testeo de correlación y testeo de proporciones.
- Mínimos cuadrados lineales.
- Regresión y predicciones.
- Análisis de series de tiempo.
Al finalizar el curso podrás:
- Identificar las principales teorías y prácticas de la emergente área de Minería de Datos.
- Aplicar reglas de asociación para encontrar relaciones en un set de transacciones.
- Diseñar soluciones a problemas reales de Big Data y ciencia de datos que involucren la necesidad de técnicas de Minería de Datos como árboles de decisión y clustering.
- Implementar soluciones usando herramientas de software de Minería de Datos aplicándolas en datos reales.
Contenidos:
- Conceptos fundamentales de minería de datos.
- Preparación de datos y reducción de información.
- Reglas de asociación.
- Algoritmos de clasificación.
- Algoritmos de Clustering y medidas de similaridad.
- Selección de modelos e introducción a Machine Learning.
Al finalizar el curso podrás:
- Modelar problemas reales mediante técnicas avanzadas de minería de texto, para apoyar procesos de gestión del conocimiento en las organizaciones.
- Aplicar técnicas de aprendizaje reforzado como alternativa de entrenar modelos de aprendizaje.
- Utilizar herramientas de procesamiento de datos, para apoyar el proceso de modelado e interpretación de los resultados obtenidos.
- Aplicar series de tiempo para predecir modelos de negocios, basados en datos históricos.
Contenidos:
Introducción general
- Modelos alternativos de minería de datos.
- Extensión de los modelos de Machine Learning.
Introducción a Web Mining
- Minería de texto
- Web Scraping.
Series de tiempo
Aprendizaje por refuerzo
- Introducción.
- Diferencias con otros modelos de aprendizaje.
- Agentes.
- Funcionamiento en base a premios, castigos y fuerza bruta.
- Q-Learning.
• Introducción.
• Ecuación de Bellman.
• Explorar vs explotar.
Tendencias de Machine Learning.
Nota: Los cursos que componen el diplomado tienen el orden determinado e indicado en la estructura curricular. Esto es, se tiene que aprobar el curso anterior para poder tomar el que viene.