Se dice que los datos son el nuevo petróleo. Al igual que en la minería tradicional es necesario extraer laboriosamente desde una montaña de áridos el material valioso mediante técnicas sofisticadas y con el uso de herramientas especializadas, los elementos de valor de los datos deben ser también extraídos o minados. La minería de datos o Data Mining es una disciplina que comprende estas técnicas y herramientas, de modo que, aquella montaña de datos que ha sido recopilada en el tiempo pueda ser usada para entender de mejor forma el negocio y construir modelos que permitan hacer predicciones, que pueden ser usadas en las decisiones y las acciones de la empresa.
El Diplomado en Minería de datos se diferencia de otros similares, debido a que no requiere conocimientos previos de programación ni tampoco de estadística, ya que incluye un curso para aprender a programar en Python y un curso de fundamentos de estadística. Además, los otros dos cursos de minería de datos permiten llegar a un nivel de profundidad más alto.
La modalidad del diplomado es 100% en línea y se estructura sobre cuatro cursos que utilizan técnicas metodológicas activas. Gracias a estas últimas, el participante puede interactuar con sus pares y profesor-tutor a través de los recursos tecnológicos que provee la plataforma educativa virtual.
Dirigido a:
- Todas las personas interesadas en adquirir las habilidades para aplicar técnicas de Data Mining a su trabajo.
- Todas las personas que han aprendido lo esencial de Data Mining, pero necesitan profundizar y adquirir fundamentos estadísticos.
Objetivos de aprendizaje:
- Escribir programas simples usando el lenguaje Python.
- Analizar datos de forma exploratoria para explicar la correlación entre variables, aplicando conceptos estadísticos.
- Predecir el comportamiento de una organización, a través de modelos que incorporan algoritmos de aprendizaje de máquina.
Al finalizar el curso podrás:
- Identificar conceptos y operaciones básicas de programación, tales como variables, funciones, operadores lógicos.
- Utilizar los comandos de control de flujo y los ciclos para la dirigir y repetir eficientemente un conjunto de operaciones básicas.
- Emplear elementos básicos como tipos de archivos (.txt, csv), tipos de datos (texto, entero, decimal, listas), entre otros en el procesamiento de datos.
- Aplicar conceptos y herramientas básicas de programación, como lectura, escritura de archivos y edición masiva de datos, resolviendo problemas reales relacionados con el procesamiento de datos.
- Desarrollar programas en el lenguaje de programación Python que permitan resolver problemas sencillos.
Contenidos:
Introducción a la programación
- Motivación.
- Secuencias de comandos en Python.
- Operaciones básicas.
- Creación y asignación de variables.
- Operaciones lógicas.
Control de flujo
- Control de flujo.
- Iteración y ciclos.
Tipos de datos y funciones
- Enteros, decimales, textos y listas.
- Manejo de strings de caracteres.
- Definición y uso de funciones.
- Listas.
Procesamiento de datos
- Listas de listas.
- Trabajo con archivos.
- Procesamiento de datos.
Diccionarios y tuplas
- Listas y listas de listas.
- Diccionarios.
- Aplicaciones con listas y diccionarios.
- Tuplas como tipo de dato inmutable.
- Operaciones sobre tuplas.
- Combinando listas, tuplas y diccionarios.
Funciones
- Concepto de función.
- Definición de funciones.
- Parámetros y valores de retorno.
- Importación y llamado de módulos.
- Invocación de funciones y scope.
- Parámetros con nombre y parámetros por defecto.
- Funciones recursivas.
- Aplicación de funciones.
Al finalizar el curso podrás:
- Producir desde un dataset histogramas y medidas estadísticas como parte de un análisis exploratorio de los datos.
- Mostrar en forma gráfica distribuciones empíricas de los datos.
- Modelar un problema en base a distribuciones analíticas conocidas.
- Analizar la interrelación entre dos o más variables.
- Evaluar la validez de una hipótesis en base a los datos.
Contenidos:
Análisis exploratorio de datos e introducción a las distribuciones
- Variables y transformaciones.
Distribuciones y funciones de probabilidad
- Variables y efecto del tamaño.
- Funciones de probabilidad (PMFs).
Funciones de probabilidad
- Distribuciones continuas.
- Familia exponencial.
- Funciones de distribución acumulada (CDFs).
Modelación de distribuciones e introducción a las relaciones entre variables
- Distribuciones continuas.
- Gráficas distribución lognormal.
- Diagramas de dispersión.
- Correlación.
Relación entre variables, correlación y una introducción al testeo de hipótesis
- Covarianza.
- Testeo de hipótesis.
- Diferencia de medias.
- Formalización.
Testeo de hipótesis, regresión e introducción a las series de tiempo
- Testeo de correlación y testeo de proporciones.
- Mínimos cuadrados lineales.
- Introducción a las series de tiempo.
Al finalizar el curso podrás:
- Identificar las principales teorías y prácticas de la emergente área de Minería de Datos.
- Aplicar reglas de asociación para encontrar relaciones en un set de transacciones.
- Diseñar soluciones a problemas reales de Big Data y ciencia de datos que involucren la necesidad de técnicas de Minería de Datos como árboles de decisión y clustering.
- Implementar soluciones usando herramientas de software de Minería de Datos aplicándolas en datos reales.
Contenidos:
- Conceptos fundamentales de minería de datos.
- Preparación de datos y reducción de información.
- Reglas de asociación.
- Algoritmos de clasificación.
- Algoritmos de Clustering y medidas de similaridad.
- Selección de modelos e introducción a Machine Learning.
Al finalizar el curso podrás:
- Modelar problemas reales mediante técnicas avanzadas de minería de texto, para apoyar procesos de gestión del conocimiento en las organizaciones.
- Aplicar técnicas de aprendizaje reforzado como alternativa de entrenar modelos de aprendizaje.
- Utilizar herramientas de procesamiento de datos, para apoyar el proceso de modelado e interpretación de los resultados obtenidos.
- Aplicar series de tiempo para predecir modelos de negocios, basados en datos históricos.
Contenidos:
Series de tiempo
- Análisis visual de series de tiempo.
- Componentes de una serie de tiempo.
- Estacionariedad de una serie de tiempo.
- Tratamiento de una serie de tiempo no estacionaria.
- Tipos de modelos de series de tiempo.
- Modelos MA.
Minería de texto y web scraping
- Minería de texto.
- Web scraping.
Aprendizaje por refuerzo
- Aprendizaje por refuerzo.
- Métodos de Monte Carlo.
Q-Learning
- Funciones de valor.
- Q-Learning.
Redes neuronales artificiales
- Estructura de una red neuronal artificial.
- Entrenamiento de redes neuronales artificiales.
- Otros tipos de redes neuronales.
Nuevas tendencias de machine learning
- Modelos fundacionales.
- Inteligencia artificial generativa.
Nota: Los cursos que componen el diplomado tienen el orden determinado e indicado en la estructura curricular. Esto es, se tiene que aprobar el curso anterior para poder tomar el que viene.
¿Te gusta esta publicación?
Comparte esta publicación