Estadística para ciencia de datos (online)
Aprende los fundamentos estadísticos necesarios para trabajar en el área de Ciencia de Datos y sacar el máximo partido de las técnicas y herramientas asociadas a ella.
Este curso forma parte del Diplomado en Minería de datos.
Antecedentes Generales
La mayor parte de las técnicas y algoritmos usados en el área de la ciencia de datos descansan en fundamentos estadísticos. El objetivo de este curso es entregar a los alumnos una base estadística mínima para construir sobre un fundamento robusto los conocimientos de minería de datos de los cursos posteriores. Los alumnos aprenderán técnicas de análisis exploratorio de datos, validación de hipótesis y regresión, entre otros temas.
Todas las personas que necesiten o estén interesadas en adquirir las habilidades para aplicar técnicas de Data Mining a su trabajo.
Todas las personas que han aprendido lo esencial de Data Mining, pero necesitan profundizar y adquirir algo de fundamentos estadísticos.
Analizar datos de forma exploratoria para explicar la correlación entre variables, aplicando conceptos estadísticos.
Licenciatura, título profesional o técnico de mínimo cuatro años.
Se recomienda contar con:
– Conocimientos básicos de programación en Python.
– Manejo de computación a nivel usuario, considerando el uso de planillas Excel a nivel medio.
– Dos años de experiencia laboral.
Contenidos del Programa
Al final del curso podrás:
– Producir desde un dataset histogramas y medidas estadísticas como parte de un análisis exploratorio de los datos.
– Mostrar en forma gráfica distribuciones empíricas de los datos.
– Modelar un problema en base a distribuciones analíticas conocidas.
– Analizar la interrelación entre dos o más variables.
– Evaluar la validez de una hipótesis en base a los datos.
Contenidos:
Análisis exploratorio de datos e introducción a las distribuciones
– Variables y transformaciones.
Distribuciones y funciones de probabilidad
– Variables y efecto del tamaño.
– Funciones de probabilidad (PMFs).
Funciones de probabilidad
– Distribuciones continuas.
– Familia exponencial.
– Funciones de distribución acumulada (CDFs).
Modelación de distribuciones e introducción a las relaciones entre variables
– Distribuciones continuas.
– Gráficas distribución lognormal.
– Diagramas de dispersión.
– Correlación.
Relación entre variables, correlación y una introducción al testeo de hipótesis
– Covarianza.
– Testeo de hipótesis.
– Diferencia de medias.
– Formalización.
Testeo de hipótesis, regresión e introducción a las series de tiempo
– Testeo de correlación y testeo de proporciones.
– Mínimos cuadrados lineales.
– Introducción a las series de tiempo.
Cuerpo Docente
Jefe de Programa
Jaime Navón Cohen
Profesor Asociado del Departamento de Ciencia de la Computación UC
Nicolás Alvarado Monárdez
Profesor Instructor Adjunto del Departamento de Ciencia de la Computación UC