General Data Science repo
Hacer que los datos trabajen para nosotros, uso los datos para describir mejor el presente o predecir mejor el fúturo.
- Detectar eventos fuera de lo común
- Diagnósticar las causas de eventos o comportamientos
- Predecir eventos futuros
- Preguntar - hacer preguntas y definir el problema a resolver.
- Preparar - recolectar los datos y almacenarlos.
- Procesar - limpieza de datos y verificación de la información.
- Analizar - buscar patrones, relaciones y tendencias.
- Compartir - crear visualizaciones para los tomadores de decisiones.
- Actuar - tomar decisiones a partir de los resultados de los análisis.
Cuando tenemos un equipo de Ciencia de Datos es habitual crear varios roles, haciendo la analogía con los deportes, todos los puestos aportan a lograr el resultado final.
Participa activamente en la etapa de recolección y almacenamiento de datos (preparar y procesar). Generalmente tiene una formación previa en Ciencias de la Computación.
- Contruye soluciones para procesar datos y llevarlos desde su origen hasta nuestro repositori (data pipeline)
- Gestiona los acceso a los datos
- Hace la arquitectura de la información
Herramientas
- SQL (almacenar y organizar datos)
- Java, Scala, Python o R (para procesar datos)
- Consola (para ejecutar tareas)
- Computación en la nube
Participa activamente en la preparación y exploración de datos (procesar, analizar y compartir), generalmente son personas con conocimiento del negocio y le ayudan al equipo de ingenieros de datos para certificar que los datos de origen sean los correctos.
- Llevan a cabo análisis simples que describen la información.
- Crear reportes y tableros que resumen los datos.
- Ayudan a limpiar los datos para el análisis.
Herramientas
- SQL - obtener y agrupar información
- Hojas electrónicas - análisis simple.
- Herramientas de Inteligencia de Negocio (BI) - crear visualizaciones y tableros
- Python o R - limpieza y análisis de nivel avanzado.
Participa en preparación de datos avanzada, exploración y visualización de datos avanzadas y hace predicciones y experimentos (procesar, analizar y compartir). Generalmente tiene un perfil de matemático, estadístico o ciencia de la computación con formación específica.
- Conocimientos avanzados en estadística.
- Aplica aprendizaje de máquina básico.
Herramientas
- SQL
- Python / R
Es un rol de científico de datos especializado, su aporte principal al equipo en en experimentación y predicción, hacer extrapolaciones de datos, clasificaciones de datos, aprendizaje profundo (procesamiento de imágenes, procesamiento de lenguaje natural).
Herramientas
- Python / R y sus librerias especializadas.
Con esta breve descripción de qué es y qué roles participan, te damos la bienvenida al maravilloso mundo de Ciencia de Datos.