Skip to content

macomeza/dataScience

Repository files navigation

dataScience

General Data Science repo

¿Qué es Data Science o Ciencia de Datos?

Hacer que los datos trabajen para nosotros, uso los datos para describir mejor el presente o predecir mejor el fúturo.

¿Qué se puede hacer con datos?

  • Detectar eventos fuera de lo común
  • Diagnósticar las causas de eventos o comportamientos
  • Predecir eventos futuros

Flujo en la Ciencia de Datos

  1. Preguntar - hacer preguntas y definir el problema a resolver.
  2. Preparar - recolectar los datos y almacenarlos.
  3. Procesar - limpieza de datos y verificación de la información.
  4. Analizar - buscar patrones, relaciones y tendencias.
  5. Compartir - crear visualizaciones para los tomadores de decisiones.
  6. Actuar - tomar decisiones a partir de los resultados de los análisis.

Roles en la Ciencia de Datos

Cuando tenemos un equipo de Ciencia de Datos es habitual crear varios roles, haciendo la analogía con los deportes, todos los puestos aportan a lograr el resultado final.

Ingeniero de Datos

Participa activamente en la etapa de recolección y almacenamiento de datos (preparar y procesar). Generalmente tiene una formación previa en Ciencias de la Computación.

  • Contruye soluciones para procesar datos y llevarlos desde su origen hasta nuestro repositori (data pipeline)
  • Gestiona los acceso a los datos
  • Hace la arquitectura de la información

Herramientas

  • SQL (almacenar y organizar datos)
  • Java, Scala, Python o R (para procesar datos)
  • Consola (para ejecutar tareas)
  • Computación en la nube

Analista de Datos

Participa activamente en la preparación y exploración de datos (procesar, analizar y compartir), generalmente son personas con conocimiento del negocio y le ayudan al equipo de ingenieros de datos para certificar que los datos de origen sean los correctos.

  • Llevan a cabo análisis simples que describen la información.
  • Crear reportes y tableros que resumen los datos.
  • Ayudan a limpiar los datos para el análisis.

Herramientas

  • SQL - obtener y agrupar información
  • Hojas electrónicas - análisis simple.
  • Herramientas de Inteligencia de Negocio (BI) - crear visualizaciones y tableros
  • Python o R - limpieza y análisis de nivel avanzado.

Científico de Datos

Participa en preparación de datos avanzada, exploración y visualización de datos avanzadas y hace predicciones y experimentos (procesar, analizar y compartir). Generalmente tiene un perfil de matemático, estadístico o ciencia de la computación con formación específica.

  • Conocimientos avanzados en estadística.
  • Aplica aprendizaje de máquina básico.

Herramientas

  • SQL
  • Python / R

Especialista en Aprendizaje Máquina

Es un rol de científico de datos especializado, su aporte principal al equipo en en experimentación y predicción, hacer extrapolaciones de datos, clasificaciones de datos, aprendizaje profundo (procesamiento de imágenes, procesamiento de lenguaje natural).

Herramientas

  • Python / R y sus librerias especializadas.

Con esta breve descripción de qué es y qué roles participan, te damos la bienvenida al maravilloso mundo de Ciencia de Datos.

About

General Data Science repo

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published