TP1 - Pandas, Spark y Visualización de datos

Primera parte - Pandas (8 ptos)

Utilizamos el dump Wikipedia Español al día 01/09 de 178gb, extrayendo los siguientes csvs:

contents.csv

Tabla con datos de todos los contenidos de Wikipedia en su versión más reciente.

Campo	Descripcion
title	Título del contenido
id	Identificador único del contenido
namespace	🤷
revision_id	Id de la última revisión realizada
parent_revision	Id de la revisión anterior a la actual
revision_timestamp	Timestamp de la última revisión
revisor_username	Username del autor de la última revisión
revisor_id	Id del revisor_username
revisor_ip	IP del revisor (en caso de que no estuviera registrado)
revisor_comment	Comentario de la revisión

contents_text_sample.csv

Tiene una muestra aleatoria del 5% de los contenidos de texto de wikipedia

Campo	Descripcion
id	Id del contenido
title	Título del contenido
text	Texto

geo_tags.csv

Campo	Descripcion
gt_id	Id del geo tag
gt_page_id	Id del contenido al que corresponde
gt_globe	En qué globo se encuentra
gt_primary	🤷
gt_lat	Latitud
gt_lon	Longitud
gt_dim	🤷
gt_type	Tipo de locación
gt_name	Nombre
gt_country	País
gt_region	Región

logs.csv

Todo el log de acciones realizadas.

Campo	Descripcion
item_id	ID del item afectado
timestamp	Timestamp del log
contributor_username	Username que realizó la acción
contributor_id	ID del user que realizó la acción
contributor_ip	IP (en caso de que no tuviera usuario)
comment	Comentario
logtype	Tipo de log
action	Acción realizada
title	Título del log

languages.csv

Contiene información sobre qué idiomas habla cada usuario

Campo	Descripcion
babel_user	User id
babel_lang	Código de idioma (ISO 639-2)
babel_level	Nivel en el lenguaje

redirect_list.csv

Algunos de los contenidos de Wikipedia son redirecciones a otros contenidos, esta tabla contiene esa información.

Campo	Descripcion
rd_from	ID del contenido que redirige
rd_namespace	🤷
rd_title	Título del contenido al que redirige
rd_interwiki	🤷
rd_fragment	🤷

categorylinks.csv

Campo	Descripcion
cl_from	ID del contenido
cl_to	Categoría a la que pertenece el contenido
cl_sortkey	🤷
cl_timestamp	Timestamp de la asociación de la categoría
cl_sortkey_prefix	🤷
cl_collation	🤷
cl_type	El tipo de contenido que se asignó a esa categoría

pagelinks_sample.csv

Tabla con links que van de una página interna a otra. Es una muestra de dos tercios.

Campo	Descripcion
pl_from	ID del contenido donde está el link
pl_namespace	🤷
pl_title	Título del contenido al cual va el link
pl_from_namespace	🤷

Realizar sus correspondientes consultas en Pandas

Para el usuario que más versiones actuales de contenido de wikipedia editó, calcule la fecha promedio, mínima y máxima en que lo hizo (⭐)
Qué porcentaje de las versiones actuales son páginas que se editaron una sola vez (⭐)
Cual es el porcentaje de títulos de contenidos de wikipedia cuya longitud es menor a 20 (⭐)
La probabilidad de que la versión actual de un contenido fuera editada sin dejar comentario para usuarios que están logueados y que no están logueados (⭐)
La palabra más común entre los títulos que no sea una stopword del inglés ni español (⭐⭐)
El porcentaje de contenidos que están publicados cuya última edición no tiene comentario para los usuarios que realizaron 1, >10 y >100 de las últimas ediciones (⭐⭐)
La antigüedad promedio de la última edición de los artículos cuyo título contenga tu apellido (si no hay, tu nombre y si tampoco hay usa Cafferata) (⭐⭐)
La mediana de la antigüedad para las últimas ediciones vigentes agrupado por el primer carácter del título (⭐⭐)
Cuales son los contenidos de wikipedia cuyo título empieza o termina con un emoji (⭐⭐)
Para los contenidos visibles en wikipedia, cuales son los artículos que tienen la máxima y mínima distancia entre ids de su revisión actual y la anterior (⭐⭐)
Para todos los comentarios de revisión de contenido que tengan más de 20 ocurrencias realice una matriz cuyas columnas sean esos comentarios y de índice los usuarios/ips con valores: True si ese usuario realizó ese comentario, sino False (⭐⭐)
Cuantos comentarios de revisión de artículos usan la palabra "mejor" (sin incluir sus variaciones) (⭐⭐)
Realice una consulta en los contenidos actuales que le permita identificar algún artículo que este vandalizado utilizando los datos de la revisión (⭐⭐)
Qué porcentaje de contenido geolocalizado de wikipedia NO está en la tierra (⭐)
Obtenga la matriz de distancias euclídeas para todos los contenidos que están en Marte. ¿Cuáles son los dos contenidos que están a menor distancia? (⭐⭐)
Calcule la probabilidad de las palabras para los textos, luego encuentre el documento que más se desvie de esas probabilidades utilizando la divergencia de Kullback-Leibler (⭐⭐)
Utilice los textos del contenido para realizar consultas por texto utilizando las técnicas vistas en la clase de NLP (BOW o TF-IDF) de modo que la query "retablo iglesia" devuelva alguna página acerca del retablo de alguna iglesia (⭐⭐)
Divida la tierra en bloques de latitud y longitud de 5x5, ¿Cuál es el bloque con menos (o ninguna) referencias? (⭐⭐)
Calcule la latitud y longitud promedio de los contenidos con referencias en la tierra y diga dónde está eso (⭐)
¿Cuál es el segundo contenido con más referencias geográficas asignadas? (⭐⭐)
¿Dónde está la referencia geográfica más repetida en la tierra de toda la Wikipedia Español? (⭐)
Elija su lugar favorito en el mundo y tome su latitud y longitud, ¿cuál es el título de la página de wikipedia más cercana? (⭐⭐)
¿Qué porcentaje de los contenidos contienen a su mismo título en el texto? (⭐⭐)
Calcule el porcentaje de nulos para todas las columnas de geo_tags.csv (⭐)
¿Quién es el usuario que más ha bloqueado a otros? (⭐)
¿Cuál es el usuario o IP más bloqueado? (⭐)
¿Cuál es el mínimo que ha durado desde su registro un usuario bloqueado en la plataforma? (⭐⭐)
¿Cuál es la antigüedad promedio para cada usuario según su última actividad? (⭐⭐)
Utilice los logs para crear una matriz cuyas columnas sean los logtypes, los índices los actions y las celdas la cantidad de la intersección de ambas (⭐)
La 3-upla de palabras más común en los comentarios de los logs (⭐⭐)
El día con más y menos actividad que tuvo el sitio (⭐)
El usuario que más agradece y el que más agradecimientos tiene (⭐)
La primera discusión creada (⭐)
¿Cuántos usuarios son nativos en un idioma que no sea español? (⭐)
Para los usuarios nativos (o superior) en español obtenga una serie cuyo índice sea cada uno de los otros idiomas que sabe y valor sea el nivel promedio (tomando N=4.5) (⭐⭐)
Quien es el usuario que más idiomas domina con un nivel de 2 o superior (⭐)
Obtenga un dataframe que tenga como índice al user_id, como columnas a los idiomas y el nivel de cada usuario para cada idioma como valor con -1 en caso de no tenerlo cargado. (⭐⭐)
Obtenga la matriz de correlación para saber idiomas distintos considerando que un usuario sabe un idioma si indicó un nivel de 1 o superior (⭐⭐)
¿Cuál es el contenido al que más se hacen redirecciones? (⭐)
Para los contenidos geolocalizados: ¿Cúal es el contenido más cercano del que fue editado más recientemente? ¿Y la diferencia entre sus tiempos de edición? (⭐⭐⭐)
Para los contenidos geolocalizados, según la última versión de cada contenido: ¿Cuál es la latitud y longitud promedio del contenido editado según qué idioma sabe el editor? (⭐⭐⭐)
Si la experiencia de un usuario es la cantidad de logs en los que participó, ¿cuál es la tasa de contenidos cuya última revisión no tiene comentario en función de la experiencia de su revisor? (⭐⭐⭐)
¿Cuántos usuarios o ips han sido bloqueados al menos una vez y la vez son los revisores de una última versión de un contenido? Calcule la diferencia entre la primera fecha de bloqueo y el promedio de las fechas de revisión correspondientes para cada usuario. (⭐⭐⭐)
Si decimos que la ubicación de un usuario es el promedio de la latitud y longitud de los contenidos geolocalizados para los cuales editó la última versión (ignorar usuarios que no editaron contenido geolocalizado). ¿Cuáles son los dos usuarios más cercanos? (⭐⭐⭐)
¿A qué contenido se asignó por primera vez una categoría? (⭐)
Si decimos que la ubicación de una categoría es el promedio de la latitud y longitud de sus contenidos geolocalizados que son miembros de ella (si es que tiene): ¿Cuales son las dos categorías más cercanas? (⭐⭐⭐)
La mediana de cantidad de links internos que tienen todos los contenidos que existen (⭐⭐)
Si decimos que la ubicación de una página linkeada por otra es el promedio de la latitud y longitud de los contenidos geolocalizados que la referencian: ¿Cuales son las dos páginas que están más cerca? (⭐⭐⭐)
Si decimos que un usuario sabe un idioma cuando tiene un nivel de babel mayor o igual a 1, para aquellos que editaron una de las versiones actuales del contenido, ¿Cuál es la tasa de revisiones sin comentario que realizan en función de los idiomas que saben? (⭐⭐⭐)
Si decimos que un usuario sabe un idioma cuando tiene un nivel de babel mayor o igual a 1 consiga un dataframe cuyas columnas son tipos de logs, el índice es la cantidad de idiomas que sabe un usuario y las celdas la probabilidad de que esos usuarios generen ese tipo de log. (⭐⭐⭐)
Si la experiencia de un usuario es la cantidad de logs en los que participó, queremos saber que tanto nos sirve para predecir el futuro vandalismo: ¿Cuál es la probabilidad de que un usuario sea bloqueado según experiencias: <10, 10-40, 40-100, >100? Tener en cuenta que esta experiencia debe ser PREVIA al bloqueo del usuario. (⭐⭐⭐)
Si decimos que un usuario sabe un idioma cuando tiene un nivel de babel mayor o igual a 1, para cada grupo de usuarios que sabe una determinada cantidad de idiomas, ¿Cuántos de esos usuarios fueron bloqueados al menos una vez? (⭐⭐⭐)
Si para un usuario tenemos la cantidad de acciones que realizó para cada tipo de log y la cantidad de veces que fue bloqueado: ¿Cuál es la acción que más y menos correlaciona con ser bloqueado? ¿Qué acción correlaciona más con saber algo (babel>=0) de inglés? (⭐⭐⭐)
¿Cuál es la acción más realizada por usuarios que no están registrados? (⭐⭐)
La cantidad promedio de modificaciones históricas que tuvieron los ítems cuya última versión fue editada por un usuario registrado o no registrado. (⭐⭐⭐)
Calcule la cantidad de acciones realizadas por usuarios según día de la semana (⭐)
Calcule la probabilidad de que una acción en general se realice según día de la semana. Calcule también para los días de la semana la probabilidad de que la última edición de un contenido sea realizada ese día. Calcule la entropía de ambas y la divergencia de Kullback Leibler entre ellas. (⭐⭐⭐)
Observe una muestra aleatoria de los comentarios de las acciones realizadas por usuarios o ips antes de ser bloqueados. Observe otra muestra de comentarios de acciones de todos. (⭐⭐)
¿Cuál es el idioma para el cual sus usuarios realizan más agradecimientos en promedio? ¿Y el de menos agradecimientos? Calcule lo mismo para quienes reciben agradecimientos. (⭐⭐⭐)
Si decimos que un usuario sabe un idioma cuando tiene un nivel de babel mayor o igual a 1, para aquellos que editaron una de las versiones actuales del contenido, ¿Cuál es la cantidad de agradecimientos promedio que reciben en función de los idiomas que saben? (⭐⭐⭐)

Segunda parte - Visualización de datos (7 ptos)

(3 ptos) Elegir uno de los siguientes datasets:

Proyectando el comportamiento de la soja
¿Llevo paraguas? Pronosticando la lluvia
Predicción de éxitos en oportunidades comerciales
Clasificación de preguntas de clientes
MELI Data Challenge 2021
Flu Shot Learning: Predict H1N1 and Seasonal Flu Vaccines
DengAI: Predicting Disease Spread

Realizar tres visualizaciones que expliquen la variable a predecir conteniendo los siguientes tipos de plots:

Histograma
Violin plot o Box plot
Heatmap

(4 ptos) Utilice alguna herramienta para realizar diagramas (por ejemplo Google Draw, draw.io, Google Slides, HTML, Illustrator, Photoshop, etc.) para crear una visualización ORIGINAL que no pueda realizarse de forma directa con las librerías más comunes de Python, puede utilizar las librerías de Python como paso intermedio. Puede realizar este punto sobre los datos de: cualquier dataset, estadística oficial, paper, estadística no oficial, encuesta, números sin ninguna fuente en un blog, etc. El objetivo es elegir un tema de su interés y comunicarlo de forma efectiva y agradable.

Tercera parte: Spark (8 ptos)

Realizar sus correspondientes consultas en Spark

Considerando los logs de acciones realizadas sobre ítems, mostrar el top 10 de titulos de ítems que fueron afectados por mayor cantidad usuarios distintos (⭐)
Considerando los logs de acciones realizadas sobre ítems, mostrar el top 10 de títulos de ítems que fueron afectados por mayor cantidad de usuarios no registrados (⭐)
Realizar un análisis de stopwords del contenido de texto de la Wikipedia. En este punto esperamos que analicen, dada la frecuencia de los términos que hay en la wikipedia cuales deberian ser considerados stop words. (⭐)
Considerando el pagelink_sample.csv representar como un grafo en Spark los contenidos de wikipedia (considerando los contenidos como nodos y los links como aristas) como una lista de aristas y mostrar un recorrido en la estructura. (⭐⭐⭐)
Considerando el pagelink_sample.csv representar como un grafo en Spark los contenidos de wikipedia (considerando los contenidos como nodos y los links como aristas) como una lista de adyacencia y mostrar un recorrido en la estructura. (⭐⭐⭐)
Considerando el pagelink_sample.csv, usando una representación de grafos realizar una función genérica que nos permita calcular los contenidos que se encuentran a un grado de separación (el siguiente del vecino) de cualquier identificador de contenido de la wikipedia. Mostrar el funcionamiento de la implementación con algún contenido incluido en el set de datos (⭐⭐⭐)
Considerando el pagelink_sample.csv, usando una representación de grafos realizar una función genérica que nos permita calcular la centralidad de un contenido cualquiera de la wikipedia mediante random walks. Mostrar el funcionamiento de la implementación con algún contenido incluido en el set de datos (⭐⭐⭐)
Considerando el pagelink_sample.csv, usando una representación de grafos obtener aquellos contenidos que tienen “relaciones no correspondidas”. Entendemos como funciona una relación correspondida con un ejemplo: Si el contenido A tiene un link al B, pero B no tiene un link a A, podemos decir que B tiene una relación no correspondida con A. (⭐⭐⭐)}
Mostrar de forma eficiente el tercer trigrama que tiene mayor frecuencia en los títulos de los contenidos de la wikipedia (⭐⭐)
Generar un RDD en el que cada tupla tenga el formato (key, value) donde:
1. key sea una palabra del léxico de la wikipedia
2. value sea una lista donde cada elemento de la misma sea una tupla de dos elementos
  1. identificador de contenido donde aparezca esa palabra.
  2. la frecuencia con la que aparece esa palabra en ese contenido. (⭐)
Generar una función genérica que dado un n nos permita obtener un RDD con los n-gramas del contenido de texto de wikipedia y su frecuencia (⭐)
Obtenga la matriz de distancias euclídeas para todos los contenidos que están en Marte. ¿Cuáles son los dos contenidos que están a menor distancia? (⭐⭐)
La región por cada país que tiene la mayor cantidad de contenidos publicados. (⭐)
El Top 5 de contenidos que tienen la mayor cantidad de redirecciones que apuntan a ellos. (⭐)
Listado en orden de importancia (del más hablado al menos hablado) de los idiomas que manejan aquellos usuarios que hablan por lo menos tres idiomas. (⭐⭐)
10 categorías que tienen la menor cantidad de contenido anónimo publicado. (⭐)
Para aquel contenido georeferenciado publicado anónimamente indicar por país, cuántas IPs de usuarios corresponden a IPv4 y cuantas a IPv6. (⭐)
Para cada lenguaje indicar cuántos usuarios lo comprenden, cuantos lo manejan a nivel lectura y escritura base, cuantos hacen de él, un uso avanzado. (Para resolver deberá mapear los niveles de babel a esas categorías propuestas y darles un nombre). (⭐)
Cantidad de contenido por planeta fuera de la tierra en la Wikipedia. (⭐)
Cantidad de Stubs por categoría en la Wikipedia. (⭐⭐).
El contenido con mayor cantidad de de acciones realizadas para todos los tipos posibles de acciones (⭐⭐⭐).
Top 5 de lenguajes que son usados por usuarios bilingües. (⭐⭐).
Cantidad total de contenidos por tipo de locación que pertenecen a la tierra. (⭐)
Dado un tamaño de vocabulario parametrizable y una lista de stopwords también parametrizable implemente tf-IDF para los textos de los contenidos de forma distribuida. Debe obtener un vector por cada texto (⭐⭐⭐).
Obtenga con spark los datos (de forma ya agregada) que le permitan realizar la siguiente visualización y realice la misma (⭐⭐⭐):
Qué porcentaje de las versiones actuales son páginas que se editaron una sola vez (⭐)
La probabilidad de que la versión actual de un contenido fuera editada sin dejar comentario para usuarios que están logueados y que no están logueados (⭐)
El porcentaje de contenidos que están publicados cuya última edición no tiene comentario para los usuarios que realizaron 1, >10 y >100 de las últimas ediciones (⭐⭐)
Para los contenidos visibles en wikipedia, cuales son los artículos que tienen la máxima y mínima distancia entre ids de su revisión actual y la anterior (⭐⭐)
Qué porcentaje de contenido geolocalizado de wikipedia NO está en la tierra (⭐)
Calcule la latitud y longitud promedio de los contenidos con referencias en la tierra y diga dónde está eso (⭐⭐)
¿Cuál es el segundo contenido con más referencias geográficas asignadas? (⭐⭐)
¿Dónde está la referencia geográfica más repetida en la tierra de toda la Wikipedia Español? (⭐)
¿Quién es el usuario que más ha bloqueado a otros? (⭐)
¿Cuál es el mínimo que ha durado desde su registro un usuario bloqueado en la plataforma? (⭐⭐)
La 3-upla de palabras más común en los comentarios de los logs (⭐⭐)
¿Cuál es el contenido al que más se hacen redirecciones? (⭐)
Si decimos que la ubicación de un usuario es el promedio de la latitud y longitud de los contenidos geolocalizados para los cuales editó la última versión (ignorar usuarios que no editaron contenido geolocalizado). ¿Cuáles son los dos usuarios más cercanos? (⭐⭐⭐)
¿Cuál es la acción más realizada por usuarios que no están registrados? (⭐⭐)
Si decimos que un usuario sabe un idioma cuando tiene un nivel de babel mayor o igual a 1, para aquellos que editaron una de las versiones actuales del contenido, ¿Cuál es la tasa de revisiones sin comentario que realizan en función de los idiomas que saben? (⭐⭐⭐)

Criterio de aprobación

El criterio general es que la totalidad del tp tiene que sumar 14 puntos de los 23, un 60%. Pueden hacer consultas por slack.

Criterio de reentrega

Se podrá reentregar el TP si el puntaje es >=10 y están todos los puntos desarrollados. La reentrega consiste en hacer un punto extra y corregir todos los puntos donde tuvieran menos de la mitad de los puntos.

Se aprueba la reentrega si todos los puntos tienen al menos la mitad de los puntos. En caso de aprobar la instancia de reentrega, la nota es siempre 4.

Primera parte - Pandas

Todos los ejercicios valen lo mismo que las estrellitas que tienen asignadas, a cada uno le corresponde hacer según indiquemos cual les toca:
- 1 ejercicio de ⭐
- 2 ejercicios de ⭐⭐
- 1 ejercicio de ⭐⭐⭐
Cada ejercicio se considera 100% correcto si:
- Resuelve lo pedido (¡cuidado con casos bordes! ¡revisen todo lo que pueda ser NULL!): Si el ejercicio no resuelve al 100% lo pedido, se considera que vale como máximo la mitad
- Lo hace de la forma más eficiente posible: Si el ejercicio no está resuelto de la forma más óptima, se considera que vale la mitad
La idea es que no lo hagan solos! Las consignas son complejas de entender en una sola lectura y necesitan pensarse lento, por esto es que es crucial consultar. Para esto hacemos lo siguiente según el tipo de duda:
- Dudas de consigna:
  - Van a poder consultar en el canal de slack #consultas-tp1-pandas, es MUY importante que antes de consultar vean si su duda no fue resuelta.
  - En caso de no haber sido resuelta tienen que publicarla siguiendo el formato: “<NÚMERO DE CONSIGNA> - La pregunta...”. De esta forma todos podemos buscar fácil si ya se resolvió la duda o sumarnos a la discusión. No se debe incluir código de la resolución, ni en la pregunta ni interactuando con otros compañeros.
- Dudas para saber si se puede usar alguna librería:
  - Se hacen en el mismo formato que las dudas de consigna.
- Dudas de código y optimización:
  - Si son dudas generales de “cómo se hace algo en pandas” se puede consultar en las clases de consulta o en el canal #otras-consultas
  - El resto de las dudas se deben consultar con algún ayudante por privado.

Segunda parte - Visualización de datos

Cada visualización vale un punto, y debe cumplir con las siguientes condiciones:
1. Debe explicarse por sí misma, sin necesidad de texto aclaratorio.
2. Debe tener rótulos en los ejes que corresponda y en el título.
3. Debe mostrar una relación con el target que sea clara.
4. El uso del color debe ser intencional, elegido por ustedes, no por la librería.
5. La visualización debe ser legible (Un bar chart de 40 barras por ejemplo es ilegible)
Debe cumplir el objetivo propuesto: Les recomendamos preguntar en clases de consultas o por slack, vamos a estar guiandolos en este punto. Dado que la elección de este dataset es personal, pueden ir compartiendo sus ideas/bocetos o consultando cosas en #consultas-tp1-visu.

Tercera parte: Spark

Todos los ejercicios deben realizarse utilizando el API de RDD de Spark.
A cada uno le corresponde hacer según indiquemos cual les toca:
- 1 ejercicio de ⭐
- 2 ejercicios de ⭐⭐
- 1 ejercicio de ⭐⭐⭐
Cada ejercicio se considera 100% correcto si:
- Resuelve lo pedido (¡cuidado con casos bordes!): Si el ejercicio no resuelve al 100% lo pedido, se considera que vale como máximo la mitad
- Lo hace de la forma más eficiente posible: Si el ejercicio no está resuelto de la forma más óptima, se considera que vale la mitad. En este aspecto considerar el buen uso del procesamiento distribuido de spark y potenciales errores que pueda realizar procesando información en el driver.
La idea es que no lo hagan solos! Las consignas son complejas de entender en una sola lectura y necesitan pensarse lento, por esto es que es crucial consultar. Para esto hacemos lo siguiente según el tipo de duda:
- Dudas de consigna:
  - Van a poder consultar en el canal de slack #consultas-tp1-spark, es MUY importante que antes de consultar vean si su duda no fue resuelta.
  - En caso de no haber sido resuelta tienen que publicarla siguiendo el formato: “<NÚMERO DE CONSIGNA> - La pregunta...”. De esta forma todos podemos buscar fácil si ya se resolvió la duda o sumarnos a la discusión. NO SE DEBE incluir código de la resolución, ni en la pregunta ni interactuando con otros compañeros.
- Dudas para saber si se puede usar alguna librería:
  - Se hacen en el mismo formato que las dudas de consigna.
- Dudas de código y optimización:
  - Si son dudas generales de “cómo se hace algo en spark” se puede consultar en las clases de consulta o en el canal #otras-consultas
  - El resto de las dudas se deben consultar por privado
Todos los ejercicios asignados deben estar resueltos en la entrega.

¡También valoramos que se ayuden entre ustedes, debatan y compartan ideas en el canal slack!

Formato de la entrega

La entrega debe subirse a la plataforma Gradescope.

Para hacerlo, deben generar un usuario en gradescope.com y buscar la asignación correspondiente al TP1.

En youtube pueden encontrar un video mostrando cómo ingresar por primera vez a gradescope https://www.youtube.com/watch?v=zHYJoCgzDOw (solo deben utilizar el código de este cuatrimestre: Entry Code: N8RG22, el resto es igual).

A la plataforma deben subir un único PDF con un link a el/los notebooks con la resolución de cada uno de los puntos de Pandas o Spark (por favor no incluir código en el pdf) y las visualizaciones pedidas (las visualizaciones si deben incluirlas en el documento, para la visu original no es necesario incluir código, solo la imagen).

Pueden ver como es el formato de entrega acá.

Puntos extra (hasta tres ⭐)

Utilizamos el promedio del puntaje normalizado de cada kahoot/parcialito para armar un podio. El podio se modificara a medida participen en los Kahoots. Quien esté primero recibira tres ⭐, quienes estén segundos o terceros recibiran dos ⭐ extra. Quienes estén en cuarto y quinto puesto un ⭐ extra.

Asignaciones de Ejercicios

Legajo	Alumno	Ejercicios Pandas	Ejercicios Spark
106053	AAB, LETICIA ISABEL	33, 47, 54, 60	13, 15, 31, 7
107742	ABUIN, AQUILES EZEQUIEL	19, 47, 54, 57	11, 20, 32, 6
106905	AGHA ZADEH DEHDEH, LUCIA	29, 11, 18, 60	10, 12, 22, 5
100685	AGUILAR BUGEAU, PEDRO JOSE	2, 7, 8, 41,	3, 12, 28, 4
104221	AGUILAR, PEDRO	33, 6, 7, 55	2, 20, 22, 40
107539	AGUIRRE ARGERICH, FACUNDO AGUSTÍN	45, 12, 16, 48	1, 15, 31, 38
79558	ALBORNOZ, ROMINA CARLA	2, 23, 8, 60	37, 22, 36, 25
96283	APARICIO ROTERMUND, AXEL	29, 10, 12, 50	34, 31, 35, 24
108229	ARGÜELLES, MAIRA LUCÍA	2, 7, 28, 55	33, 9, 15, 21
108434	AVALOS, VICTORIA BELEN	24, 5, 9, 42	30, 22, 36, 8
108317	BALDI MORALES ALVES, TOMÁS	14, 9, 58, 60	27, 9, 39, 7
109071	BARBALASE, AGUSTIN	45, 20, 15, 55	26, 20, 32, 6
107754	BAT MENTZEL, MARCOS EZEQUIEL	25, 10, 22, 40	23, 12, 36, 5
100862	BENITEZ POTOCHEK, TOMÁS ARI	3, 9, 10, 42	19, 28, 29, 4
106841	BENITEZ, NAHUEL TOMAS	26, 16, 8, 59	18, 22, 36, 40
108100	BENITO, AGUSTÍN	45, 9, 23, 51	17, 12, 15, 38
108921	BIANCHI FERNANDEZ, MARCOS	36, 58, 38, 52	16, 36, 39, 25
106005	BIANCUZZO, JUAN IGNACIO	29, 15, 12, 55	14, 20, 35, 24
97106	BONASTRE, LUCAS	34, 7, 23, 55	13, 15, 32, 21
101505	BOTTER BRUN, JUAN BAUTISTA	14, 13, 15, 44	11, 20, 28, 8
86088	BOZUNOVSKY, MARCELO	3, 5, 58, 40	10, 20, 22, 7
105288	BRIZUELA, SEBASTIAN	3, 28, 30, 44	3, 12, 20, 6
97640	BRONDO, FACUNDO LUCIO	36, 58, 15, 57	2, 9, 31, 5
103523	BUONO, FERNANDO	31, 47, 54, 52	1, 29, 32, 4
108025	CABIBBO ARTEAGA, NEHUÉN DANIEL	34, 54, 15, 48	37, 28, 36, 40
107143	CALDERON, GONZALO MANUEL	34, 6, 35, 43	34, 9, 31, 38
105161	CALLEBAUT, MELINA	2, 23, 27, 43	33, 9, 20, 25
107662	CIVINI, DIEGO EMANUEL	3, 8, 11, 52	30, 9, 39, 24
108664	CORREA, LUCAS VALENTIN	31, 20, 6, 49	27, 28, 29, 21
102439	CORRIONERO, LUAN SHAIR	26, 30, 35, 50	26, 12, 36, 8
104319	CUETO QUINTO, ALAN RAMIRO	36, 10, 11, 59	23, 15, 32, 7
107923	CWIKLA, MARTIN JUAN	29, 22, 6, 42	19, 31, 39, 6
108645	DALL'ACQUA, DENISE	29, 27, 22, 48	18, 32, 36, 5
106175	DAVILA SANCHEZ, MANUEL JESUS	56, 12, 9, 44	17, 12, 22, 4
101830	DE SANTIS, FEDERICO EZEQUIEL	19, 16, 17, 46	16, 9, 31, 40
108671	DEMARCO, JUAN PEDRO	32, 37, 30, 46	14, 15, 39, 38
93025	FARIÑA, NOELIA NOEMI	24, 12, 37, 46	13, 32, 36, 25
107491	FERNANDEZ, JULIO MATEO	39, 30, 8, 46	11, 31, 35, 24
106829	FIEGL, LUCAS AUGUSTO	24, 20,22, 55	10, 28, 32, 21
108239	FIOROTTO, CAMILA	3, 5, 13, 57	3, 20, 31, 8
87039	FLORES SOSA, ZORAIDA YURICO	14, 54, 58, 42	2, 12, 36, 7
108571	FRANCAVILLA, CANDELA SOFIA	26, 18, 35, 44	1, 32, 35, 6
105658	GALDO MARTINEZ, MARIANA	14, 38, 47, 48	37, 12, 36, 5
107587	GALLINO, PEDRO	2, 54, 27, 51	34, 28, 39, 4
105892	GAMBERALE, LUCIANO MARTIN	25, 22, 35, 52	33, 28, 36, 40
109667	GEMETTO, VALENTINA MARIA	1, 8, 30, 59	30, 12, 29, 38
106998	GHOSN, LAUTARO GABRIEL	32, 9, 18, 41	27, 20, 32, 25
108937	GRIN, PEDRO	39, 10, 54, 53	26, 22, 31, 24
107985	GÜLDEN, JUAN FRANCISCO	31, 13, 10, 43	23, 12, 39, 21
105711	HERNANDEZ, JUAN CRUZ	19, 54, 58, 49	19, 12, 15, 8
108344	JANAMPA SALAZAR, MARIO RAFAEL	19, 20, 6, 40	18, 15, 29, 7
106079	JANON, SANTIAGO IGNACIO	34, 20, 7, 40	17, 28, 39, 6
106136	LABOUR, VALENTIN	39, 7, 5, 42	16, 9, 36, 5
108257	LANZILLOTTA, VALENTINA	4, 12, 7, 59	14, 31, 35, 4
108068	LEDESMA, MARTÍN	36, 54, 58, 49	13, 12, 31, 40
105993	LEVI, DOLORES	26, 17, 9, 53	11, 9, 29, 38
107552	LLORENS, IÑAKI	56, 22, 15, 49	10, 9, 35, 25
100566	LOPEZ, SANTIAGO	1, 5, 6, 40	3, 22, 28, 24
108460	MARTINEZ, FRANCISCO EZEQUIEL	25, 47, 9, 43	2, 12, 29, 21
104889	MAZZARO, FRANCO DARIO	56, 17, 18, 41	1, 12, 31, 8
106438	MIGUEL, THEO	4, 30, 23, 50	37, 29, 32, 7
105876	MINELDIN, RAMIRO	24, 54, 9, 51	34, 9, 31, 6
106999	MORALES, JULIAN LISANDRO	33, 17, 30, 42	33, 32, 35, 5
108091	MORILLA, MARTIN	39, 17, 38, 50	30, 9, 32, 4
106248	MOYANO, ANDRES RICARDO	1, 37, 6, 46	27, 20, 39, 40
107752	MURSELI, AGUSTIN	24, 18, 13, 60	26, 9, 39, 38
99479	MUTCHINICK, JULIAN	45, 27, 38, 60	23, 29, 31, 25
107690	OJEDA, DANIELA	4, 22, 17, 53	19, 9, 22, 24
108397	ORDOÑEZ, ALEJO	21, 35, 28, 41	18, 31, 35, 21
108013	ORONA, IGNACIO	33, 22, 27, 46	17, 28, 39, 8
87622	OURA, JACQUELINE JUDIT OLGA	19, 23, 7, 43	16, 9, 36, 7
108755	PALOPOLI, MAXIMO	34, 58, 17, 51	14, 20, 32, 6
108215	PANDOLFI, JOAQUIN	1, 35, 9, 53	13, 9, 35, 5
106249	PAPA, FRANCO	2, 18, 47, 48	11, 28, 39, 4
102340	PAULOZZI MOLINA, GERONIMO	25, 27, 28, 49	10, 22, 36, 40
105600	PAZ BLANCO, PILAR	4, 35, 37, 46	3, 28, 35, 38
101947	PERALTA, FEDERICO MANUEL	24, 22, 23, 49	2, 12, 39, 25
107997	PEREZ GOLDSTEIN, JULIETA	32, 47, 12, 44	1, 28, 32, 24
105867	PIÑANGO RAMOS, JULIO CESAR	21, 28, 11, 50	37, 29, 31, 21
91076	PORRAS CARHUAMACA, SHERLY KATERIN	21, 18, 27, 44	34, 9, 12, 8
107788	QUIROGA, BRUNO MARTIN	26, 9, 47, 41	33, 12, 36, 7
106007	RAIMONDI, LUCAS NAHUEL	31, 30, 17, 57	30, 28, 31, 6
93751	RAMIREZ, JOSE ISRAEL	26, 37, 27, 49	27, 15, 28, 5
99770	REA, MATIAS ABRAHAM	56, 58, 15, 40	26, 29, 32, 4
106716	REIMUNDO, MARTIN	19, 27, 47, 52	23, 32, 36, 40
108127	RICO, MATEO JULIÁN	56, 16, 30, 52	19, 12, 31, 38
86601	RIPETOUR CHAIMAN, DIEGO	4, 17, 5, 41	18, 12, 35, 25
106041	RIVERA VILLATTE, MANUEL	32, 16, 5, 59	17, 20, 32, 24
106302	RIVERO TRUJILLO, TOBIAS LUCIANO	3, 38, 30, 49	16, 31, 35, 21
101891	RODRIGUEZ, NAZARENO JOSE LUIS	21, 18, 20, 48	14, 20, 22, 8
96713	ROLDAN MONTES, CRISTIAN EDUARDO	31, 38, 11, 51	13, 20, 35, 7
101043	RONCHI, SANTIAGO AGUSTIN	4, 11, 12, 43	11, 32, 36, 6
106835	RUANO FRUGOLI, CLARA	25, 15, 9, 57	10, 15, 32, 5
106768	RUIZ SUGLIANI, SANTIAGO NAHUEL	21, 11, 35, 53	32, 28, 29, 4
106147	SABAJ, GASTON EZEQUIEL	45, 17, 35, 43	2, 35, 32, 40
99131	SECCHI, ANA MARIA	39, 12, 10, 59	1, 12, 31, 38
107185	SHIMABUKURO, GONZALO JOAQUÍN	36, 13, 16, 44	37, 12, 32, 25
104892	SICCA, FABIO	1, 20, 22, 42	34, 12, 20, 24
108679	SILVANO LIMA, BAUTISTA	33, 16, 35, 50	33, 29, 31, 21
93735	SOSA AQUINO, RICARDO ARIEL	25, 38, 10, 48	30, 35, 36, 8
103227	SOTO BERTANI, SEBASTIÁN MATIAS	29, 37, 38, 51	27, 20, 29, 7
106673	SOTO, MARILYN NICOLE	14, 11, 58, 51	26, 15, 28, 6
109200	SOUZA, MARTINA FLORENCIA	56, 28, 23, 57	23, 9, 31, 5
104239	SPRENGER, ROBERTA	34, 8, 9, 57	19, 15, 35, 4
107746	SUAREZ PINO, IMANOL	21, 10, 28, 59	18, 39, 32, 40
107710	SZEJNFELD SIRKIS, TOMAS	14, 6, 13, 55	17, 12, 36, 38
104509	URSINO, IAN MIKA	39, 12, 13, 60	16, 35, 22, 25
107585	VALDEVENITO, ALAN EZEQUIEL	1, 5, 18, 50	14, 12, 22, 24
97076	VARGAS CHAVEZ, RODRIGO IGNACIO	33, 20, 18, 53	13, 28, 29, 21
104115	VERA BENITEZ, SEBASTIAN	32, 58, 5, 53	11, 9, 31, 8
104734	VERNIERI, ANITA	45, 15, 16, 40	10, 15, 22, 7
106129	VETRANO, IGNACIO EZEQUIEL	36, 16, 20, 41	3, 31, 20, 6
106930	VIAU, IGNACIO	31, 13, 28, 40	2, 29, 12, 5
97023	YBARRA ESCALANTE, DIEGO EMANUEL	32, 47, 23, 52	1, 32, 39, 4
101656	Del Pozo, Francisco Marcelo	4, 10, 28, 46	3, 12, 36, 4
102912	Pucci Romero, Tobias	26, 30, 16, 48	13, 15, 29, 38

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

consigna_tp1_1c2023.md

consigna_tp1_1c2023.md

TP1 - Pandas, Spark y Visualización de datos

Primera parte - Pandas (8 ptos)

contents.csv

contents_text_sample.csv

geo_tags.csv

logs.csv

languages.csv

redirect_list.csv

categorylinks.csv

pagelinks_sample.csv

Realizar sus correspondientes consultas en Pandas

Segunda parte - Visualización de datos (7 ptos)

Tercera parte: Spark (8 ptos)

Realizar sus correspondientes consultas en Spark

Criterio de reentrega

Primera parte - Pandas

Segunda parte - Visualización de datos

Tercera parte: Spark

Puntos extra (hasta tres ⭐)

Asignaciones de Ejercicios

Files

consigna_tp1_1c2023.md

Latest commit

History

consigna_tp1_1c2023.md

File metadata and controls

TP1 - Pandas, Spark y Visualización de datos

Primera parte - Pandas (8 ptos)

contents.csv

contents_text_sample.csv

geo_tags.csv

logs.csv

languages.csv

redirect_list.csv

categorylinks.csv

pagelinks_sample.csv

Realizar sus correspondientes consultas en Pandas

Segunda parte - Visualización de datos (7 ptos)

Tercera parte: Spark (8 ptos)

Realizar sus correspondientes consultas en Spark

Criterio de reentrega

Primera parte - Pandas

Segunda parte - Visualización de datos

Tercera parte: Spark

Puntos extra (hasta tres ⭐**)**

Asignaciones de Ejercicios

Puntos extra (hasta tres ⭐)