ntua-advanced-databases

Term project for the course 'Advanced Databases' during 9th semester at NTUA

Contributors

Elina Syrri (elinasyr)
Nick Bellos (nickbel7)

👣 Steps

Install Spark + Hadoop (see instructions at installation)
Get data from https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page
- Execute the data/download-data.sh script to get the .parquet files (from January to June)
- Execute the data/concat-data.sh script to concat .parquet files into one
Import the data into HDFS with hdfs dfs -put hdfs://<master-ip>:9000/data/<filename>.parquet
Exeute each query with python query_{1,5}.py (Alternatively execute exec_all.sh to run all queries)

❓Queries

Να βρεθεί η διαδρομή με το μεγαλύτερο φιλοδώρημα (tip) τον Μάρτιο και σημείο άφιξης το "Battery Park".
Να βρεθεί, για κάθε μήνα, η διαδρομή με το υψηλότερο ποσό στα διόδια. Αγνοήστε μηδενικά ποσά.
Να βρεθεί, ανά 15 ημέρες, ο μέσος όρος της απόστασης και του κόστους για όλες τις διαδρομές με σημείο αναχώρησης διαφορετικό από το σημείο άφιξης.
Να βρεθούν οι τρεις μεγαλύτερες (top 3) ώρες αιχμής ανά ημέρα της εβδομάδος, εννοώντας τις ώρες (π.χ., 7-8πμ, 3-4μμ, κλπ) της ημέρας με τον μεγαλύτερο αριθμό επιβατών σε μια κούρσα ταξί. Ο υπολογισμός αφορά όλους τους μήνες.
Να βρεθούν οι κορυφαίες πέντε (top 5) ημέρες ανά μήνα στις οποίες οι κούρσες είχαν το μεγαλύτερο ποσοστό σε tip. Για παράδειγμα, εάν η κούρσα κόστισε 10$ (fare_amount) και το tip ήταν 5$, το ποσοστό είναι 50%.

🗒️ Notes

Our Infrastructure

1 Master Node : 10.0.0.1
- 1 Master (Spark)
- 1 Worker (Spark)
- 1 Namenode (HDFS)
- 1 Datanode (HDFS)
1 Worker Node : 10.0.0.2
- 1 Worker (Spark)
- 1 Datanode (HDFS)

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
data		data
installation		installation
03118183_03118811.pdf		03118183_03118811.pdf
README.md		README.md
exec_all.sh		exec_all.sh
load_data.py		load_data.py
plot.py		plot.py
query_1.py		query_1.py
query_2.py		query_2.py
query_3.py		query_3.py
query_4.py		query_4.py
query_5.py		query_5.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ntua-advanced-databases

Contributors

👣 Steps

❓Queries

🗒️ Notes

Our Infrastructure

Spark Configuration Parameters

About

Releases

Packages

Contributors 2

Languages

nickbel7/ntua-advanced-databases

Folders and files

Latest commit

History

Repository files navigation

ntua-advanced-databases

Contributors

👣 Steps

❓Queries

🗒️ Notes

Our Infrastructure

Spark Configuration Parameters

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages