Movies-ETL

Extract, Transform, Load

Purpose

Create an ETL pipeline from raw data to a SQL database.
Extract data from disparate sources using Python.
Clean and transform data using Pandas.
Use regular expressions (Regex) to parse data and to transform text into numbers.
Load data with PostgreSQL and verify in PgAdmin.

The project included extracting a large data set from Kaggle, then transforming the data into a usable dataset for a "hacking competition." Once the data was transformed and narrowed in scope for the hack-a-thon, the DataFrames were loaded into PostgresSQL.

Extracting

Wikipedia Movies JSON file, starting with 193 Columns:

Kaggle Movie Metadata, 24 columns

Kaggle Ratings data, 2602489 rows by 4 columns

Transforming

Wikipedia Data

Wikipedia Movies transformed, 22 columns

Wikipedia Movies, making the column names more succinct and uniform, 7033 rows of data.

Kaggle Data

Wikipedia Movies merged with Kaggle Movies data, all column names and row counts, 6052 rows.

Merged Movies with Kaggle ratings, all of the column names and row counts, 6052 rows.

Loading

Creating the Movie Database

Sending the data to PostgresSQL

Verifying the data in PgAdmin

Movies Query

Ratings Query

Summary

A JSON file and 2 Kaggle files were extracted, then transformed, and joined. A movies and ratings file were loaded into a database for the hack-a-thon event.

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
Resources		Resources
.gitattributes		.gitattributes
.gitignore		.gitignore
D1_wiki_table.png		D1_wiki_table.png
ETL_Deliverable1_starter_code.ipynb		ETL_Deliverable1_starter_code.ipynb
ETL_Deliverable2_starter_code.ipynb		ETL_Deliverable2_starter_code.ipynb
ETL_Deliverable3_starter_code.ipynb		ETL_Deliverable3_starter_code.ipynb
ETL_clean_kaggle_data.ipynb		ETL_clean_kaggle_data.ipynb
ETL_clean_wiki_movies.ipynb		ETL_clean_wiki_movies.ipynb
ETL_create_database.ipynb		ETL_create_database.ipynb
ETL_function_test.ipynb		ETL_function_test.ipynb
Extract.ipynb		Extract.ipynb
README.md		README.md
movies_metadata.csv		movies_metadata.csv
ratings.csv		ratings.csv
wikipedia-movies.json		wikipedia-movies.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Movies-ETL

Purpose

Extracting

Transforming

Wikipedia Data

Kaggle Data

Loading

Creating the Movie Database

Verifying the data in PgAdmin

Summary

About

Releases

Packages

Languages

Baylex/Movies-ETL

Folders and files

Latest commit

History

Repository files navigation

Movies-ETL

Purpose

Extracting

Transforming

Wikipedia Data

Kaggle Data

Loading

Creating the Movie Database

Verifying the data in PgAdmin

Summary

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages