Skip to content

Latest commit

 

History

History
41 lines (30 loc) · 1.27 KB

README.md

File metadata and controls

41 lines (30 loc) · 1.27 KB

ここはなに

データサイエンス100本ノック(構造化データ加工編)をpysparkでも行えるようにしました。書いていることは9割100本ノックのパクリです。

Description

  • Dockerfile(Dockerfile.pyspark)
  • docker-compose.yml
  • スーパーの架空購買データと架空個人情報(csv)

Requirement

  • Docker(Windows 10 proffesional Edition, macOS)
  • Docker Toolbox(Windows 10 home edition)

Install

  • $ git clone [email protected]:y.mukai/practice-pyspark.git
  • $ cd practice-pyspark
  • $ docker-compose up -d --build

再起動はdocker-compose start, 撤収はdocker-compose stop, すべて消し飛ばすときはdocker-compose down

Usage

sparkが複数ポート必要なため100本ノックとはポートが違うので注意

Document

  • work配下に設問notebookを配置
  • work/data配下に使用したデータを配置

ユーザーホームディレクトリ配下以外にcloneする場合は別途dockerのファイル共有設定が必要です(詳しくは本家)。macで動くかは確認していないです。