Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

データファイルの所在と関連するスクリプトの関係性がわかりにくい #1

Open
HirotakeIto opened this issue May 17, 2019 · 0 comments

Comments

@HirotakeIto
Copy link
Owner

HirotakeIto commented May 17, 2019

基本的にはこのレポジトリは埼玉データを管理するためのものだが、そのデータソースと関連するスクリプトの関係性がイマイチ難しい。

Input

データソース

  • ./data/original/**
  • ./data/info/**

利用するファイル

  • ./data/datasetup/models/**/seed.py
  1. 基本的にでデータ構築はseedメソッドという共通のapiに任せているつもり
  2. しかしよくよく各種seedファイルの中身を確認してみると、別のメソッドが動いていることを前提にしているものも結構ある
    基本的にはデータそのものというより、コード表などを読んだり作成するような処理。これは結局seed メソッドの中身読まないと1からの更新ができないので、全くもって望ましくない。これらを全て駆逐するべき。

データソースの記述がある場所
* model.py(利用データ)
* seed.py(データ組成よう)→保存先ファイルは必ずmodel.pyかな。。。?
何に困っているか言語化すれば、追加作業とかをするときにseed.pyを修正するが、その中を読むのをもっと簡略にしたい

解決案

  1. コード表に関するモデルを作る
    しかしこれは他のseedファイルがコード表のデータがすでにあることを前提にしてしまうのでうぜえ(それぐらい、他のseedファイルで確認させれば良いのでは?)
  2. seed メソッドの中でコード表も作る
    seedファイルが長くなって読めなくなる。またコードファイルは結構人力で作っているものもあり、「これの更新はどうやっているのか?」と結局不明になるのでは。
  3. コード表は別管理
    学校に関する機密データなどもあるので、オープンな管理は不可能
    どっちが良いかを検討する。

1で。2にしてもseedの中がfatになるか、モデルがfatになるかの違いでしかない。
それならばわかりやすい1の方が良いはず。3は一番ありえなく、自分が何をしたかがわからなくなってしまう。
ただし、「excelなどでおててでデータをある程度作らなければいけない」という工程は何にしても必要。

./db/infoをそのてのコードを格納するテーブル、その元データとして./infoを作るという構造でどうか?
ただしお目目で参照するときに./infoを方を参照するのも当たり前なのでmodel.save()とは別にdf.to_csv('./info/.*')みたいなコードを書けば良いだろう。

@HirotakeIto HirotakeIto changed the title データに データファイルの所在と関連するスクリプトの関係性がわかりにくい May 17, 2019
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant