データファイルの所在と関連するスクリプトの関係性がわかりにくい #1

HirotakeIto · 2019-05-17T14:33:24Z

基本的にはこのレポジトリは埼玉データを管理するためのものだが、そのデータソースと関連するスクリプトの関係性がイマイチ難しい。

Input

データソース

./data/original/**
./data/info/**

利用するファイル

./data/datasetup/models/**/seed.py

基本的にでデータ構築はseedメソッドという共通のapiに任せているつもり
しかしよくよく各種seedファイルの中身を確認してみると、別のメソッドが動いていることを前提にしているものも結構ある
基本的にはデータそのものというより、コード表などを読んだり作成するような処理。これは結局seed メソッドの中身読まないと1からの更新ができないので、全くもって望ましくない。これらを全て駆逐するべき。

データソースの記述がある場所
*　model.py（利用データ）
*　seed.py(データ組成よう)→保存先ファイルは必ずmodel.pyかな。。。？
何に困っているか言語化すれば、追加作業とかをするときにseed.pyを修正するが、その中を読むのをもっと簡略にしたい

解決案

コード表に関するモデルを作る
しかしこれは他のseedファイルがコード表のデータがすでにあることを前提にしてしまうのでうぜえ（それぐらい、他のseedファイルで確認させれば良いのでは？）
seed メソッドの中でコード表も作る
seedファイルが長くなって読めなくなる。またコードファイルは結構人力で作っているものもあり、「これの更新はどうやっているのか？」と結局不明になるのでは。
コード表は別管理
学校に関する機密データなどもあるので、オープンな管理は不可能
どっちが良いかを検討する。

1で。2にしてもseedの中がfatになるか、モデルがfatになるかの違いでしかない。
それならばわかりやすい1の方が良いはず。3は一番ありえなく、自分が何をしたかがわからなくなってしまう。
ただし、「excelなどでおててでデータをある程度作らなければいけない」という工程は何にしても必要。

./db/infoをそのてのコードを格納するテーブル、その元データとして./infoを作るという構造でどうか？
ただしお目目で参照するときに./infoを方を参照するのも当たり前なのでmodel.save()とは別にdf.to_csv('./info/.*')みたいなコードを書けば良いだろう。

The text was updated successfully, but these errors were encountered:

HirotakeIto changed the title ~~データに~~ データファイルの所在と関連するスクリプトの関係性がわかりにくい May 17, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

データファイルの所在と関連するスクリプトの関係性がわかりにくい #1

データファイルの所在と関連するスクリプトの関係性がわかりにくい #1

HirotakeIto commented May 17, 2019 •

edited

Loading

データファイルの所在と関連するスクリプトの関係性がわかりにくい #1

データファイルの所在と関連するスクリプトの関係性がわかりにくい #1

Comments

HirotakeIto commented May 17, 2019 • edited Loading

Input

データソース

利用するファイル

HirotakeIto commented May 17, 2019 •

edited

Loading