Skip to content

공공데이터 API (1,3,5팀)

hyemin-song edited this page Mar 18, 2021 · 1 revision

초록

2020년 1월 한국 첫 코로나19 확진자가 발생한 이후 국내에서도 방대한 양의 관련 공공데이터가 생성, 활용되고 있다. 하지만 공공데이터를 활용해 기존에 제공되고 있는 정보보다 더 의미 있는 분석을 만들 수는 없는지, 현재 배포되고 있는 시각화 자료를 개선시킬 방법은 없는지에 대한 문제는 여전히 남는다. 더불어 사람들의 기억은 휘발되기에, 이 시기 한국 상황에 대한 가치중립적 기록을 남기는 것도 중요하다.

이러한 문제의식 아래에서, 이 프로젝트를 통해 국내 코로나19 감염, 확산의 시간에 따른 변화와 집단별 차이를 분석하고자 한다. 기존의 코로나19 정보들이 가지고 있는 문제를 개선한 데이터 분석과 시각화의 예를 보일 것이다. 분석 결과물들의 대부분은 코로나19 공공데이터 API를 활용한 것이다. 그래서 웹 상에서 코로나19와 관련한 공공데이터를 얻는 방법과 활용방안 또한 소개하고자 한다.


‘코로나19 API 데이터 활용 가이드’ 분석 사용 데이터 및 출처

총 11개의 데이터를 사용

분석 과정에서 사용된 모든 데이터는 이곳 cayley github에서 다운 가능

공공데이터 포털_보건복지부 OpenAPI

아래 데이터들의 출처는 모두 공공데이터 포털 보건복지부 OpenAPI

공공데이터 포털에서 다운받은 API의 전처리 과정은 분석 코랩에서 확인 가능

  • ‘21-02-28_코로나19_감염현황API (xlsx)’
  • ‘21-02-28_코로나19_시도별_감염현황API (xlsx)’
  • ‘21-02-28_코로나19_성별연령별_감염현황API (xlsx)’

xlsx 수작업 데이터

아래 세 데이터는 xlsx, csv 형식으로 제공되지 않는 데이터 및 기사를 수작업으로 모아 xlsx 파일로 만든 것

  • ‘21-02-28_검사 현황(보도자료) (xlsx)’ : 질병관리청 일별 보도자료
  • ‘21-02-27_중증도별_병상현황 (xlsx) : 질병관리청 일별 보도자료
  • ‘시도 주요 이슈(기사) (xlsx)’ : 일자별, 시도별 기사링크

기타 다운 사이트에서 다운받은 데이터

아래 데이터 중 ‘선별진료소_위도경도 (xlsx)’ 는 보건복지부 선별진료소 현황 사이트에서 주소를 받은 뒤, 지오코딩 프로그램을 통해 위도, 경도를 추가

‘시도별_선별진료소개수 (csv)’ 는 보건복지부 선별진료소 데이터와 통계청의 인구 데이터를 조합하여 만든 것

  • ‘지역별 인구수 (xlsx)’ : e-나라지표
  • ‘선별진료소_위도경도 (xlsx)’ : 보건복지부 선별진료소 현황
  • ‘시군구_행정구역 (json)’ : 깃허브
  • ‘시도_행정구역 (json)’ : 구글링
  • ‘시도별_선별진료소개수 (csv)’ : 보건복지부 선별진료소 현황 + 통계청

분석 결과 : google colaboratory

간단소개 : 대충 어떤 분석, 목차 링크넣기


International Open Data Day 2021 in Korea

1,3,5 팀에서는 International Open Data Day 2021 in Korea에서 위의 분석 결과를 바탕으로 발표를 진행

International Open Data Day 2021 in Korea

발표영상

웹슬라이드(코로나 19 공공데이터 API 활용 가이드)


135 팀 명단 및 소감

김가인(중앙대학교 문헌정보학과)

코로나 19 관련 데이터를 오랜 시간동안 살펴보며, 데이터를 효과적으로 전달하는 방법에 대해 조금이나마 알게 된 시간이었다. 더욱 더 깊은 분석을 통해, 다시 한 번 코로나19 데이터를 정리해보는 시간을 가졌으면 하는 아쉬움이 든다. 훗날 우리의 결과물이 부디 누군가에게 도움이 되길 바라는 바란다.

김현지(중앙대학교 문헌정보학과)

수집된 데이터를 살펴보고 분석하는 과정에서 코로나와 관련한 현 추 이를 살펴볼 수 있어서 좋았다. 하지만 데이터 자체의 오류에 관한 측면이 조금 아쉬웠고, 나 자신의 분석 역량도 아직은 부족한 것 같아서 더 공부해나가야 할 것 같다.

송채은(중앙대학교 문헌정보학과)

코로나19 국내 데이터를 1년동안 살펴보면서, 실제와 데이터간의 괴리감을 줄이는 것이 중요함을 깨달았다. 특히, 데이터 생성과정에서 다각적으로 많은 논의가 필요하다고 생각한다.

설지은(중앙대학교 문헌정보학과)

데이터를 분석해보며 평소 궁금했던 것들을 어느정도 해소할 수 있어서 좋았다. 데이터 분석에 있어 좀 더 논리적이고 창의적인 관점을 가지려 노력해야겠다고 생각했다.

이정윤 (중앙대학교 문헌정보학과)

1년이 넘는 시간 동안 한 주제에 대한 데이터를 수집하고, 살펴보며 깊이 있는 이해를 해보는 좋은 경험이었다. 부족한 점들을 보완하여 더욱 완성도 높은 분석을 해보고 싶다는 생각을 하게 되었다.

최은혜(중앙대학교 문헌정보학과)

한 주제의 데이터를 오랫동안 보며 데이터를 다양하게 다뤄보는 경험을 할 수 있어서 좋았다. 직접 수집, 정제, 분석을 진행하며 데이터 분석의 첫 걸음을 뗀 것 같다. 앞으로 계속 공부해서 더 의미있는 결과를 만들고 공유하고 싶다.

김가윤(중앙대학교 사회학과)

데이터를 직접 다루어보면서 궁금했던 점들 (정책 실효성, 관련 이슈) 을 해소할 수 있어 뜻깊은 경험이었고, 아카이빙에 대한 중요성을 다시 한번 깨닫게 되는 시간이었다.

송혜민(중앙대학교 사회학과)

수집된 데이터를 살펴보고 분석하는 과정에서 코로나와 관련한 현 추이를 살펴볼 수 있어서 좋았다. 하지만 데이터 자체의 오류에 관한 측면이 조금 아쉬웠고, 나 자신의 분석 역량도 아직은 부족한 것 같아서 더 공부해나가야 할 것 같다.

정예은(중앙대학교 사회학과)

데이터를 수집, 분석하는 과정에 참여할 수 있어 좋았고, 앞으로는 더 심도있는 분석을 해보고 싶다. 코로나19로 인한 거대한 변화를 기록하기 위해 팀원들과 함께 고민하고 고생했던 것들이 좋은 기억으로 남을 것 같다.

허인(중앙대학교 응용통계학과)

Team Cayley의 프로젝트는 데이터 분석 능력을 기르고 데이터를 다양한 관점에서 바라볼 수 있는 기회였다. 코로나19 팬데믹 상황을 기록하는 활동에 참여할 수 있어서 매우 뜻깊었다.

강영훈(중앙대학교 경영학부)

데이터 분석 프로젝트는 처음이었는데, Caylee 의 일원으로 프로젝트를 진행하면서 배운 것이 많다. 데이터 분석의 중요성과 어느 데이터에서 어떤 인사이트를 얻을 수 있는지 배울 수 있었다. 코로나 데이터와 같은 생명과 직결되어 있을 수 있는 데이터의 처리와 발표에 대해서 정부가 더욱 적극적으로 나서야 할 것 같다는 생각을 할 수도 있었다.