본문으로 바로가기
반응형


지난 Brightics 서포터즈 1기 개인 미션 주제 선정 포스팅에 이어서, 오늘은 1차 데이터 전처리 시간입니다!

저는 지난 포스팅에서 지방행정 인허가 데이터를 통해 '카페'를 중심으로 분석을 시도하고자 했는데요.

지역별로 다양한 상권 데이터를 담은 '지방행정 인허가 데이터'를 통해 카페의 폐업에 미치는 여러 요인에 대해 분석하고자 했습니다.


오늘은 본격적인 데이터 분석에 앞서, 데이터 수집 및 전처리 과정에 대해 포스팅 해보도록 하겠습니다.



http://www.localdata.kr/ 에서 본 데이터를 이용할 수 있는데요. 각 데이터는 업종별(업종 그룹별), 지역별로 나눠서 받을 수 있고, XML과 EXCEL 두 Type으로 다운이 가능합니다. 아쉽게도 CSV 형태로 다운로드가 되지 않아 따로 변환 작업이 필요했는데요. 전체 데이터를 받게 되면 상당한 고용량의 데이터라, 일단 특정 지역데이터를 통해 전처리 템플릿을 완성한 후, 본격적인 전처리 과정을 시행하기로 했습니다.



데이터는 Zip으로 압축되어 있으며, 압축을 풀면 각 업종별로 나누어진 데이터가 들어있습니다.



데이터를 Load 해보니, 총 47개의 column에, 데이터는 106,935열이 들어있습니다. 하지만 휴게음식점에 속하는 업종은 카페 뿐만 아니라, 편의점, 다방, 패스트푸드점 등 다양하기 때문에, 데이터를 한번 필터링해줄 필요가 있겠습니다. Filter 함수를 사용해 원하는 작업이 가능합니다!


하지만 데이터 내부에 여러 이름으로 카페 업종이 존재할 가능성도 배제할 수 없습니다. 예컨대, 카페, 커피전문점, 커피숍 등으로 존재할 수 있을텐데요. 업종명은 '업태구분명'이란 columns으로 들어있으며, 데이터는 string 타입이기에, 'String Summary' 함수를 통해 살펴보겠습니다.



String Summary 함수에서 Input Columns를 '업태구분명'으로 넣어주고, Table 차트에서 Data Source를 Count_Chart로 설정해주면 '업태구분명' Columns 내에 존재하는 모든 Value에 대해 각각의 갯수를 세어준 Table이 나오게 됩니다. 그 결과, 총 26개의 Row(null 포함)가 존재하며, 이중에서 카페는 '커피숍'이란 이름으로 존재하고 있음을 확인할 수 있었습니다. 또한 해당 데이터에서 카페는 26112개로, 휴게 음식점 데이터 중에서 가장 수가 많은 업종에 해당함을 알 수 있습니다.



Filter 함수를 통해 업태구분명 column의 데이터가 '커피숍'에 해당하는 데이터만 추출하였습니다. 중요한 것은, parameter 값을 반드시 작은 따옴표로 묶어주어야 합니다. 큰 따옴표를 쓰거나, 따옴표를 사용하지 않으면 문법 오류가 나게 됩니다.

Fliter 함수로 추출한 데이터를 Pie Chart로 살펴보니, 100% 커피숍만 잘 추출되었습니다. 



또한, 영업 상태를 나타내어주는 '업태구분명' Columne을 Pie Chart로 살펴보니, '폐업', '영업/정상'의 두 값으로 나누어져있는 것을 확인할 수 있습니다. 추후에 Filter 함수를 두 차례 사용하여, 각각 영업중 카페 데이터와 폐업중 카페 데이터로 나누어주겠습니다. 


또한, 폐업 데이터들의 경우 폐업 날짜가 'YYYYMMDD' 형태로 년월일이 상세하게 나와있어 분류가 어려우므로, 폐업 년도만 담고 있는 column을 추가해주겠습니다.



Add Function Column 함수를 사용하여, New Column Name으로 eob_year (End of Business year)을 넣어주고, SQLite 표현식으로 substr(폐업일자, 3, 2)를 넣어주었습니다.

우측 Table에서 성공적으로 eob_year에 두자리 년도가 들어간 것을 확인할 수 있습니다.



여기에 더해, '사업장명' column에 프랜차이즈 카페일 경우, '(주)' 문자열이 추가로 들어간다는 점을 이용하여, Add Column 함수를 통해 프랜차이즈 카페인지 판별하는 Column을 추가해주었습니다.


1차 데이터 전처리 과정은 여기까지인데요. 데이터 전처리 과정을 거치면서 점점 데이터셋에 대한 이해도가 높아지는 것을 느낄 수 있었습니다. 비록 아직 상당한 시행착오를 겪고 있지만, 남은 전처리 기간동안 힘내어 보다 좋은 데이터 분석 결과를 얻어낼 수 있도록 노력해보겠습니다! 읽어주셔서 감사합니다 :)



본 포스팅은 2020년 삼성SDS Brightics 서포터즈 1기 활동의 일환으로 작성된 포스팅입니다.


반응형