본문으로 바로가기
반응형


안녕하세요! 2차 분석 모델링 과정에 진입하게 되었습니다. 벌써 개인 프로젝트 과정도 3주 밖에 남지 않았는데요. 

다음 16, 17, 18주차까지 진행하면 개인 분석 프로젝트는 모두 마무리되게 될 것 같습니다. 아쉽게도 지난 주부터 시험기간이 시작되어, 프로젝트에 많은 시간을 할애하지 못 하고 있는데요. 그래도 조금씩 시간을 내어 프로젝트를 진행하고 있어, 약간씩이나마 진전이 있는 것 같습니다.

또한, 기존에 사용하던 지방행정 인허가 데이터(Local Data)에서 조금 달라진 부분을 발견했습니다.



위와 같이, 과거에는 지방행정 인허가 데이터에서 XML, EXCEL 파일만 다운받을 수 있어서 약간의 불편함이 있었습니다. 과거 데이터 전처리 초기때, 이러한 파일 로드 문제를 겪게 되어, 이를 해결하는 과정을 포스팅에 담기도 했는데요. 최근 해당 사이트에서 약간의 변화가 있었습니다.



바로 CSV 파일 다운이 가능해진 것입니다. 덕분에 앞으로 지방행정 인허가 데이터를 이용하는 분들이 조금 더 편리하게, 해당 자료를 이용하실 수 있을 것 같습니다!

지난 번과 마찬가지로 해당 CSV 파일에는 콤마 ( " , " )가 존재하는 데이터들이 있습니다. CSV 파일 내부 값에 콤마가 포함되어 있을 경우, Load 함수로 데이터를 읽어오는 과정에서 오류가 발생하니 꼭 제거해주어야 합니다!



지난 시간까지 사용하던 데이터는 서울 내의 커피숍 데이터로, 약 2~3만여개의 데이터를 사용했는데요. 오늘은 기존에 형성한 모델을 바탕으로 전국의 카페 데이터를 분석하려고 하며, 그 수는 약 11만 개입니다.


도로명 우편번호가 존재하지 않는 일부 데이터를 정제하는 등의 작업을 거치고, 107,797개의 Row를 얻을 수 있었는데요. 이제 Python Script를 통해 작업을 진행하려 하는데, 일부 오류가 나는 부분이 있었습니다.

예외처리가 되지 않은 부분이라, 데이터 볼륨이 커지니 여지없이 에러가 발생한 것인데요. 해당 부분을 예외처리하여 Script를 실행하여 정상적으로 전처리를 진행하였습니다.



지난 시간과 마찬가지로 Correlation 분석을 진행하여, 위와 같은 결과를 얻을 수 있었습니다. 지난 시간에 -0.19의 상관계수를 얻었던 것과 유사하게, 데이터 볼륨이 증가한 상황에서도 비슷한 -0.18의 음의 상관계수가 나왔습니다. 뭔가 조금 색다른 분석이 필요해보이는 시점입니다.


데이터의 폐업 날짜와 인허가 날짜 데이터를 이용하여, 해당 비즈니스가 얼마나 지속되었는지를 알 수 있는 Column을 추가해보기로 하였습니다. 또한, 데이터 탐색 중 10년 이상 지속된 비즈니스들이 상당수 있는 것으로 판단되어, 비교적 최신 데이터인 2015년부터의 데이터만 사용하기로 합니다.

인허가날짜 Column이 20141231 날짜 이상인 데이터만, 즉 2015년도의 데이터부터 사용하도록 Filtering 해주었습니다. 현재는 최종 데이터가 우편번호 별로 그룹화된 데이터이므로, 그룹화된 Row들에 폐업 시점까지 비즈니스 지속 기간 데이터를 반영하기 위해, 해당 우편번호에 속하는 폐업 비즈니스들의 폐업 시점까지의 

지속기간(Day)을 평균내어 넣어주었습니다.



위와 같이 Python Script를 추가해주었습니다. 인허가일자와 폐업일자를 datetime 라이브러리를 이용하여 실제 날짜값으로 변환하고, 그 차이 값을 Days로 반환받아(즉, 폐업일-인허가날짜) 해당 우편번호로 그룹핑 된 데이터에 '평균영업지속일'로 넣어주었습니다.



코드가 일부 추가되고, 데이터 볼륨도 늘어난 탓인지 코드 실행시간이 전보다 늘어난 3분 가량이 걸립니다. 

기다리기 힘들 정도로 오래 걸리진 않아서 다행이라는 생각도 듭니다.



해당 Column을 추가하여 최종적으로 상관관계 분석을 진행했습니다.

아쉽게도 유의미한 정도의 상관계수가 도출되지는 않았습니다. 영업지속일의 경우, 가게 하나하나의 개별 데이터로 볼 때 의미가 있을 것 같습니다. 

한 가지 유의하게 볼 수 있는 부분은 영업 일반/영업프랜차이즈 간의 상관계수와, 폐업 일반/폐업프랜차이즈 간의 상관계수의 차이였는데요.


영업 일반/영업 프랜차이즈의 상관계수, 폐업 일반/폐업프랜차이즈의 상관계수가 각각 높게 나오는 것은, 해당 지역 상권 특성에 따라 일반 카페와 프랜차이즈 양측 모두 가게 수가 증가하기 때문에 당연한 결과이지만, 영업쪽이 0.46, 폐업쪽이 0.67로 상당한 차이를 보이고 있습니다. 즉, 상대적으로 일반 카페와 프랜차이즈 카페 모두에 미치는 상권 특성은 폐업에서 좀 더 두드러진다고 해석해볼 수 있겠습니다.


현재 프랜차이즈 카페로 설정된 30여개 평판지수 상위 카페 등을 통해 좀 더 유의미한 데이터를 발견할 수 있다는 생각도 드는데요. 아쉽게도 시험기간이 겹쳐 많은 시간을 투자하지는 못 했지만, 다음 시간에 계속 이어 한 주 동안 좀 더 다양한 시도를 해보려고 합니다.


남은 3주간 데이터 속에서 어떤 새로운 정보를 발굴 할 수 있을지 지켜봐주세요! 



본 포스팅은 2020년 삼성SDS Brightics 서포터즈 1기 활동의 일환으로 작성된 포스팅입니다.

반응형