본문으로 바로가기
반응형



안녕하세요! 지난 시간에는 분석 모델링 전, 전처리 과정까지 진행한 채 포스팅을 마쳤습니다.

따라서 오늘부터는 본격적인 분석 모델링 과정을 진행하려고 합니다. 본 프로젝트는 당초 기획 했던 것과 같이, 상권 특성이 카페의 폐업에 미치는 영향, 그 중에서도 대기업 프랜차이즈 카페가 개인 사업자의 카페의 폐업에 미치는 영향에 대해 알아보고자 했습니다.

따라서, 주변 상권에 얼마나 많은 대기업 프랜차이즈 카페가 존재하느냐에 대한 데이터, 카페의 폐업에 대한 데이터 등이 필요하였고, 지방행정 인허가 데이터를 통해 소스로 활용하여 전처리 작업을 진행해왔습니다.


오늘은 실질적인 상관관계 분석을 적용하여, 간단하게 데이터 모델링을 진행해보려 합니다. 그럼 그 전에, 잠시 지난 전처리 과정에서 미처 마무리하지 못 했던 이상치 제거를 계속 하도록 하겠습니다.


이상치는 Brightics Studio 내에 Outlier Detection 함수를 통해 이상치를 탐지하고 제거할 수 있습니다. 먼저, 제거할 이상치를 다시 한 번 확인해볼까요?



'폐업일반카페' column을 정렬하여 확인할 수 있었던, 우편번호 '6164' 지역의 데이터입니다. 이는 아래의 Box Plot을 통해서도 확연히 드러납니다.



만약 해당 이상치를 제거하려고 한다면, Python Script 함수에서는 Pandas를 활용하여 다음과 같이 코딩 해볼 수 있습니다.



위와 같이, '도로명우편번호' column에서 '6164'에 해당하는 Row의 index를 찾아서 해당 Row만 제거하거나,

마찬가지로 이상치 탐지 등을 활용하여 제거하는 방법이 있는데요. 이는 Brightics Studio에서도 매우 간단하게 해결이 가능합니다.



Outlier Detection 함수를 사용하여, multiplier를 적당히 조절하고, Result를 Remove Outliers로 설정하여 값을 Drop시키도록 하였습니다. 이상치 탐지 매서드를 Tukey로 설정하게 되면, Box Plot 형태에서 Q1~Q3을 기준으로 이상치 탐지를 진행하게 되며, Multiplier 값은 이러한 이상치 탐지의 기준이 됩니다. 여기선 가장 큰, 극단적인 Row 하나만을 제거하면 되기 때문에, 적당히 높은 기준값을 설정해 1개의 Row만 삭제해주었습니다. 좌측 상단의 4,328개의 Row에서, 우측 상단의 4,327개의 Row로 1개의 Row가 Drop 되었으며, 화면에 정렬된 Table을 통해 우편번호 '6164'의 데이터가 Drop 되었음을 알 수 있습니다.


이제 정말 분석 단계로 진입을 해보아야 할텐데요. 대기업 프랜차이즈가 일반 카페 폐업에 미치는 영향을 분석하기 위해서, 변수간 상관관계 분석을 적용해보려 합니다. 하지만 여기에 약간의 문제가 있는 것 같습니다. 현재 가지고 있는 Data에서, 각 우편번호에 속하는 폐업한 일반카페의 수와 영업중인 프랜차이즈 카페의 수를 상관 분석하면 과연 의도한대로, 상관관계를 알 수 있을까요? 그렇지 않아 보입니다.

상권이 많이 발달하고, 유동인구가 많은 곳일수록 자연스레 카페의 입점이 증가하게 됩니다. 또한, 그만큼 폐업도 증가할 수 밖에 없습니다. 따라서, 상권이 발달한 곳일수록 일반카페의 영업과 폐업 모두 증가할 수 밖에 없고, 대기업 프랜차이즈 또한 마찬가지로, 영업과 폐업 모두 증가할 수 밖에 없습니다. 따라서, 여기서 데이터를 똑 떼어내어 폐업한 일반카페, 영업중인 프랜차이즈 카페를 상관관계 분석 하게 되면, 당연히 양의 상관관계가 나올 것입니다. 발달한 상권 쪽으로 갈수록, 두 변수 모두 증가하는 수치를 보일테니까요.

따라서, 이번 시간에는 폐업률을 비교하도록 하려고 합니다. 



Add Function Column 함수를 통해 위와 같이 작업하였습니다. '일반카페폐업률' column을 새로 생성하여, 각 우편번호별 지역의 일반카페들 중에서, 폐업한 카페의 비율을 폐업률로 구하였습니다. 마찬가지로 '프랜차이즈카페폐업률' 역시 마찬가지 방법으로 구해준 후, 

결측값을 모두 제거하고 Correlation 함수를 통해 상관분석을 진행해주었습니다.



결과는 위와 같은데요. 일반 카페 폐업률(X축)과 프랜차이즈 카페 폐업률(Y축)에서 음의 상관관계가 약하게 나타나고 있습니다. 즉, 일반 카폐 폐업률이 높은 지역에서도 오히려 프랜차이즈 카페 폐업률은 유의미하게 낮아지는 경향이 있다는 것인데요. 약간 유의미한 결과인 것 같기도 하지만, 사실 이것만으로는 두 변수 간의 상관관계를 파악하기에 무리가 있어보입니다. 또한, 분석의 신뢰도를 높이기 위해 고려해야 할 부분들 역시 많아보입니다. 

따라서, 아직은 좀 더 다양한 방법을 통해 분석을 시도해야 할 때인 것 같습니다. 

그럼, 다음 2차 분석까지, 좀 더 좋은 아이디어를 내어, 더욱 좋은 모델링으로 돌아오도록 하겠습니다. 오늘도 읽어주셔서 감사합니다! :)



본 포스팅은 2020년 삼성SDS Brightics 서포터즈 1기 활동의 일환으로 작성된 포스팅입니다.

반응형