본문으로 바로가기
반응형

오늘은 팀 프로젝트 과정 2차 시간, 분석 모델링 포스팅입니다! 

 

지난 시간에는 R 내장 데이터 중 하나인 mtcars 데이터셋을 분석 프로젝트 대상으로 선정하고, Brightics Studio로 회귀분석을 진행하는 것과 동시에 R로도 함께 진행을 하는 계획까지 세웠는데요. 오늘은 거기에 더해, 실질적인 모델링을 진행한 내용에 대한 포스팅입니다!

 

먼저 이번 주에 진행된 Brightics 쪽 내용은 위와 같습니다. 데이터를 정규화하고, 정규화된 Column만 추려낸 후에, 이를 Split하고 회귀분석 모델링을 진행하여 최종적으로 예측 된 값을 평가하는 과정인데요. 

R과 Brightics 양쪽의 모델링을 동시에 진행하면서, 서로 조금씩 함수 사용법이 다르거나, 모델링 과정이 다른 부분이 있어, 이번 주에는 최대한 뼈대를 완성하고, 다음 주에 두 분석 방법을 서로 일치시킬 예정에 있습니다!

 

정규화 과정은 Normalization 함수를 사용하여, MinMaxScaler를 통해 정규화를 진행하였습니다. 각각 _min_max가 접두사로 붙은 Column이 생성되고, 이를 통해 모델링을 진행하게 되는데요. 

 

일반적으로 사용하는 7 대 3 비율로 Data를 나누어주고 Linear Regression Train 함수를 사용해 모델링을 진행하였습니다.

 

잔차에 대한 산점도를 확인하여 등분산성을 확인하였습니다. 직선이 거의 수평선에 가깝게 나타나서, 등분산성에서는 문제가 발생하지 않음을 확인 할 수 있었고, Quantile-Quantile Plot을 통하여 정규성을 따르는지에 대해서도 알아보았습니다. 

 

R에서도 마찬가지로 등분산성과 정규성을 모두 확인하였는데요. 

여기에 더해 추가적으로, R에서는 vif 함수를 통해 변수간의 다중공선성의 존재 여부를 확인하였고, Brightics에서는 Linear Regression Train 함수를 통해 VIF 값을 확인하여, 마찬가지로 변수간 다중공선성 여부를 확인하였습니다.

 

다중공선성이 발생하는 변수는 모두 제거하고, 이어서 모델링을 진행하였는데요.

 

한 가지 문제로는, R의 경우 단계적 선택법을 사용하여 유의한 변수를 선택해 최종적인 회귀분석 모델링을 진행할 수 있으나, Brightics에서는 이와 같은 단계적 선택법의 적용이 쉽지 않았습니다. 일단, R에서 먼저 해당 방법을 적용시킨 후, 동일하게 선택된 변수를 Brightics에서 또한 적용하는 방식을 택하였으나, 이 부분은 차주에서 해결이 가능할 것으로 보입니다.

 

다음 주는 오늘까지 진행된 Brightics, R의 모델을 가지고 최종적인 정리와 리포트 작성을 하게 되는데요. 아직 정리되지 않은 부분이 꽤 있어 갈 길이 멀어보이지만, 팀원들과 함께 힘을 합쳐서 분석 작업을 진행하면 어느새 마무리가 되어 있을 것 같습니다 :) 

 

그럼 다음 마지막 주차 활동 포스팅으로 다시 돌아오겠습니다. 감사합니다! :)

 

 

본 포스팅은 2020년 삼성SDS Brightics 서포터즈 1기 활동의 일환으로 작성된 포스팅입니다.

반응형