본문으로 바로가기
반응형

 

Brightics와 동거동락한지도 어느새 5개월 째입니다. 무더운 7월에 서툴게 Brightics Studio를 사용하던 것이 얼마 전 같은데, 어느새 패딩 점퍼 없이는 외출하기도 힘든 날씨가 되어버렸습니다. 마치 Brightics가 삶의 한 일부를 차지하는 느낌도 듭니다. 제 Blog에서도, Brightics 관련 포스팅이 무려 10%를 넘는 지분을 차지하고 있습니다. 서포터즈 활동이 끝난 후에도, 아마 Brightics를 사용하는 일이 적지 않을 것 같다는 생각이 드네요 :)

 

이제 드디어 활동의 막바지에 다다라, 팀 프로젝트 과정만이 남았습니다. 총 3주 동안 간단한 대외 데이터를 활용한 팀 프로젝트를 진행하게 되는데요. 짧은 기간 동안 주제 선정과 데이터 확보, 전처리, 모델링 등의 과정을 모두 진행하기 위해 저희 2조, 데이터 참 쉽조는 R 내장 데이터인 mtcars 데이터셋을 사용한 데이터 분석을 주제로 선정하였습니다.

 

 

프로젝트명은 'R 내장데이터를 브라이틱스로 코딩 없이 더 간편하게 분석하기!' 인데요. Iris, mtcars 등의 R 내장데이터는 보통 테스트 및 데이터 분석 교육/학습용으로 많이 사용되고 있습니다. 즉, 초보자가 다루기에도 쉽고 간단한 데이터라는 것인데요. 사실 R/Python 사용 경험이 없는 초심자의 입장에서는 간단한 코딩 프로세스도 상당히 난감하게 느껴질 수 있습니다. 특히 EDA, 시각화를 넘어서서 분석모델링과 예측 프로세스를 진행하는 것은 더더욱 어려운 부분인데요.

 

Brightics와 Brightics Studio를 사용한다면, 코딩 없이도 정말 간단하게, 빠른 시간 내에 전체적인 데이터 분석 프로세스를 진행할 수 있을 것입니다. 따라서, 이번 팀 프로젝트는 mtcars 데이터셋의 변수간 분석 및 데이터 분할을 통한 예측 모델링 및 평가를 빠르게 진행하는 것을 목표로 하고 있습니다.

 

 

 

mtcars 데이터셋은 전체적인 데이터 양은 적지만, 다양한 변수를 가지고 있는 흥미로운 데이터입니다. 연비부터 마력, 차의 후방 차축이 차지하는 비율, 무게, 변속기 타입 등 차의 특징을 보여주는 다양한 변수 통해 여러가지 분석 결과 도출이 가능한데요.  실존했던 여러 브랜드의 차종 데이터를 가지고 분석을 진행한다고 생각하니, 정말 재미있을 것 같습니다. 

 

또한, 같은 데이터와 동일한 분석을 R에서도 진행해볼 예정에 있는데요. 이를 통해 Brightics의 장단점에 대해 더욱 명확히 알아보려고 합니다. 앞으로 Brightics의 특징과 장점을 더욱 잘 살리며 사용할 수 있는 기회가 될 것 같네요!

 

다음 두 주의 기간 동안은 각각,

데이터 분석 모델링 (Brightics를 활용하여 회귀분석 및 예측 모델링 진행, R을 통하여 동일한 분석 비교 진행)

분석 결과 요약 및 R 코드와의 비교를 통한 결과 레포트 작성

을 진행할 예정에 있습니다.

 

그럼 이번 1주차에 이어, 다음 2주차 (데이터 분석 모델링) 포스팅으로 돌아오겠습니다.

 

오늘도 읽어주셔서 감사합니다! :)

 

 

본 포스팅은 2020년 삼성SDS Brightics 서포터즈 1기 활동의 일환으로 작성된 포스팅입니다.

반응형