본문으로 바로가기
반응형

한국 사회에 데이터 사이언스의 붐이 찾아온 이래로, 전공과 분야에 무관하게 데이터 관련 분야로 진입하고자 하는 사람들이 크게 늘어났습니다. 때문에, 온갖 강의와 도서, 부트캠프와 학원들이 넘쳐나고 있는 상황이지만, 입문자들에게 꾸준히, 반복적으로 추천되고 있는 공부 방법이 하나 있습니다.

바로 Kaggle(캐글)을 시작하라는 것인데요.

 

관련 분야 공부를 해보신 분들이라면, 타이타닉 데이터 한번 안 만져 보신 분들은 없을 것입니다. 특히 타이타닉 데이터 셋은 입문자를 대상으로 하는 단기 강연에서 많이 등장하는 데이터이기도 합니다. 구관이 명관이다 라는 말이 있을 정도로, 타이타닉 데이터는 입문자에게 많은 경험을 선사하곤 합니다. 흔하디 흔한 Binary Classification 문제이지만, 단순히 좋은 모델을 써서 성능을 높이기 보단, 어떻게 피쳐 엔지니어링을 해야 성능을 올릴 수 있을지 많은 고민을 하도록 만들기 때문인데요.

 

이처럼, 타이타닉 문제를 시작으로 캐글에는 굉장히 다양한 연습 문제들과, 실제 컴패티션들이 올라와 있습니다. 또한, 영어가 부담되는 분들이라면 훨씬 더 부담없이 입문할 수 있는 국내 플랫폼, 데이콘도 지속적으로 다양한 컴패티션을 운영 중에 있습니다. 결국, 캐글이든 데이콘이든, 일단 입문해서 컴패티션을 경험해보신다면, 관련 분야 학습에 많은 도움이 될 것입니다.

 

초반부의 Python 문법 파트는, Python의 주요 문법과 Numpy, Pandas를 사용해보면서 빠르게 진행됩니다. 이후 시각화 라이브러리를 사용하는 부분까지 지나면, 바로 머신러닝 파트가 시작되는데요.

머신러닝은 굉장히 방대한 양을 담고 있는 키워드이지만, 본 도서는 딱 캐글 컴패티션에 필요한 정도로만 담고 있습니다. 지도/비지도 학습의 개념과 회귀, 결정트리, 앙상블, 배깅, 랜덤 포레스트, 부스팅, 스태킹과 블랜딩까지, 딱 이 만큼만 설명합니다.

 

이후에는 Kaggle의 튜토리얼 급의 간단한 실습으로, 주택 가격 예측과 실제 재난 뉴스 판별, 두 가지 실습을 진행합니다.

다음 파트에서는, 사실상 Kaggle에서 가장 많이 사용되는 알고리즘인 XGBoost, LGBM, CatBoost를 살펴본 후, 뉴욕 택시 요금 예측, 샌프란시스코 범죄 분류의 두 가지 실습을 진행합니다.

 

개인적으로 좋았던 부분은, 지금까지 살펴봤듯이 Kaggle 컴패티션에 필요한 지식만을 다루고 있다는 점입니다. 너도 나도 Python을 배우는 시대이다보니, 사실 서두에서 불필요하게 Python의 문법 비중을 크게 가지고 간다는 점에서 조금 아쉬움도 있었지만, 적어도 뒤쪽에서는 군더더기가 크게 없이, 바로 Kaggle에 입문해볼 수 있을 정도의 가이드라인을 제시하고 있습니다.

또, 정말 기초 실습만 진행하는 것이 아닌, 바로 컴패티션에 참여해볼 수 있을 정도로 XGB, LGBM, CatBoost를 익히는 것도 좋았습니다.

 

마지막 챕터 4에서는 Kaggle 참여 이후, 취업을 위해 무엇을 준비해야 할지도 가볍게 가이드 해주고 있는데요.

자격증, 면접, Github, 기술 블로그를 큰 키워드로 가져가고 있습니다.

 

국내에도 비교적 Kaggle, 데이터 컴패티션을 다루는 책이 꽤나 출간 되었지만, '비전공자'가 정말로 'Kaggle'에 입문할 수 있는 단 한 권의 도서는 없었던 것 같습니다. 입문자를 위한 도서를 표방하며 너무 내용이 단순하거나, 이미 Kaggle에 능숙하게 참여중인 이들을 위한 심화 교재인 경우가 많았기 때문인데요. 

이런 문제들로 인해 지금까지 Kaggle 입문에 번번히 실패하셨던 입문자, 비전공자 분들이라면 한번 살펴보시길 강력히 추천드립니다!

 

 

 

본 리뷰는 출판사 비제이퍼블릭의 도서 리뷰 이벤트의 일환으로, 무상으로 도서를 증정 받고 작성된 리뷰임을 고지합니다.

반응형