본문으로 바로가기
반응형

 

지금으로부터 불과 몇년 전에, 초판 번역서였던 이 책을 접한 기억이 납니다. 지금은 상대적으로 딥러닝 분야가 크게 발전하며 관련 분야에 관심을 가지는 분들이 훨씬 많아졌지만, 당시만 하더라도 scikit-learn을 필두로 하여, ML이 큰 위세를 떨쳤던 것으로 기억합니다.

 

역자이신 박해선 님께서는 scikit-learn 정식 1.0 버전이 릴리즈 되고, 여기에 맞추어 코드와 전체적 내용을 업데이트 했다고 합니다. 또한, 모든 코드는 구글 코랩에서 실행 가능하도록 변경 되었다고 하는데요. 아무래도 일부 학습 과정에서 로컬 PC로 다소 시간이 많이 소요되는 경우가 있다보니, 반갑지 않을 수 없는 변화입니다.

 

지난 초판을 접할 때만 하더라도 아무것도 모르던 학부생이였던 제가, 인공지능대학원에 진학해서 개정2판을 보고 있으니 여러모로 감회가 새롭습니다. 모쪼록, 책의 내용을 좀 더 살펴보도록 하겠습니다.

 

 

아무래도 최신 데이터과학 서적들은 딥러닝에 초점을 맞춘 책들이 꽤 많습니다. ML 기법은 여러 통계학 기법에서 시작하여 발전된 기술들이 많고, 그 기저의 내용들은 크게 변화되지 않았기 때문인데요. 반면에 딥러닝은 계속해서 신기술이 나오고, 또 나오다보니, 지난 기초 서적들도 Transformer와 Self-Attention과 같은 내용을 탑재시킨 개정판을 내는 경우가 종종 보이곤 합니다. 당연히 새로운 신간도 계속해서 출간되고 있습니다.

 

그럼에도, 이 책이 가지는 특징과 장점은 뚜렷합니다. 

여전히 머신러닝은 많은 분야에서 유효하고, 많은 장점을 가진 기술입니다. 딥러닝의 경우 많은 분야에서 굉장한 성능을 내고 있지만, 그만큼 학습이 오래 걸리거나, 과도하게 많은 자원을 요하는 경우가 많습니다. 또, 실제로 풀어야 하는 문제의 종류에 따라서, 머신러닝으로 훨씬 더 쉽고 간결하게 해결 할 수 있는 경우도 많습니다.

 

예를 들어, 3장의 비지도 학습 파트에서 실습하는 DBSCAN을 이용한 얼굴 데이터셋 군집화의 경우, 아마도 딥러닝을 적용하면 얼굴 데이터의 Feature를 더욱 효과적으로 추출하고, 학습할 수 있을 것입니다. 하지만, 실습에서 DBSCAN으로 군집화 해낸 몇몇 카테고리 (웃는 여성, 옆모습 등)를 확인하거나, 데이터셋의 전반적인 추이를 확인하는 정도의 작업만 필요한 상황이었다면, 굳이 CNN 등을 적용하여 얼굴 데이터 셋의 Feature를 학습할 이유는 없을 것입니다.

 

게다가, 많은 경우, 머신러닝의 방법론과 딥러닝의 방법론은 서로 유기적으로 연결되어 있는 경우가 많아, 하나의 학습과 경험이 결국 다른 쪽의 학습에도 영향을 주게 됩니다. 

 

특히 이 책의 경우, 더 뚜렷한 장점이 있는데요. 

매번 쓰는 MNIST 같은 학습용 데이터만 사용해서 실습을 해보는 것이 아닌, 좀 더 다양한 데이터를 통해 다양한 상황에서의 실습을 진행할 수 있습니다. 또한, 실습에 사용하는 코드의 설명이 상세하고 친절합니다. 일단 코드를 쭉 나열하고, 실습해봅시다, 정도로 끝나는 것이 아닌, 단계별로 나누어져서 실습을 진행할 수 있는 구조인데요. 덕분에 잘 설계된 일련의 교과 과정 속에서 머신러닝을 배우는 것과 같은 느낌을 받을 수 있었습니다.

 

시각화 또한 비교적 충실하게 실습을 진행하는 경우가 많습니다. 저도 따라해보면서, 이런 식으로도 데이터를 나타낼 수 있구나... 하면서 많이 배우게 되었는데요. 하나하나 세심하게 실습 과정을 따라하다보면, 책의 메인 콘텐츠 이외로도 유용한 스킬들을 많이 습득하실 수 있을 것입니다.

 

많은 경우, ML/DL 학습자 분들은 이미 한 두권 이상의 책을 보았거나, 강의를 통해 기본적인 학습을 진행하셨을 것입니다. 기초 ML 학습 단계에서 한 계단 더 도약하기 위해, 심화된 도서를 찾으신다면, 본 도서가 분명히 많은 도움이 될 것입니다. 

 

 

 

본 리뷰는 한빛미디어의 도서 서평단 <나는 리뷰어다 2022> 프로그램의 일환으로, 무상으로 도서를 증정 받고 작성된 리뷰임을 고지합니다. 

반응형