본문으로 바로가기
반응형

오늘은 삼성 SDS의 Brightics Studio 설치와 기본 사용법에 대해 알아보도록 하겠습니다.

지난 시간에는 Brightics AI 서비스의 Trial 버전을 이용하여, 간단한 사용법을 알아보았는데요, 그렇다면 Brightics AI와 Studio의 차이는 무엇일까요?


Brightics Studio는 Brightics AI의 오픈소스 버전으로, 무료로 제공되고 있습니다.

Brightics는 Studio 외에도 더 많은 기능을 제공하는 버전이 존재하는데요.

Brightics Enterprise 플랜은 분산처리, 인메모리 기술, R과 Python 등의 모든 기술이 포함된 분석툴이며, 여기서 분산처리 및 인메모리 기술이 제외된 것이 Brightics Standard 플랜, 그리고 협업 기능과 관리자 기능이 추가로 제외된 것이 바로 Brightics Studio입니다.

즉, Brightics Studio는 오픈소스이므로 모든 사용자에게 개방되어 있으며, 무료로 제한없이 이용이 가능합니다. 



Brightics Studio는 기본적으로 Local Server에서 실행시킨 상태로, 웹 브라우저를 통해 이용하게 됩니다.

현재 Brightics Studio는 Windows, Mac OS, Linux를 지원하는데요. 현재 제가 이용하고 있는 운영체제는 Mac OS이므로, Mac OS 기준으로 간단히 설치 방법에 대해 알아보도록 하겠습니다

환경은 Mac OS Catalina 10.15.5 / zsh shell 입니다.


https://www.brightics.ai/kr/downloads

먼저 위 링크를 통해 Brightics Studio 다운로드 페이지에 접근한 후 로그인, 아이디가 없다면 가입하여 로그인합니다.



로그인 후에 본인의 OS 버전에 맞는 파일을 다운받으면 되는데요.

우측의 Brightics AI의 경우, 오로지 Linux 64bit만 지원한다는 것을 알 수 있으며,

마찬가지로 Brightics Studio의 경우에도 64bit 운영체제만 지원하고 있습니다. 즉, Brightics Studio 이용이 가능한 Windows7 or 10, Sierra 이상의 Mac OS, Linux 운영체제라고 하더라도, 32bit 운영체제를 이용하고 있을 경우 설치 및 이용이 불가능합니다.


Brightics에 속하는 플랫폼 간의 서비스 Import가 원활히(공유/호환이 원활히 되도록 되도록) 하기 위해서, 관련 모듈 중 64bit만 지원하는 부분이 있어 어쩔 수 없이 32bit 운영체제를 지원하지 않게 되었다고 하는데요. 사실 볼륨이 큰 빅데이터를 다룰 일이 종종 있는 데이터분석 분야에서는 어지간하면 64bit 운영체제를 사용하는 것이 바람직하므로, 32bit 운영체제 이용중이라면 OS를 다시 설치하는 것이 좋을 것 같습니다.

Mac OS에서 Brightics Studio를 설치하기 위해선, Terminal을 실행시켜 다운받은 설치파일이 존재하는 경로까지 이동해주어야 합니다. 

만약 터미널 사용에 익숙하지 않다면, 파일을 Downloads(다운로드) 폴더에 다운받은 후,  터미널에서 다음 코드를 입력해줍시다.



$ cd ~
$ cd downloads

위 명령어로 downloads 폴더까지 이동했다면, 아래 이미지와 같은 코드를 쳐주면 됩니다.


$ sh 파일명.sh

현재 v1.1-2020.06 버전까지 나온 상태이므로, 파일명이 아래와 같은데요. 따라서 설치 명령어는 다음과 같습니다.

$ sh BrighticsStudio-v1.1-2020.06-macosx.sh



잠시 후, 위 이미지와 같은 화면이 뜨면 설치가 모두 끝난 것입니다. 

맨 아래에 Starting Brightics Studio... 메시지가 떠 있는데요. 이미 로컬 서버에 Brightics Studio가 실행중인 것입니다.

Brightics Studio 이용을 위해선 웹 브라우저(Tutorial에 따르면 구글 크롬 브라우저 추천)에 

http://127.0.0.1:3000/

을 입력해주면 됩니다.


서버 종료를 위해선 Control+C를 통해 keyboard interrupt를 입력해주거나, 터미널을 종료하면 됩니다.

추후 Brightics Studio 서버를 다시 구동하기 위해선, Brightics Studio가 설치된 경로(앞선 예에선 Downloads 폴더에 설치파일을 받은 후 설치했으므로, 해당 경로에 존재)인 brightics-studio에 터미널로 접근한 후, 아래 명령어를 사용하면 됩니다.


$ sh start-brightics.sh




이제 본격적으로 Brightics Studio를 살펴보겠습니다. 앞선 포스팅의 Brightics AI 사용기에서 봤던 모습과 같이, 외관은 큰 차이가 없습니다. 그럼, Models 메뉴를 통해 Model을 새로 생성해보도록 하겠습니다.


모델의 이름은 new_model-1로, Template은 Default로 적용했습니다.

Template에는 제법 많은 것이 들어있는데, 연습용으로 살펴보기에 아주 좋은 것 같습니다.



Template이 적용되지 않은 빈 모델을 생성했으므로, 전부 비어있습니다. 한 칸을 임의로 더블클릭해서 함수를 추가해주겠습니다.

데이터를 로드시켜야 하므로, Load 함수를 추가해줍니다.



Add 버튼을 누른 후, Local 버튼을 눌러서 본인의 컴퓨터에 다운받은 데이터를 Load 할 수 있습니다.



예시 데이터로, 데이터 사이언스 입문의 교과서 같은 데이터, Titanic 생존자 데이터 셋을 사용하겠습니다.

해당 데이터는 Kaggle에서 다운 받을 수 있습니다.



Load하는 Data 파일의 데이터 구분 형식을 정해줍니다. CSV 파일이라면 일반적으로 Comma를 선택해주는 경우가 많습니다.



마지막 화면입니다. 여기서 load할 column을 선택하고, 데이터의 Type을 변경해줄 수도 있습니다.

Tutorial에선, 보통 숫자 형태는 Double, 문자 또는 문자열 형태는 String으로 설정하는 것을 추천하고 있습니다.





Titanic 데이터 셋(그리고 경진대회)은 주어진 여러 변수(성별, 나이, 가족, 티켓 등급, 티켓 가격, 탑승지 등)를 토대로, 예측 모델을 모델링하여 Test 데이터 셋 내의 생존자의 생존 여부를 예측하고, 모델을 평가하며 더욱 많은 수의 생존자를 예측하는 것을 목표로 합니다. 

위 예시에선 Sex(성별)을 시각화하였습니다. 먼저 좌측의 Pie 그래프는 Color By 값을 Sex, Size By 값을 Sum(survived)로 설정하였습니다. survived는 0과 1, 두개로 구분되는 변수로, 0은 사망, 1은 생존을 나타냅니다. 따라서, Sum 함수를 적용하여 전부 더해주면 생존자 수를 알 수 있는데요.

우측의 그래프는 단순히 Color By만 Sex로 설정하여 전체 인구 중 성별별 비중을 나타내어 줍니다. 따라서 위 시각화를 토대로 알 수 있는 사실은, Titanic의 전체 탑승자 중 남성의 비율이 절반 이상이지만, 전체 탑승자 중에서 생존한 이들의 절반 이상은 여성이라는 것입니다.

이처럼 Brightics Studio는 무척 간단한 조작을 통해 Chart 시각화를 하는 것이 가능합니다.



다음으로, Statistic Summary 함수를 사용하여 Load 함수에 연결한 후, Run 시켰습니다. 이를 통해 요약된 기술통계량 값을 볼 수 있는데요. 사용된 column은 Survived, Pclass, Age, Fare입니다. 

우측의 요약 통계량 Table을 통해, 생존자의 비율은 0.38%며, 나이는 평균 29세, 탑승객 중 최고령자는 80세, 나이의 중앙값은 28세, 티켓 요금(Fare)는 최대 512, 평균은 32, 중앙값은 14, 등의 사실을 알 수 있습니다.


이처럼 Brightics Studio의 설치부터 간단한 시각화, 통계량 분석 등을 시도해보았습니다. 

지금은 기초적인 단계라서 비교적 쉬운 내용이 많이 등장하지만, Brightics Studio가 담고 있는 기술은 굉장히 다양합니다. 앞으로 얼마나 더 많은 것들을 소개시켜 드릴 수 있을지 기대가 됩니다. 그럼 다음 포스팅에서 뵙겠습니다.

읽어주셔서 감사합니다! 


 본 포스팅은 2020년 삼성SDS Brightics 서포터즈 1기 활동의 일환으로 작성된 포스팅입니다. 

반응형