본문으로 바로가기
반응형

2020년 삼성 SDS의 Brightics 서포터즈 1기로 선발되어, 앞으로 Brightics에 대해 다양한 포스팅을 할 예정입니다!

부족하지만, 질 높은 포스팅이 될 수 있도록 많은 노력을 기울여보려 합니다 :)


데이터 사이언스, 머신러닝, 딥러닝 등, Data에 대한 지식과 더불어, 데이터를 다루고 활용할 수 있는 능력에 대한 필요성이 날로 커져가고 있습니다.

워낙 유망하고 흥미로운 분야인 탓에, 관련 진로를 택하는 학생들 역시 많아지고 있다고 하는데요. 사실 이와 관련된 진로로 나아가거나, 학업을 이어나갈 분들이 아니더라도 데이터를 다루는 능력을 키우는 것은 굉장히 중요합니다. 


이미 많은 대학들이 신입생 필수 교육과정으로 프로그래밍, 통계 관련 과목을 추가하거나, 관련 학과를 개설하는 등 구성원의 능력 함양을 위해 다양한 노력을 기울이고 있는데요.

사실 전공자나, 개발 및 코딩 경험이 충분한 사람이 아니라면 상당히 고생을 할 수도 있습니다. 특히, 데이터 분석을 비롯해 데이터 사이언스와 관련된 분야 또한 마찬가지인데요. Python과 Python Library인 Pandas, Numpy, Scikit Learn... R과 dplyr, ggplot 등... 수학 및 통계학적 지식 뿐만 아니라, 분석 도구를 사용하는 것 역시 많은 공부가 필요합니다. 본인이 이미 어느정도 통계적인 지식을 가지고 있다고 하더라도, 실제 분석을 시행하기 위해선 관련 툴을 다루기 위한 연습까지 필요한 것인데요.

과거엔 비교적 난이도가 높지 않은 SPSS, SAS 등의 도구가 많이 사용되었지만, 최근에는 오픈소스이자 프로그래밍 언어로 분류되는 Python, R이 대부분의 파이를 차지하고 있습니다. 따라서, 관련 분야에 입문하고자 하는 분들과, 당장 분석 결과물이 필요한 분들에게 데이터 분석이란 상당히 진입장벽이 높게 느껴지는 분야일 수도 있습니다. 이 부분에서, 삼성 SDS가 굉장한 솔루션을 내놓았습니다. 바로 삼성 SDS의 Brightics AI 플랫폼인데요. Brightics AI 플랫폼이란 데이터를 수집 및 처리, 시각화 등을 쉽게 할 수 있을 뿐만 아니라, 모델링과 협업 및 관리 등 다양한 서비스를 제공하는 통합 플랫폼입니다. 기업용으로 비즈니스 플랜을 제공할 뿐만 아니라, 오픈소스로 별 다른 비용 지불 없이 이용가능한 Brightics Studio를 제공하고 있기도 한데요.


오늘은 Brightics AI의 Trial 버전에 대해 간단히 알아보고자 합니다.



https://www.samsungsds.com

Brightics AI는 Trial 버전으로 일정기간 무료 체험 사용이 가능합니다. 위 링크를 통해 삼성 SDS의 웹사이트로 접속한 후, 우측 상단의 My Trial BETA 버튼을 눌러 가입한 후, Trial 신청을 누르면 이용할 수 있는 권한이 부여되는데요. 이후로 로그인 한 후 웹사이트 상에서 이용을 하면 됩니다.



신청이 완료되면 알림 메시지 창에서 "무료 신청이 완료되었습니다." 란 메시지를 볼 수 있으며, 아래 "솔루션 실행" 버튼을 통해 Brightics AI를 이용할 수 있습니다. 현재 해당 서비스는 총 60일의 무료 체험 기간이 주어지므로, 기간 내에 관련 튜토리얼 등을 잘 살펴보고 실습하여 빠르게 사용해보시는 것이 좋을 것 같습니다.



솔루션 실행 버튼을 통해 서비스에 접속하면 위와 같은 화면을 만나볼 수 있는데요. 여기서 기존 템플릿을 Import하여 사용하거나, Tutorial을 오픈하거나, 새로운 프로젝트를 만드는 등의 작업을 할 수 있습니다. 오늘은 Trial 버전의 간단한 체험을 위해, Brightics Studio에서도 동일하게 가능한 간단한 분석 작업을 체험해보도록 하겠습니다.



먼저 Create Project 버튼을 통해 새로운 프로젝트를 하나 만들어줍니다.

저는 'new_project-1'이란 이름의 프로젝트를 생성했습니다. 이어서, 화면 우측 하단의 "+" 버튼을 눌러 Service를 추가합니다.



화면에 나온 것처럼, 총 5개의 서비스가 제공되고 있습니다. 다음 시간에 살펴볼 Brightics Studio에서도 살펴볼, Workflow Modeler를 선택하여 작업을 진행하도록 하겠습니다.

Workflow Modeler를 선택하면 나오는 Create New Model 창입니다. 빠르게 관련 기능을 살펴보기 위해, 이미 Workflow Model이 생성되어 있는 샘플인 Iris 템플릿을 선택한 후, OK를 눌러 생성해보도록 하겠습니다.


잠깐 Iris 템플릿을 설명 드리겠습니다. Iris 템플릿은 데이터 과학 분야에서 흔히 샘플 데이터(교육, 연습용 등)로 사용되는 Iris(붓꽃) 데이터를 기반으로 만들어진 샘플 템플릿입니다. Iris 자체가 교육용, 튜토리얼용 등으로 널리 쓰이는 만큼, 당연히 Brightics AI에서도 이 데이터를 기본적으로 탑재하고 있는데요. 

Iris 데이터셋은 setosa, versicolor, virginica의 3종류 꽃에 대한 데이터가 들어있고, 여기에 각각 Sepal Length(꽃받침 길이), Sepal Width(꽃받침 너비), Petal Length(꽃잎 길이), Petal Width(꽃잎 너비)에 관한 정보가 함께 포함되어 있습니다.



Iris 템플릿이 로드된 화면입니다. Workflow 형태로 여러개의 Function이 화면에 들어있음을 알 수 있는데요.

흐름은 좌측에서 우측으로 나아가는 형태이며, 화살표로 이어진 부분이 다음에 계속해서 실행될 함수를 나타냅니다.


예컨대, 맨 좌측의 Load 함수는 말 그대로, 데이터를 읽어오는 함수입니다. Load 함수에서 분기된 두 개의 함수는 각각 데이터의 기본적인 통계량을 요약하여 보여주는 Statistic Summary 함수, 데이터를 사용자가 설정하는 특정 조건(Condition)에 따라 필터링하여, 특정 값만 추출하는 Filter 함수입니다.


각 함수를 클릭하면 함수 내부의 Parameter를 세팅하거나, 함수 실행 결과를 볼 수 있습니다.



Load 함수를 클릭해보았습니다. 위와 같은 창이 뜨게 되는데요.

기본적으로 Load 함수는 Table 시각화가 default 설정으로, 함수 실행시 로드된 데이터를 테이블 형태로 보여줍니다. 저는 Scatter Plot 형태로 시각화해보기 위해, 해당 기능을 클릭 후 좌측 하단의 Run 버튼을 눌러 함수를 실행했습니다.



Load 함수를 통해 Iris 데이터 셋이 로드 되었지만, Scatter Plot은 시각화되지 않았는데요. 화면 정중앙의 에러메시지를 확인하면 X축과 Y축의 Column이 필요하다고 나타나는 것을 볼 수 있습니다. 즉, Iris 데이터 셋의 여러 columns(SepalLength, SepalWidth, PetalLength 등...) 중에서 어떤 column을 축으로 잡을지 정하지 않아서, 시각화가 불가능한 것입니다. 

Scatter Plot에 나타낼 column을 지정하기 위해 화면 우측의 Chart Settings 버튼을 누릅니다.



이어서, Settings 창이 뜨면 X축과 Y축에 각각 column을 지정합니다. 저는 X축에 SepalLength, Y축에 SepalWidth column을 지정하겠습니다.



마지막으로, 붓꽃의 종별(Species)로 한번 더 분류하여 시각화하기 위해 Color By 값을 추가해줍니다. Species를 column으로 선택해줍니다.



모든 선택 작업이 끝나면 아마도 위 화면과 같은 Scatter Plot을 보실 수 있을 것입니다.

노란색 : Setosa, 민트색 : Versicolor, 보라색 : Virginica로 분류되었으며, 각 데이터마다 Sepal Length X축, Sepal Width Y축 기준으로 plot 형태 시각화가 이루어졌습니다. 이처럼 Brightics AI는 매우 간단한 조작으로 다양한 시각화를 적용할 수 있고, Parameter 조절 또한 간편합니다. 만약 Python, R을 사용했다면, 이런 단순한 시각화 작업에도 이미 여러 Library를 Import하고, 코드를 짜야 했을텐데요. Brightics의 효율성이 느껴지는 부분입니다.



남은 함수를 간단히 살펴보았습니다. 결국 이 Workflow Model의 흐름은 다음과 같습니다.

Iris 데이터 셋을 load하여 Statistic Summary 함수로 간략히 통계량을 살펴본 후, Filter 함수를 통해 Iris(붓꽃)의 여러 종(Species) 중에서 setosa 종만 추출하고, 각각 Train(모델 학습용 데이터), Test(모델 검증용(평가용) 데이터) 데이터로 사용하기 위해 70:30의 비율로 데이터를 나눠 줍니다. 이후 Linear Regression 함수를 통해 선형 회귀 모델을 만들고, Linear Regression Predict 함수를 통해 해당 모델을 바탕으로 한 예측 모델을 만든 후에, Evaluate Regression 함수를 이용해 남은 30%의 Test 데이터를 바탕으로 해당 예측 모델의 정확도가 얼마나 되는지 평가합니다.


실제로 Brightics AI는 위에서 살펴본 함수 외에도 무수히 다양한 함수가 존재하는데요. 데이터 분석에 필요한 각종 도구의 상당수는 이미 준비되어 있으며, 사용자는 Workflow Modeler를 이용해 약간의 마우스&키보드 Input만으로 많은 작업을 쉽고 빠르게 진행할 수 있습니다. 즉, 어마어마한 효율성을 가진 도구인 것입니다.

전문성을 지닌, 혹은 전문성을 지니고자 하는 분들에게 Brightics의 편리함은 오히려 독이 되지 않을까 하는 걱정을 들게 만들 수 있지만, 결국 Brightics의 막강한 강점 중 하나는 작업에 들어가는 비효율적인 시간소모를 줄여준다는 것입니다. 특히 Brightics를 각종 데이터분석 경진대회에 적용한다면, 초기에 쉽고 빠르게 데이터를 다양한 방법으로 시각화해보고, 살펴보고, 어떤 모델을 적용하는 것이 효율적일지 알아내기에 좋을 것 같다는 생각이 드는데요. 앞으로 Brightics를 다양한 곳에 사용해 볼 생각을 하니, 벌써부터 가슴이 뛰는 것 같습니다.


이번 시간에는 Brightics AI를 웹으로 간단히 이용해 볼 수 있는, Trial 체험기를 보여드렸습니다. 다음 시간에는 좀 더 본격적인, Brightics Studio 체험 및 사용기와 함께 다시 돌아오겠습니다.

읽어주셔서 감사합니다!



본 포스팅은 2020년 삼성SDS Brightics 서포터즈 1기 활동의 일환으로 작성된 포스팅입니다.

반응형