본문 바로가기

728x90

DevOps./머신러닝·딥러닝

(3)

'데이터 랭글링' 및 '탐구 데이터 분석' 따라잡기 초보 데이터 사이언티스트는 데이터를 위한 적절한 모델만 찾아 적용하면 된다는 생각을 할 때가 있다. 애석하게도 이보다 더 데이터 사이언스의 현실과 동떨어진 것도 드물 것이다. 사실, 데이터 랭글링(Data Wrangling, 소위 말하는 데이터 정제 및 변경)과 탐구 데이터 분석(exploratory data analysis)은 데이터 사이언티스트가 소요하는 시간의 80%를 차지하는 경우가 많다. 데이터 랭글링과 탐구 데이터 분석의 개념은 쉽다. 단 제대로 하기가 어려울 수 있다. 정제되지 않거나 잘못 정제된 데이터는 쓰레기이며, GIGO 원리(garbage in, garbage out)는 모델링과 분석에도 적용된다. 데이터 랭글링이란? 데이터가 곧바로 사용 가능한 형태로 나오는 경우는 드물다. 오류와 ..

'머신러닝 파이프라인'의 이해 | 데이터 넣으면 인텔리전스 반환 머신러닝(Machine Learning)을 보면 마술 상자가 생각난다. 데이터를 집어넣으면 예측이 나온다. 하지만 머신러닝에 마술은 없다. 데이터와 알고리즘, 그리고 알고리즘을 통해 데이터를 처리함으로써 만들어지는 모델이 있을 뿐이다. 머신러닝을 통해 데이터에서 실체적 인사이트를 도출하는 일을 하는 사람에게는 이 프로세스가 블랙박스처럼 느껴져서는 안 된다. 상자 내부에 대해 잘 이해할수록 데이터가 예측으로 변환되는 과정의 각 단계를 더 정확히 이해할 수 있고 예측이 갖는 힘은 더 강력해진다. 데브옵스 분야에는 소스 코드에서 배포에 이르기까지 소프트웨어의 진행 과정을 설명하는 “빌드 파이프라인”이란 것이 있다. 개발자에게 코드 파이프라인이 있다면, 데이터 과학자에게는 머신러닝 솔루션을 통해 흐르는 데이터 ..

'ChatGPT'란 무엇인가? | 자연어에 특화된 첨단 인공지능 모델 2023년이 막 시작됐지만, IT 업계에는 이미 ‘스타’가 등장했다. 바로 ChatGPT이다. 대학과 각급 학교는 이미 ChatGPT를 금지했는데, 학생의 창의성과 개인 성취를 저해할 우려가 있기 때문이다. 하지만 ChatGPT와 이를 개발하는 오픈AI는 투자자의 상상력을 자극하기에 충분하다. 마이크로소프트는 오픈AI에 100억 달러를 투자하겠다고 했으며, 벤처 캐피탈인 쓰라이브 캐피탈과 파운더스 펀드도 3억 달러 규모의 지분에 관심을 보였다. 두 벤처 캐피탈은 이미 에어비앤비, 스포티파이, 리프트 등에 투자한 곳이다. 하지만 과연 ChatGPT란 무엇인가? CNET에서 사용하고 있는 편집자 보조 AI 같은 것인가? 아니면 값비싼 과외교사를 대신할 현대적인 숙제 도우미일 뿐인가? 아니면 고객 서비스를 자..

이전 1 다음

728x90

LIST

티스토리툴바