안녕하세요, 데이터 분석가 김민주입니다. 데이터 분석가로 취업 준비하는 분들 이야기를 들어보면 프로젝트와 관련해 고민하고 계신 분들이 많으시더라고요.
“포트폴리오 작성 팁이 있을까요? 나름대로 써보고 있는데 이게 잘 쓴건지 확신이 안듭니다.”
“데이터 분석 포트폴리오를 만들어야 하는데 분석 결과를 어떻게 보여줘야 할지 막막해요.”
“개인 프로젝트를 해보고 있는데 막히는 부분이 너무 많아요.”
여러분도 이런 고민을 하고 계신가요? 세미나를 신청할 때 사전 질문을 받고 있는데요. 거기에도 많은 분들이 프로젝트 관련한 질문을 자주 보내주세요. 예전을 떠올려보니 저도 취업 준비할 당시에는 프로젝트가 참 어려웠더라고요. 정답이 있지는 않겠지만, 데이터 분석가로 일하면서 실무 프로젝트를 해보면서 알게 된 것들, 그리고 SQL 데이터 분석 캠프에서 프로젝트 피드백을 하면서 알게 된 것들을 모아, 어떻게 하면 프로젝트를 잘 할 수 있을지 이야기해 보려고 합니다.
데이터 분석 프로젝트가 어려운 이유
데이터 분석 프로젝트가 왜 이렇게 어려운지 알려면 데이터 분석 프로젝트를 진행하는 순서를 먼저 이야기해 봐야 합니다. 가장 먼저 데이터 분석을 하기 위한 데이터를 찾고, 이 프로젝트에서 풀고 싶은 문제가 무엇인지 정의하고, 데이터를 통해 문제의 원인을 찾고 분석하고, 분석한 결과를 정리해서 보고서와 같은 형태로 보여주게 됩니다.
데이터 분석 프로젝트를 진행하는 순서
- 데이터 찾기
- 문제 정의하기
- 분석하기
- 보고서 쓰기
실무에서의 데이터 분석 프로젝트는 오히려 쉬워요. 대부분의 경우 데이터가 주어져 있고 문제도 주어집니다. 그럼 분석해서 답을 내기만 하면 됩니다. 물론 이것도 쉬운 일은 아니지만, 앞의 두 단계가 사라졌죠.
‘실무에서’ 데이터 분석 프로젝트를 진행하는 순서
데이터 찾기
문제 정의하기
- 분석하기
- 보고서 쓰기
하지만 취업 준비를 하는 분들이 프로젝트를 하려고 하면, 데이터부터 찾아야 하고, 어떤 문제를 풀지도 스스로 정해야 합니다. 안타깝게도 데이터를 찾고 문제를 정의하는 게 분석해서 답을 내는 것보다 훨씬 더 어려운 부분이에요.
무료 데이터를 찾을 수 있는 웹사이트 5개
데이터 분석 프로젝트를 할 때 가장 먼저 하게 되는 데이터 찾기부터 이야기해 보겠습니다. 이것부터 쉽지가 않죠. 많은 분들이 데이터는 어디서 구하나요? 이런 질문을 많이 주시는데요. 저도 취준생 때 똑같은 질문을 했던 기억이 납니다.
1. 캐글
- Kaggle: https://www.kaggle.com
데이터 분석 공부하는 분들이라면 캐글은 한번쯤 들어보셨을 것 같아요. 컴피티션에 참여해보는 분들도 많이 계실 텐데요. 캐글 홈페이지에서 Datasets 라는 메뉴에 들어가보시면 데이터 셋을 분야별로 정리해주고 있어서 찾기 쉽더라고요. 게임 데이터, 배달 데이터, e커머스 데이터, 개인 신용 평가 데이터 같은 금융 데이터 등 다양한 데이터가 있어요. 대부분 해외 데이터라는 게 특징입니다.
2. 공공 데이터
- 공공데이터포털: https://www.data.go.kr
- 서울 열린데이터 광장 https://data.seoul.go.kr
공공데이터포털, 서울 열린데이터 광장 같은 사이트에서도 교통, 관광, 기상, 법률 등 국내 다양한 분야의 데이터를 제공해주고 있습니다. 제가 취준하면서 프로젝트할 때 구했던 데이터도 캐글, 공공 데이터 정도였는데 지금 공부하시는 분들도 비슷한 것 같더라고요. 그외에도 공개된 데이터를 찾을 수 있는 곳들이 있습니다.
3. Mode
- Mode: https://mode.com
세 번째는 Mode라는 플랫폼입니다. 무료 SQL 연습문제도 제공해 주고 있고, 데이터 셋도 따로 제공해 주고 있습니다. 애플의 주식 가격 데이터, 기업의 인수합병 데이터, 자전거 대여 데이터, 항공사의 운행 데이터 등 무료로 사용가능한 다양한 데이터베이스를 제공해주고 있습니다. 무료 데이터의 종류나 갯수는 캐글이나 공공데이터에 비할 정도는 못 되지만, 자유롭게 SQL 쿼리를 사용해서 데이터를 추출해 볼 수 있다는 장점이 있습니다. SQL로 데이터 분석 프로젝트를 해보고 싶은 분들이라면 눈여겨 보실 만한 사이트예요.
4. solvesql
- solvesql: https://solvesql.com
다음으로는 solvesql 이 있어요. SQL 데이터 분석 캠프 수강생 분들은 익숙한 플랫폼일 것 같은데요. Mode와도 비슷합니다. SQL 무료 연습문제와 따릉이 이용현황, 이커머스, 데이터리안 웹사이트 GA 로그 등 다양한 데이터 셋을 제공해주고 있어요. 플레이그라운드가 있어서 공개된 데이터 셋으로 SQL 쿼리를 날려보실 수 있습니다. 대부분의 이런 플랫폼들이 해외 사이트라서 영문으로 되어있는데, solvesql은 한글 사이트라는 점이 큰 장점입니다.
5. 공모전
마지막으로 공모전입니다. ‘공모전에 나가서 수상할 실력이 안 돼요ㅠㅠ’ 하시는 분들이 많은데요. 꼭 수상을 하지 않더라도 공모전에 나가면 데이터를 제공받을 수 있어요. 그리고 그 데이터로 분석을 해보고 데이터 분석 포트폴리오를 만드는 건 완전 가능합니다. 제가 취준생 때 썼던 방법이기도 해요. 그때 김해시 화재 발생 데이터를 받아서 분석한 내용으로 포트폴리오를 만들었습니다. 공모전 수상은 못 했지만요. 공모전 데이터를 받아서 분석을 할 때 꼭 공모전에서 제공해 준 문제를 푸는 것뿐만 아니라 다른 방향으로 프로젝트를 진행해 보는 것도 포트폴리오를 만드는 한가지 방법이 될 수 있어요.
기업 데이터 요청하기
데이터를 찾는다고 하면 지금까지 이야기한 것처럼 보통 공개된 데이터를 다운받는 걸 떠올리실 텐데요. 기업에 직접 데이터를 요청하는 방법도 있습니다.
1. 기업에 직접 요청해서 데이터 받아오기
데이터리안 보민님, 혜정님이 진행하셨던 팀 프로젝트를 소개해 드립니다. 데이팅 서비스 글램에 데이터를 요청해서 당시 글램에서 풀고 있던 문제를 가지고 분석 프로젝트를 진행하셨어요. 당시 글램에서 프로필에 연락처를 기재한 불량 유저를 탐지하는데 어려움을 겪고 있었는데 이 문제를 함께 풀어보겠다고 데이터를 요청했고, 그 데이터를 받아서 프로젝트를 진행했습니다.
저도 이 얘기를 듣고 깜짝 놀랐던 기억이 나는데요. 기업에 직접 요청을 했다는 것도 놀랐지만, 흔쾌히 데이터를 제공해 줬다는 데서 더 놀랐어요. 너무 특이한 케이스인 거 아닌가요? 하실 수 있겠지만 이 팀 말고도 간혹 이렇게 기업에 데이터를 요청해 프로젝트를 진행하는 분들을 본 적이 있습니다.
2. 기업에 요청해 내 사용 내역 데이터 받아오기
불가능한 일이 아니라고 해도 직접 기업에 찾아가서 데이터를 요청하는 건 사실 누구나 쉽게 할 수 있는 일은 아닌 것 같아요. 저도 취준생 때는 상상도 못했던 일이었고요. 기업 데이터 전체를 활용하는 건 어렵지만, 내가 사용하고 있는 서비스에서 내 데이터를 요청하는 건 훨씬 쉽습니다. 스포티파이나 넷플릭스 같은 기업들은 요청 시 개인의 서비스 사용 데이터를 제공해 주는데요. 이런 데이터를 활용해서 데이터 분석 프로젝트를 해볼 수도 있습니다.
분석할 데이터 직접 만들기
마지막으로 데이터를 찾는 방법은, 분석할 데이터를 직접 만들기입니다. ‘데이터 찾는 방법 이야기한다더니 갑자기 데이터를 만들라고?🤷🏻♀️’ 하실 수도 있을 텐데요.ㅎㅎ 좋은 데이터를 찾는 게 어렵기 때문에 어쩌면 데이터를 만드는 게 더 쉬운(?) 방법일 수 있어요. 쉬운 방법이라고 말하는 건 논란의 여지가 있을 수 있겠지만 더 흥미로운 프로젝트가 된다는 건 제가 자신 있게 말씀드릴 수 있어요. 공개된 데이터가 그렇게 많지 않기 때문에 결과물도 어느 정도 비슷해질 수밖에 없는데, 직접 만든 데이터라면 세상에 하나뿐인 프로젝트가 되니까요. 단점도 분명히 있습니다. 데이터를 수집하는데 시간과 노력이 추가로 필요하기 때문에 공개된 데이터를 찾는 것보다 프로젝트를 하는데 시간과 노력이 더 많이 필요해요.
1. 한 땀 한 땀 수기로 수집하기
데이터를 만드는 방법도 여러 가지가 있을 수 있어요. 그중 첫 번째는 한 땀 한 땀 데이터를 수기로 수집하는 방법입니다. 크롤링을 한다거나 API를 사용하는 것처럼 멋있는 방법은 아니지만, 개인적으로는 이렇게 수기로 수집해서 진행한 프로젝트가 제일 재밌더라고요. 이런 데이터를 빅데이터와 비교해 ‘스몰 데이터’라고 부르기도 합니다. 저도 취준생 시절에 이런 프로젝트를 한 적이 있었는데요. <장트러블 극복을 위한 식습관 데이터 분석> 프로젝트였어요. 직접 식사 데이터, 배변 데이터를 엑셀에 기록해서 수집했고요. 수집한 데이터를 가지고 상관관계를 분석해 봤습니다.
스몰 데이터 프로젝트 중에 아주 유명한 프로젝트가 있는데요. 카카오 데이터 분석가 최규민님의 <강남 출근길에 정자/판교역 내릴 사람 예측하기>입니다. 좋은 프로젝트는 제목만 봐도 어떤 내용인지 예상이 되는 거라고 생각하는데, 이 프로젝트가 그런 면에서도 좋은 사례라고 생각해요. 최규민님이 강남역까지 출근하면서 지하철에 앉아서 가고 싶었던 거예요. 통근이라는 걸 해본 사람들이라면, 특히 경기도에 사시는 분들이 많이 공감하실 것 같은데요. 최규민님이 출근하면서 보니까 정자/판교역에서 앉지 못하면 강남역까지 서서 가야 했던 거예요. 그래서 정자/판교역에서 내리는 사람들이 어떤 사람들인지 관찰하면서 수기로 데이터를 수집하고 분석 프로젝트까지 하셨어요.
그리고 데이터리안 분석가 선미님이 2018년에 데이터야놀자 라는 컨퍼런스에서 발표하신 프로젝트도 가져와봤어요. “회사는 어떤 사람을 데이터 분석가로 채용하고 싶어하는 것일까?”라는 제목의 프로젝트입니다. 데이터 분석가 채용 공고를 하나하나 수기로 저장해서 분석하신 내용을 발표하셨어요.
2월 세미나의 2부 인터뷰이로 참여해주신 스마트오더 플랫폼 데이터 분석가 담라님도 수기로 수집한 데이터로 분석 프로젝트를 하셨는데요. 취업 준비를 하면서 지원하는 회사의 데이터를 볼 수 없으니 서비스 사용자들이 있는 곳으로 직접 가서 수기로 데이터를 수집하고 분석해서 제출하셨다고 해요. 이 얘기를 듣고 제가 채용 담당자여도 바로 뽑고 싶을 것 같다고 생각이 들더라고요.
수기 데이터 수집으로도 충분히 흥미롭고 퀄리티 높은 프로젝트를 만들 수 있습니다. 수기로 데이터를 수집한 데이터 분석 프로젝트는 어떻게 할 수 있는지 사례가 궁금하신 분들은 첨부해놓은 링크를 참고해 보세요.
2. 직접 프로덕트 만들어 데이터 수집하기
다음으로는 직접 프로덕트를 만들고 데이터를 쌓아서 분석해 보는 방법입니다. 실무에서 데이터를 쌓는 방법과도 가장 비슷합니다. 당연히 어렵지만, 프로덕트 기획부터 어떤 데이터가 필요할까 처음부터 끝까지를 경험해 볼 수 있다는 게 큰 장점입니다.
데이터 분석가 최승아님은 취업 준비 중에 간단한 심리테스트 사이트를 만들어서 GA를 붙이고 웹사이트 데이터를 직접 수집해서 분석까지 하셨는데요.
GA는 웹, 앱 데이터를 수집하고 분석할 수 있게 도와주는 사용자 행동 분석 도구입니다. 무료로 사용할 수 있고, 설치도 간단해서 전 세계에서 가장 많이 쓰이고 있어요. SQL이나 파이썬 같은 언어를 배울 필요가 없이 클릭만으로 데이터를 확인할 수 있다는 게 큰 장점입니다. 데이터 분석가뿐만 아니라 기획자나 마케터, UX 디자이너 같은 분들도 많이 사용하는 도구입니다. 구글 빅쿼리를 연결하면 GA 데이터를 SQL로 데이터를 추출해서 볼 수도 있습니다.
GA라는 툴을 사용해야 하기 때문에 설치도 필요하고, 툴에 익숙해지는 시간이 좀 걸리긴 할 거예요. 하지만 일단 웹사이트에 GA를 붙여놓으면 자동으로 데이터를 수집해줄 수 있기 때문에 수기로 데이터를 모으는 것보다 훨씬 간편합니다. 대신 트래픽이 많지 않다면 원하는 만큼, 분석을 할 만큼 데이터를 모으기까지 시간이 오래 걸릴 수 있어요.
3. 블로그 데이터 수집하기
직접 웹사이트를 만든다고 하는 게 말은 쉽지만 사실 개발을 하는 게 절대 쉬운 일이 아니거든요. 예시로 보여드린 최승아님 같은 경우는 개발자 팀원과 함께 팀으로 진행한 프로젝트였고요. 혹시나 노파심에 말씀드리자면 분석 프로젝트를 위해 개발을 배울 필요는 절대 없어요! 그렇다면 개발을 할 줄 모르고 개발자 팀원도 없으면 직접 프로덕트를 만들 수 없냐? 있습니다. GA는 꼭 웹사이트가 아니더라도 노션이나 티스토리 블로그 등에도 붙일 수 있습니다. 노션 페이지나 티스토리 블로그도 충분히 프로덕트가 될 수 있어요.
데이터리안 분석가 보민님은 노션으로 이력서 페이지를 만드셨는데요. 이 이력서 페이지가 어느 날부터 유명해져서 이직 제안도 받고 여러 가지 연락을 받게 되셨는데 이력서 페이지를 얼마나 많은 사람들이 보고 있는지, 또 들어온 사용자들이 어떻게 행동하는지 궁금해서 GA를 붙여 분석해 보는 프로젝트를 하셨어요.
GA를 웹사이트에 설치하면 데이터를 수집하는 과정부터 직접 경험해볼 수 있는데요. 수집 과정을 경험해 보고 나면 이 데이터가 무슨 의미인지, 데이터가 왜 이런 구조로 저장되는지 같은 걸 이해할 수 있기 때문에 분석에도 도움이 됩니다. 앞에서 이야기한 것처럼 GA가 실무에서 정말 많이 사용되는 툴이에요. 빅쿼리, 구글 서치콘솔 같은 다른 구글의 데이터 툴과 결합해 쓰게 되면 활용도도 높아지고요. 데이터리안에서는 GA4 데이터 분석 캠프를 운영하고 있는데요. GA4 캠프에서는 티스토리 블로그에 GA를 붙여서 데이터를 수집하고 분석해 보는 과정을 직접 실습해 보실 수 있어요.
이렇게 데이터를 찾았으니 다음 글(데이터 분석 프로젝트 이것만 알면 끝 (2) 문제 정의하기)에서는 프로젝트를 하기 위한 다음 단계, ‘문제 정의하기’에 대해 이야기 해보겠습니다.