안녕하세요! 데이터리안 커뮤니티의 윤선미입니다.
지난 <데이터리안이 일하는 법: 도구편>에서는 데이터리안 커뮤니티에서 사용하고 있는 협업툴들을 소개해봤어요.
- 슬랙을 주 커뮤니케이션 채널로 사용하는 이유
- 화상회의를 위해 Gather.town을 어떻게 활용하는지
- 멀티툴로서 구글 스프레드시트를 어떻게 사용하는지
- 문서 관리를 위해 노션이 꼭 필요한지
등 다양한 이야기들을 해봤는데요. 궁금하신 분들은 위에 링크를 타고 읽어주세요.
이번 시간에는 데이터리안에서 사용하는 데이터 도구들을 소개해보려고 합니다. 파이썬이나 SQL 같은 프로그래밍 언어가 아니라 상용툴을 위주로 설명해볼게요. 참고로... 의도하진 않았지만 모두 구글 제품이네요 👀
구글 스프레드시트
데이터를 정리하고 시각화하기에 구글 스프레드시트(엑셀도 포함)만한 도구는 없는 것 같습니다. SQL로 데이터를 추출하고, 스프레드시트에서 데이터 정리와 시각화를 하고, 거기에 해설을 덧붙이면 그 자체로 좋은 리포트가 됩니다. 아래 그림은 인프런이라는 플랫폼을 통해서 제공하고 있는 데이터 분석 강의 자료 캡처 화면입니다.
우리가 스프레드시트를 좋아하는 이유는 많지만 그 중 몇 가지를 꼽아 적어보겠습니다.
1. 사용하기 쉬운 올인원 제품
<데이터 분석, 이렇게 공부해볼까요?>에서도 얘기한 내용이지만 현실적으로 분석가가 다루는 데이터는 대부분 행과 열을 가진 2차원 테이블 모양입니다. 그러니까 이 테이블 모양 데이터를 다룰 수 있는 가장 직관적이고, 쉬운 프로그램만큼 좋은 툴이 없는거죠.
개인적으로는 SQL과 스프레드시트를 잘 다루는 것만으로 일반적인 분석 업무를 위한 툴 활용 능력은 충분하다고 생각합니다. 대학원을 다니고, 회사를 다니던 주니어 시절에는 저도 엑셀보다 멋있는 걸 하고 싶었어요. 하지만 이제는 압니다. 분석가의 진짜 멋은 분석 → 분석을 토대로 한 실험 → 성장 → 다시 분석의 사이클을 반복한 경험에서 우러나는 날카로운 통찰력이라는 것을요. 특정 툴을 선택할 때에는 멋을 기준으로 할게 아니라, '이게 호미로 할 일인가 가래로 할 일인가?' 생각해봐야 합니다. 그리고 저의 경험상 대부분의 일은 호미(스프레드시트) 로 충분합니다.
2. 동시 편집 가능 & 외부 공유 편리성
데이터 분석은 혼자서도 할 수 있지만, 적절한 피드백과 협업이 더해질 때 더욱 멋진 작업이 됩니다. 데이터리안에서는 데이터 분석 결과 뿐만 아니라 외부로 나가는 작은 글이라도 피어 리뷰를 받는데요. 그래서 사용하는 도구들의 동시 편집 기능이 중요합니다.
그리고 종종 분석 결과물들을 강의를 듣는 수강자 분들에게 또는 협업하는 관계자분들에게 공유해야합니다. 외부 공유의 편리성과 공유 후 추가 업데이트가 쉽다는 부분 또한 구글 스프레드시트를 사용하는 결정적인 이유가 됐습니다.
3. 피봇 테이블
데이터 분석을 하면서 의외로 굉장히 많이 사용하게 되는 기능이 피봇 테이블 인데요. 다른 툴들에서도 가능하지만 스프레드시트가 피봇테이블을 만드는 가장 직관적인 인터페이스를 가지고 있다고 생각합니다. 기능 사용 순서를 간단하게 적어볼게요.
- 연산에 사용하려는 데이터 영역을 선택
- 상단 탭에서
데이터 > 피봇 테이블
을 클릭
- 행, 열, 값, 값의 요약기준, 필터 선택
혹시 이 기능이 익숙하지 않으신 분들은 스프레드시트의 피봇 테이블 기능을 설명하는 강의를 링크를 통해 무료로 보실 수 있으니까 참고하시면 좋겠습니다. 영상 보는데 로그인은 필요 없어요.
4. 클릭 몇 번만 해도 기본은 하는 시각화
데이터를 숫자를 나열하는 것보다 직관적으로 표현하기 위해서 우리는 차트를 많이 활용합니다. 그런데 종종 시각화 결과물들을 보면 안 하느니만 못한 것들이 있습니다.
시각화에 실패하는 방법(?)은 다양한데요.
- X축, Y축이 어떤 의미를 가지는지 표시가 안되어있어서 뭘 차트로 그린건지 파악이 안되거나
- 한 차트에 색을 너무 많이 써서 뭘 보여주고 싶은건지 모르겠거나
- 적절한 시각화 방식을 선택하지 못해서 차트의 주제 전달이 안되거나
- 특정 결론을 내고 싶어서 또는 결과를 드라마틱하게 보여주기 위해서 Y축의 범위를 임의로 조정하거나
- 아웃라이어 때문에 정작 차트에서 중요한 부분이 잘 보이지 않거나
- 중요한 아웃라이어를 삭제해버리거나
등등... 제대로 된 차트를 그리는 것보다 실패하는 방법이 더 많은 것 같습니다.
구글 스프레드시트로 시각화하는 것을 선호하는 이유는 스프레드시트가 완벽한 시각화를 제공해준다기보다는 '그래도 기본은 하는' 차트를 아주 간단한 클릭 몇 번 만으로 만들어주기 때문이에요. 일단 X축과 Y축 그리고 차트 상단에 이름이 없는 일을 방지할 수 있죠.
GA, GTM
데이터리안에는 홈 블로그가 있는데요. 브런치나 티스토리같이 블로그 플랫폼을 쓰고있는게 아니라, 직접 만들어서 사용하고 있기 때문에 페이지 조회, 클릭, 스크롤 등 데이터를 수집하고 관리할 도구가 필요합니다. 그 도구로 GA4, GTM을 사용하고 있습니다. GA4는 아직 과도기라서 UA(Universal Analytics)와 함께 사용하고 있구요. 점차 GA4만 사용하게 될 예정입니다.
블로그 서비스이기 때문에 사용자 유지(Retention)과 관련된 지표들보다는 어떤 게시글들이 인기가 많은지, 새로운 방문자는 몇 명인지, 방문자의 방문 소스(Source, 방문 경로)는 어떻게 되는지, 유료 강의로 랜딩되는 링크의 클릭률이 어떻게 되는지 등 우리에게 중요한 데이터를 위주로 보고 있습니다.
작은 블로그 서비스이지만
- 어떤 데이터들을 추가적으로 수집해야 할까?
- 우리 서비스에서 중요한 액션은 뭘까? (현재는 유료 강의로 랜딩하는 링크 클릭이 가장 중요하다고 생각하고 있어요)
- 어떤 분석을 해야 개선점을 도출할 수 있을까?
등 프로덕트 분석을 하면서 던질 수 있는 다양한 질문을 해 볼 수 있다는 점에서 좋은 플레이 그라운드가 되고 있어요.
앞으로는 구글 옵티마이즈(Google Optimize)를 사용해서 A/B 테스트를 진행해본다던지, 구글 데이터 스튜디오(Google Data Studio)로 대시보드를 만들어본다던지 GA 와 연결된 다양한 서비스들을 써보면서 분석 영역을 확장하려고 합니다. 관련 강의나 컨텐츠도 제작해보고 싶고요.
구글 빅쿼리
구글 빅쿼리는 구글의 대표적인 클라우드 데이터베이스 서비스입니다. 이제는 사용하는 회사들도 많아서 친숙하게 보시는 분들도 있을 것 같아요. 저도 이전에 근무했던 회사에서 사용했었구요.
데이터리안에서는 구글 빅쿼리에 GA 데이터를 연동하여 GA 데이터를 로그 하나하나 직접 눈으로 보기도 하고, 쿼리를 이용해 분석하기 위한 용도로 사용하고 있습니다.
GA 데이터를 구글 빅쿼리에 연동하는건 클릭 몇 번으로 가능한데요. 클릭 몇 번으로 사이트의 페이지뷰, 클릭, 스크롤 뎁스 등 다양한 액션 로그들을 데이터베이스에 저장할 수 있다는 것이 정말로 혁명 그 자체라는 생각이 들어요. 서비스에서 관리하고 있는 다른 데이터들을 구글 빅쿼리에 올려놓았다면 GA에서 발생하는 행동 로그들과 서비스에서 발생하는 다른 데이터들을(유저 정보, 결제 정보 등) 엮어서 분석할 수도 있을겁니다.
데이터리안 블로그의 GA 로그는 적당한 가공을 거쳐 다양한 강의나 공개 분석 자료로 공유가 될 예정입니다. 데이터 분석 공부를 하거나, 회사 밖에서 분석 프로젝트를 하다보면 항상 데이터가 없는게 문제잖아요. 그 간극을 약간이라도 메우는데 도움이 되지 않을까 저희도 기대하고 있습니다.
👋
데이터리안이 쓰는 데이터 도구에 대해서 재밌게 읽으셨나요!
여기에서 소개한 것 이외에도 외부와 분석 프로젝트를 진행하면서 다양한 데이터 툴들을 사용해보고 있는데요. 다음에는 저희가 커뮤니티에서 사용하고 있는 데이터 서비스 이외에 분석 업무나, B2B 협업을 하면서 노하우를 쌓은 다른 툴들(태블로, 아마존 퀵사이트 등)도 소개해보겠습니다.
데이터리안은 데이터를 이용한 다양한 프로젝트 제안에 항상 오픈되어 있습니다. contact@datarian.io 으로 연락주세요. 재미있는 일을 함께 벌려봅시다.