06. 데이터 분석이란, 그리고 왜 배우는가

🎯 이 장의 목표

데이터 분석이 무엇이고, 왜 "21세기의 금"이라 불리는지 이해한다
데이터 분석의 전체 흐름(불러오기 → 정리 → 변형 → 요약 → 시각화)을 큰 그림으로 잡는다
왜 엑셀이 아니라 Pandas(파이썬 데이터 분석 도구)를 배우는지 안다

먼저: 데이터 분석이 뭔가요?

데이터 분석(data analysis)은 한마디로 "숫자와 기록 더미에서 의미 있는 이야기를 찾아내는 일"입니다.

예를 들어 어느 카페의 1년치 판매 기록이 있다고 해봅시다. 그냥 보면 수천 줄의 숫자일 뿐이지만, 잘 분석하면 이런 걸 알 수 있습니다.

가장 많이 팔리는 메뉴는 무엇인가?
비 오는 날엔 아메리카노가 더 팔리나, 덜 팔리나?
어느 요일·시간대에 손님이 몰리나?

이렇게 날것의 데이터를 판단에 쓸 수 있는 정보로 바꾸는 것이 데이터 분석입니다.

🔑 새 용어
데이터(data): 기록된 사실들. 숫자(매출, 온도), 글자(이름, 후기), 날짜 등 무엇이든 될 수 있습니다.
데이터셋(dataset): 하나의 주제로 모인 데이터 묶음. 보통 표(table) 한 장을 떠올리면 됩니다.

왜 데이터가 "21세기의 금"인가

예전엔 땅이나 석유가 부의 원천이었습니다. 지금은 데이터가 그 역할을 합니다. 우리가 검색하고, 사고, 클릭하는 모든 행동이 데이터로 쌓이고, 기업과 연구자는 그 데이터에서 패턴을 찾아 더 나은 결정을 내립니다.

중요한 건, 데이터 자체보다 그것을 분석할 줄 아는 능력이 희소하다는 점입니다. 금이 땅속에 있어도 캐낼 줄 알아야 가치가 있듯, 데이터도 분석할 수 있어야 가치가 생깁니다. 그 "캐내는 기술"을 이 안내서에서 배웁니다.

데이터 분석의 전체 흐름

실무에서 데이터 분석은 대체로 아래 흐름을 따릅니다. 이 안내서도 정확히 이 순서로 진행됩니다.

flowchart LR
    A[원본 데이터] --> B[불러오기]
    B --> C[정리하기]
    C --> D[변형하기]
    D --> E[합치기·묶기]
    E --> F[요약하기]
    F --> G[시각화]
    G --> H[인사이트]

    classDef raw fill:#fff3bf,stroke:#f59f00,color:#000
    classDef proc fill:#c3fae8,stroke:#0ca678,color:#000
    classDef obj fill:#d0ebff,stroke:#1971c2,color:#000
    classDef out fill:#d3f9d8,stroke:#2f9e44,color:#000
    class A raw
    class B,C,D proc
    class E,F obj
    class G,H out

단계	하는 일	비유
불러오기 (load)	파일·웹에서 데이터를 가져옴	장 봐서 재료를 부엌에 들임
정리하기 (clean)	빈 칸·오류·중복을 손봄	채소 다듬고 씻기
변형하기 (transform)	계산해서 새 정보 만듦	재료를 썰고 양념
합치고 묶기 (merge·group)	여러 표를 합치고 그룹별로 요약	재료들을 한 냄비에
요약하기 (summarize)	평균·합계 등으로 압축	간을 보고 맛 확인
시각화 (visualize)	그래프로 한눈에 보이게	예쁘게 플레이팅

지금 각 단어가 낯설어도 괜찮습니다. 각 단계는 해당 부에서 직접 코드로 익히게 됩니다.

왜 엑셀이 아니라 Pandas인가?

엑셀로도 데이터를 다룰 수 있는데 왜 굳이 코드를 배울까요? 엑셀은 훌륭하지만 한계가 있습니다.

🔑 새 용어 — Pandas
Pandas는 파이썬(Python)에서 표 형태 데이터를 다루는 가장 대표적인 도구(라이브러리)입니다. 이름은 "Panel Data"(패널 데이터, 시간에 따라 반복 관측한 데이터)에서 왔습니다. 엑셀이 마우스로 표를 다룬다면, Pandas는 코드로 표를 다룹니다.
라이브러리(library)란 누군가 미리 만들어 둔 기능 묶음입니다. 우리가 직접 다 만들 필요 없이 가져다 쓰는 "도구 상자"라고 생각하면 됩니다.

	엑셀	Pandas
데이터 크기	보통 수십만 줄에서 버거움	수백만 줄도 거뜬
반복 작업	매번 손으로 클릭	코드 한 번이면 자동 반복
기록·재현	무엇을 했는지 추적 어려움	코드가 곧 기록, 똑같이 재현 가능
자동화	어려움	쉬움

💡 팁: 엑셀을 버리라는 게 아닙니다. 작고 간단한 일은 엑셀이 더 빠를 때도 많습니다. 다만 데이터가 커지고, 같은 작업을 반복하고, "내가 무엇을 했는지" 남겨야 할 때 Pandas가 빛을 발합니다.

우리가 함께 쓸 도구들

이 안내서에서 차례로 만나게 될 도구들을 미리 소개합니다. 지금은 "이런 게 있구나" 정도면 충분합니다.

도구	한 줄 소개	다루는 부
Google Colab	설치 없이 브라우저에서 파이썬을 실행	1부
Python	우리가 쓸 프로그래밍 언어	0부
NumPy	숫자 계산을 빠르게 해주는 도구	0부
Pandas	표 데이터를 다루는 핵심 도구	2~5부
Matplotlib	그래프를 그리는 기본 도구	6부
Seaborn	통계 그래프를 예쁘고 쉽게	7부

이 장에서 배운 것

데이터 분석은 날것의 데이터에서 의미 있는 이야기를 찾아내는 일이다.
데이터를 분석할 줄 아는 능력이 데이터 자체보다 희소하고 가치 있다.
분석은 보통 불러오기 → 정리 → 변형 → 합치기·묶기 → 요약 → 시각화의 흐름을 따른다.
엑셀과 달리 Pandas는 큰 데이터·반복 작업·재현에 강하다.

✍️ 확인 문제

데이터 분석의 6단계 흐름을 순서대로 말해 보세요.
"데이터가 21세기의 금"이라는 말에서, 정작 더 희소하고 가치 있는 것은 무엇이라고 했나요?
작은 일회성 작업이라면 엑셀과 Pandas 중 무엇이 더 빠를 수 있나요? 왜인가요?

다음 장에서는 드디어 직접 손을 움직입니다. 설치 없이 데이터 분석을 시작하는 Google Colab을 익혀 봅시다.
👉 07. Google Colab 시작하기

← 이전05. NumPy 기초다음 →07. Google Colab 시작하기