06. 데이터 분석이란, 그리고 왜 배우는가
- 데이터 분석이 무엇이고, 왜 "21세기의 금"이라 불리는지 이해한다
- 데이터 분석의 전체 흐름(불러오기 → 정리 → 변형 → 요약 → 시각화)을 큰 그림으로 잡는다
- 왜 엑셀이 아니라 Pandas(파이썬 데이터 분석 도구)를 배우는지 안다
먼저: 데이터 분석이 뭔가요?
데이터 분석(data analysis)은 한마디로 "숫자와 기록 더미에서 의미 있는 이야기를 찾아내는 일"입니다.
예를 들어 어느 카페의 1년치 판매 기록이 있다고 해봅시다. 그냥 보면 수천 줄의 숫자일 뿐이지만, 잘 분석하면 이런 걸 알 수 있습니다.
- 가장 많이 팔리는 메뉴는 무엇인가?
- 비 오는 날엔 아메리카노가 더 팔리나, 덜 팔리나?
- 어느 요일·시간대에 손님이 몰리나?
이렇게 날것의 데이터를 판단에 쓸 수 있는 정보로 바꾸는 것이 데이터 분석입니다.
🔑 새 용어
- 데이터(data): 기록된 사실들. 숫자(매출, 온도), 글자(이름, 후기), 날짜 등 무엇이든 될 수 있습니다.
- 데이터셋(dataset): 하나의 주제로 모인 데이터 묶음. 보통 표(table) 한 장을 떠올리면 됩니다.
왜 데이터가 "21세기의 금"인가
예전엔 땅이나 석유가 부의 원천이었습니다. 지금은 데이터가 그 역할을 합니다. 우리가 검색하고, 사고, 클릭하는 모든 행동이 데이터로 쌓이고, 기업과 연구자는 그 데이터에서 패턴을 찾아 더 나은 결정을 내립니다.
중요한 건, 데이터 자체보다 그것을 분석할 줄 아는 능력이 희소하다는 점입니다. 금이 땅속에 있어도 캐낼 줄 알아야 가치가 있듯, 데이터도 분석할 수 있어야 가치가 생깁니다. 그 "캐내는 기술"을 이 안내서에서 배웁니다.
데이터 분석의 전체 흐름
실무에서 데이터 분석은 대체로 아래 흐름을 따릅니다. 이 안내서도 정확히 이 순서로 진행됩니다.
flowchart LR
A[원본 데이터] --> B[불러오기]
B --> C[정리하기]
C --> D[변형하기]
D --> E[합치기·묶기]
E --> F[요약하기]
F --> G[시각화]
G --> H[인사이트]
classDef raw fill:#fff3bf,stroke:#f59f00,color:#000
classDef proc fill:#c3fae8,stroke:#0ca678,color:#000
classDef obj fill:#d0ebff,stroke:#1971c2,color:#000
classDef out fill:#d3f9d8,stroke:#2f9e44,color:#000
class A raw
class B,C,D proc
class E,F obj
class G,H out
| 단계 | 하는 일 | 비유 |
|---|---|---|
| 불러오기 (load) | 파일·웹에서 데이터를 가져옴 | 장 봐서 재료를 부엌에 들임 |
| 정리하기 (clean) | 빈 칸·오류·중복을 손봄 | 채소 다듬고 씻기 |
| 변형하기 (transform) | 계산해서 새 정보 만듦 | 재료를 썰고 양념 |
| 합치고 묶기 (merge·group) | 여러 표를 합치고 그룹별로 요약 | 재료들을 한 냄비에 |
| 요약하기 (summarize) | 평균·합계 등으로 압축 | 간을 보고 맛 확인 |
| 시각화 (visualize) | 그래프로 한눈에 보이게 | 예쁘게 플레이팅 |
지금 각 단어가 낯설어도 괜찮습니다. 각 단계는 해당 부에서 직접 코드로 익히게 됩니다.
왜 엑셀이 아니라 Pandas인가?
엑셀로도 데이터를 다룰 수 있는데 왜 굳이 코드를 배울까요? 엑셀은 훌륭하지만 한계가 있습니다.
🔑 새 용어 — Pandas
Pandas는 파이썬(Python)에서 표 형태 데이터를 다루는 가장 대표적인 도구(라이브러리)입니다. 이름은 "Panel Data"(패널 데이터, 시간에 따라 반복 관측한 데이터)에서 왔습니다. 엑셀이 마우스로 표를 다룬다면, Pandas는 코드로 표를 다룹니다.
라이브러리(library)란 누군가 미리 만들어 둔 기능 묶음입니다. 우리가 직접 다 만들 필요 없이 가져다 쓰는 "도구 상자"라고 생각하면 됩니다.
| 엑셀 | Pandas | |
|---|---|---|
| 데이터 크기 | 보통 수십만 줄에서 버거움 | 수백만 줄도 거뜬 |
| 반복 작업 | 매번 손으로 클릭 | 코드 한 번이면 자동 반복 |
| 기록·재현 | 무엇을 했는지 추적 어려움 | 코드가 곧 기록, 똑같이 재현 가능 |
| 자동화 | 어려움 | 쉬움 |
💡 팁: 엑셀을 버리라는 게 아닙니다. 작고 간단한 일은 엑셀이 더 빠를 때도 많습니다. 다만 데이터가 커지고, 같은 작업을 반복하고, "내가 무엇을 했는지" 남겨야 할 때 Pandas가 빛을 발합니다.
우리가 함께 쓸 도구들
이 안내서에서 차례로 만나게 될 도구들을 미리 소개합니다. 지금은 "이런 게 있구나" 정도면 충분합니다.
| 도구 | 한 줄 소개 | 다루는 부 |
|---|---|---|
| Google Colab | 설치 없이 브라우저에서 파이썬을 실행 | 1부 |
| Python | 우리가 쓸 프로그래밍 언어 | 0부 |
| NumPy | 숫자 계산을 빠르게 해주는 도구 | 0부 |
| Pandas | 표 데이터를 다루는 핵심 도구 | 2~5부 |
| Matplotlib | 그래프를 그리는 기본 도구 | 6부 |
| Seaborn | 통계 그래프를 예쁘고 쉽게 | 7부 |
이 장에서 배운 것
- 데이터 분석은 날것의 데이터에서 의미 있는 이야기를 찾아내는 일이다.
- 데이터를 분석할 줄 아는 능력이 데이터 자체보다 희소하고 가치 있다.
- 분석은 보통 불러오기 → 정리 → 변형 → 합치기·묶기 → 요약 → 시각화의 흐름을 따른다.
- 엑셀과 달리 Pandas는 큰 데이터·반복 작업·재현에 강하다.
✍️ 확인 문제
- 데이터 분석의 6단계 흐름을 순서대로 말해 보세요.
- "데이터가 21세기의 금"이라는 말에서, 정작 더 희소하고 가치 있는 것은 무엇이라고 했나요?
- 작은 일회성 작업이라면 엑셀과 Pandas 중 무엇이 더 빠를 수 있나요? 왜인가요?
다음 장에서는 드디어 직접 손을 움직입니다. 설치 없이 데이터 분석을 시작하는 Google Colab을 익혀 봅시다.
👉 07. Google Colab 시작하기