07. Google Colab 시작하기
- 설치 없이 브라우저에서 파이썬을 실행하는 Google Colab을 쓸 줄 안다
- 노트북을 만들고, 셀에 코드를 입력해 실행하고, 결과를 확인할 수 있다
- 데이터 파일(CSV)을 Colab으로 가져오는 세 가지 방법을 안다
먼저: Google Colab이 뭔가요?
Google Colab(정식 명칭 Google Colaboratory, 구글 코랩)은 설치 없이 웹 브라우저에서 파이썬 코드를 실행하는 무료 도구입니다. 구글 계정만 있으면 됩니다.
보통 파이썬을 쓰려면 컴퓨터에 프로그램을 깔아야 하는데(그 과정에서 많은 입문자가 좌절합니다), Colab은 구글의 컴퓨터를 빌려 쓰는 방식이라 내 컴퓨터엔 아무것도 설치하지 않아도 됩니다. 게다가 Pandas·NumPy 같은 도구가 이미 깔려 있어서 바로 가져다 쓸 수 있습니다.
🔑 새 용어 — 노트북(Notebook)
Colab에서 작업하는 문서를 노트북이라고 합니다. 코드와 그 실행 결과, 설명 글을 한 페이지에 섞어 담을 수 있는 형식입니다. 원래 "Jupyter Notebook(주피터 노트북)"이라는 형식에서 왔으며, Colab은 이걸 클라우드(구글 서버)에서 돌려 줍니다.
Colab 시작하기 (3분이면 충분)
- 브라우저에서 https://colab.research.google.com 으로 접속합니다.
- 구글 계정으로 로그인합니다.
- 메뉴에서 파일 → 새 노트(New notebook)를 클릭합니다.
끝입니다. 빈 노트북이 하나 열리고, 바로 코드를 칠 수 있는 상태가 됩니다.
셀(Cell): Colab의 기본 단위
노트북은 셀(cell)이라는 작은 칸들로 이루어집니다. 셀에는 두 종류가 있습니다.
🔑 새 용어 — 셀(cell)
코드나 글을 입력하는 한 칸입니다. 셀 단위로 따로따로 실행할 수 있어서, 전체를 처음부터 다시 돌리지 않고 원하는 부분만 실행해 볼 수 있습니다.
| 셀 종류 | 용도 |
|---|---|
| 코드 셀(Code cell) | 파이썬 코드를 입력하고 실행 |
| 텍스트 셀(Text cell) | 설명·메모를 글로 작성 (Markdown 형식) |
첫 코드 실행해 보기
코드 셀에 아래를 입력하고, 셀을 실행해 봅시다. 실행 방법은 두 가지입니다.
- 셀 왼쪽의 ▶️ (재생) 버튼 클릭
- 키보드 Shift + Enter (가장 많이 씁니다)
print("안녕, 데이터 분석!") 1 + 1
실행 결과:
안녕, 데이터 분석! 2
방금 무슨 일이 일어났는지 봅시다.
print(...)는 괄호 안의 내용을 화면에 출력합니다. 그래서 첫 줄 글자가 보였습니다.- 마지막 줄
1 + 1은 셀의 마지막 값이라 자동으로 결과(2)가 표시됐습니다. Colab은 셀의 맨 마지막 줄 값을 알아서 보여줍니다.
[1], [2]처럼 바뀝니다. 이 숫자는 실행한 순서를 뜻합니다. 위에서 아래로 순서대로 실행하는 습관을 들이면 헷갈리지 않습니다.라이브러리 불러오기 (import)
Pandas 같은 도구를 쓰려면 먼저 "이 도구를 쓰겠다"고 선언해야 합니다. 이것을 import(임포트, 가져오기)라고 합니다.
import pandas as pd import numpy as np
🔑 새 용어 — import와 as
import pandas: pandas 라이브러리를 가져옵니다.as pd: 가져온 pandas를 앞으로pd라는 짧은 별명으로 부르겠다는 뜻입니다. 매번pandas.무엇무엇대신pd.무엇무엇으로 쓸 수 있어 편합니다.pd(pandas)와np(numpy)는 전 세계가 쓰는 관례적 별명이니 그대로 따르면 됩니다.
⚠️ 흔한 실수: import를 한 셀은 노트북을 새로 열거나 런타임이 초기화되면 다시 실행해야 합니다. "분명 pandas를 썼는데 pd is not defined 에러가 난다"면 거의 항상 import 셀을 안 돌린 경우입니다.
데이터 파일(CSV)을 Colab으로 가져오는 3가지 방법
실제 분석에선 외부 데이터 파일을 불러와야 합니다. 가장 흔한 형식이 CSV입니다.
🔑 새 용어 — CSV
CSV는 Comma-Separated Values, 즉 쉼표로 값을 구분한 표 형식의 텍스트 파일입니다. 엑셀 표를 가장 단순하게 저장한 형태라고 보면 됩니다. 예:이름,나이\n철수,20\n영희,22
Colab에 CSV를 가져오는 방법은 세 가지가 있습니다. 입문 단계에서는 방법 3(URL)과 방법 1(직접 업로드)을 가장 많이 씁니다.
방법 1 · 파일 직접 업로드 (가장 간단)
화면 왼쪽의 폴더 아이콘(📁)을 클릭 → 업로드 아이콘을 눌러 내 컴퓨터의 CSV를 올립니다. 올린 파일은 /content/ 폴더에 들어갑니다.
import pandas as pd df = pd.read_csv("/content/data.csv") df.head()
또는 코드로 업로드 창을 띄울 수도 있습니다.
from google.colab import files uploaded = files.upload() # 파일 선택 창이 뜸
⚠️ 흔한 실수: 이 방법으로 올린 파일은 런타임이 초기화되면 사라집니다(일정 시간 방치하거나 노트북을 닫으면 초기화됨). 그러면 다시 업로드해야 합니다. 잠깐 실습할 땐 편하지만, 오래 보관할 데이터는 방법 2를 쓰세요.
방법 2 · 구글 드라이브 연결 (보관에 좋음)
내 구글 드라이브를 Colab에 연결(mount)하면, 드라이브에 둔 파일을 계속 쓸 수 있습니다.
from google.colab import drive drive.mount('/content/drive') import pandas as pd df = pd.read_csv('/content/drive/MyDrive/data.csv')
실행하면 권한을 허용하라는 창이 뜹니다. 안내를 따라 허용하면 연결됩니다.
🔑 새 용어 — 마운트(mount)
"연결하다"는 뜻의 컴퓨터 용어입니다. 외부 저장소(여기선 구글 드라이브)를 현재 작업 공간에 끌어와 마치 내 폴더처럼 쓸 수 있게 붙이는 것을 말합니다.
방법 3 · URL로 바로 읽기 (이 안내서에서 자주 씀)
CSV가 인터넷에 공개돼 있으면, 주소(URL)를 read_csv에 바로 넣어 불러올 수 있습니다. 업로드도, 드라이브 연결도 필요 없습니다.
import pandas as pd url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv" df = pd.read_csv(url) df.head()
df.head()는 무슨 뜻인가요?
위 코드들 끝에 자주 나온 df.head()는 데이터의 앞부분 몇 줄만 미리 보여 줘라는 명령입니다. 데이터가 수천 줄이어도 전체를 다 띄우면 화면이 넘치니, 보통 처음 5줄만 확인합니다. (이 df, head()의 정체는 10장 데이터프레임에서 제대로 다룹니다. 지금은 "맛보기 명령"으로만 알아두세요.)
🛠 미니 챌린지
새 Colab 노트북을 만들고 다음을 해보세요.
- 코드 셀에 자기 이름을 출력하는 코드를 작성하고 실행하세요.
pandas를pd라는 별명으로 import 하세요.- 아래 URL의 공개 데이터를 불러와 앞부분 5줄을 확인하세요.
https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv
✅ 미니 챌린지 해설
# 1. 이름 출력 print("내 이름은 홍길동입니다") # 2. pandas를 pd로 import import pandas as pd # 3. URL로 데이터 불러와 앞부분 확인 url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv" df = pd.read_csv(url) df.head()
실행 결과 (3번): 식당 팁(tip) 데이터의 처음 5줄이 표로 나타납니다. 대략 이런 모습입니다.
total_bill tip sex smoker day time size 0 16.99 1.01 Female No Sun Dinner 2 1 10.34 1.66 Male No Sun Dinner 3 2 21.01 3.50 Male No Sun Dinner 3 3 23.68 3.31 Male No Sun Dinner 2 4 24.59 3.61 Female No Sun Dinner 4
각 열(total_bill=총 금액, tip=팁, day=요일 등)이 보이고, 왼쪽 0~4는 행 번호입니다. 이 표가 바로 우리가 앞으로 계속 다룰 데이터프레임입니다.
이 장에서 배운 것
- Google Colab은 설치 없이 브라우저에서 파이썬을 실행하는 무료 도구다.
- 노트북은 셀 단위로 코드를 실행하며, Shift + Enter로 실행한다.
- 도구를 쓰려면
import pandas as pd처럼 먼저 import해야 한다. - CSV는 쉼표로 값을 구분한 표 파일이며, 업로드 / 드라이브 연결 / URL 세 가지 방법으로 불러올 수 있다.
✍️ 확인 문제
- Colab에서 셀을 실행하는 키보드 단축키는 무엇인가요?
import pandas as pd에서as pd는 무슨 역할을 하나요?- CSV가 무엇의 약자이며, 어떤 형식의 파일인가요?
환경 준비가 끝났습니다. 이제 본격적으로 Pandas의 가장 기본 단위, 시리즈(Series)부터 만나 봅시다.
👉 08. 시리즈란 무엇인가