부록 D · 기초 기술 용어 사전
이 부록의 역할: 데이터 분석을 처음 접하는 분이 모를 수 있는 일반적인 기술 용어(약어·파일 형식·도구 이름 등)를 모았습니다. 이 안내서에 특화된 핵심 개념은 부록 C(고유 용어집)에 따로 있습니다.
주제별로 묶었으며, 각 항목 끝의 링크는 그 용어가 처음 등장한 장입니다.
📁 파일 형식
CSV
Comma-Separated Values. 쉼표로 값을 구분한 표 형식의 텍스트 파일. 엑셀 표를 가장 단순하게 저장한 형태로, 데이터 분석에서 가장 흔히 쓰는 파일 형식. → 7장
HTML
HyperText Markup Language. 웹페이지를 구성하는 언어. Pandas의 read_html로 웹페이지 속 표를 읽어올 수 있다. → 10장
TTF (폰트 파일)
TrueType Font. 글꼴 파일 형식. 한글 그래프·워드클라우드를 만들 때 한글 폰트 파일(.ttf)의 경로를 지정해야 글자가 깨지지 않는다. → 18장
🔢 데이터·값 관련
NaN
Not a Number. 값이 비어 있음을 뜻하는 특수 표시. 숫자 열의 빈칸이 NaN으로 나타난다. (처리 방법은 부록 C의 결측치 참고.) → 12장
dtype
data type(데이터 타입). 한 열·배열에 담긴 값들의 종류. int64(정수), float64(소수), object(보통 글자/문자열), datetime64(날짜) 등이 있다. → 5장
object (타입)
Pandas에서 dtype이 object이면 보통 문자열(글자)을 뜻한다. "숫자처럼 보이는데 object"라면 글자로 저장된 것이라 계산 전에 숫자로 변환해야 한다. → 12장
int / float
- int: integer, 정수(소수점 없는 수). 예:
42 - float: 부동소수점 수, 소수점이 있는 수. 예:
3.14→ 2장
str (문자열)
string. 글자들이 줄지어 있는 데이터. 따옴표로 감싼다("안녕"). → 2장
bool (불)
boolean. 참(True)·거짓(False) 둘 중 하나만 갖는 타입. 조건 판단의 기본. → 2장
1-D / 2-D (차원)
- 1-D(1차원): 한 줄로 늘어선 데이터. Pandas의 시리즈에 해당.
- 2-D(2차원): 행과 열을 가진 표 모양. 데이터프레임에 해당. → 5장
NaN과 빈 값의 표시 None
파이썬에서 아무 값도 없음을 뜻하는 것이 None. 데이터프레임에 넣으면 보통 NaN으로 바뀐다. → 12장
🛠 도구·라이브러리
라이브러리 (library)
누군가 미리 만들어 둔 기능 묶음(도구 상자). 직접 다 만들 필요 없이 import해서 가져다 쓴다. → 6장
Python (파이썬)
이 안내서에서 쓰는 프로그래밍 언어. 배우기 쉽고 데이터 분석에 널리 쓰인다. → 1장
NumPy (넘파이)
Numerical Python. 많은 숫자를 빠르게 계산하는 라이브러리. Pandas의 토대. 관례적 별명은 np. → 5장
Pandas (판다스)
표 형태 데이터를 다루는 대표 라이브러리. 이 안내서의 주인공. 관례적 별명은 pd. → 6장
Matplotlib (맷플롯립)
파이썬에서 그래프를 그리는 기본 라이브러리. matplotlib.pyplot을 plt로 불러 쓴다. → 15장
Seaborn (시본)
Matplotlib 위에서 통계 그래프를 더 쉽고 예쁘게 그리는 라이브러리. 별명은 sns. → 16장
WordCloud (워드클라우드)
자주 나온 단어일수록 크게 표시하는 그림을 그리는 라이브러리. → 18장
Google Colab (구글 코랩)
설치 없이 브라우저에서 파이썬을 실행하는 무료 도구. 구글 계정만 있으면 된다. → 7장
Jupyter Notebook (주피터 노트북)
코드·결과·설명을 한 페이지에 섞어 담는 문서 형식. Colab은 이 형식을 클라우드에서 돌려 준다. → 7장
⚙️ 프로그래밍 기본 개념
변수 (variable)
값을 담아 두는 이름표 붙은 상자. age = 20처럼 =로 값을 넣는다. → 1장
함수 (function)
입력을 받아 정해진 일을 하고 결과를 돌려주는 이름 붙은 코드 묶음. print(), len() 등. → 4장
import (임포트)
라이브러리를 가져와 쓰겠다고 선언하는 명령. import pandas as pd처럼 as로 별명을 붙인다. → 7장
형변환 (type casting)
값의 종류를 바꾸는 것. int()(정수로), float()(소수로), str()(글자로). → 1장
인덱싱 (indexing)
목록·배열·시리즈에서 번호나 라벨로 특정 요소를 꺼내는 것. 파이썬은 번호를 0부터 센다. → 2장
리스트 / 딕셔너리 / 튜플 / 집합
파이썬의 자료구조:
- 리스트(list,
[]): 순서 있고 변경 가능한 목록 - 딕셔너리(dict,
{키:값}): 이름표(키)로 값을 찾는 사전 - 튜플(tuple,
()): 변경 불가한 목록 - 집합(set,
{}): 중복 없는 모음 → 2장
람다 (lambda)
이름 없는 한 줄짜리 작은 함수. lambda x: x * 2. → 4장
정규식 (regex)
글자 패턴을 표현하는 작은 규칙 언어. "기호만 골라 제거" 같은 작업에 쓴다. → 18장
셀 (cell)
Colab 노트북에서 코드나 글을 입력하는 한 칸. 셀 단위로 실행한다(Shift+Enter). → 7장
마운트 (mount)
외부 저장소(예: 구글 드라이브)를 작업 공간에 연결해 내 폴더처럼 쓰게 붙이는 것. → 7장
런타임 (runtime)
Colab에서 코드가 실제로 돌아가는 실행 환경. 일정 시간 방치하면 초기화되어 업로드한 파일·변수가 사라질 수 있다. → 7장
📊 시각화 용어
figure / axes
- figure(피규어): 그래프가 담기는 전체 도화지
- axes(액시스): 그 안의 개별 그래프 한 칸 → 15장
범례 (legend)
그래프에서 어느 색·선이 무엇을 뜻하는지 알려 주는 작은 설명 상자. → 15장
bin (빈, 구간)
히스토그램에서 값을 나누는 구간(통). bins=5면 5개 구간으로 나눈다. → 15장
히스토그램 (histogram)
값의 분포를 구간별 막대로 보여 주는 그래프. (막대 그래프가 범주별 크기라면, 히스토그램은 숫자의 분포.) → 15장
hue
Seaborn에서 어떤 열을 기준으로 색을 나눌지 정하는 옵션. hue="sex"면 성별로 색이 갈린다. → 16장
🗓️ 날짜·텍스트 관련
datetime
날짜·시간을 다루는 파이썬 모듈이자 데이터 타입. 글자를 pd.to_datetime으로 이 타입으로 바꾸면 날짜 계산이 가능해진다. → 17장
Timedelta
시간의 간격(기간)을 나타내는 타입. pd.Timedelta(days=30)은 30일. 날짜에 더하거나 뺄 수 있다. → 17장
.dt / .str (접근자)
토큰 (token)
토큰화로 쪼개진 한 조각(보통 한 단어). → 18장
🏠 목차로 돌아가기 · 📘 핵심 개념은 부록 C