부록 D · 기초 기술 용어 사전

이 부록의 역할: 데이터 분석을 처음 접하는 분이 모를 수 있는 일반적인 기술 용어(약어·파일 형식·도구 이름 등)를 모았습니다. 이 안내서에 특화된 핵심 개념부록 C(고유 용어집)에 따로 있습니다.

주제별로 묶었으며, 각 항목 끝의 링크는 그 용어가 처음 등장한 장입니다.

📁 파일 형식

CSV

Comma-Separated Values. 쉼표로 값을 구분한 표 형식의 텍스트 파일. 엑셀 표를 가장 단순하게 저장한 형태로, 데이터 분석에서 가장 흔히 쓰는 파일 형식. → 7장

HTML

HyperText Markup Language. 웹페이지를 구성하는 언어. Pandas의 read_html로 웹페이지 속 표를 읽어올 수 있다. → 10장

TTF (폰트 파일)

TrueType Font. 글꼴 파일 형식. 한글 그래프·워드클라우드를 만들 때 한글 폰트 파일(.ttf)의 경로를 지정해야 글자가 깨지지 않는다. → 18장

🔢 데이터·값 관련

NaN

Not a Number. 값이 비어 있음을 뜻하는 특수 표시. 숫자 열의 빈칸이 NaN으로 나타난다. (처리 방법은 부록 C의 결측치 참고.) → 12장

dtype

data type(데이터 타입). 한 열·배열에 담긴 값들의 종류. int64(정수), float64(소수), object(보통 글자/문자열), datetime64(날짜) 등이 있다. → 5장

object (타입)

Pandas에서 dtype이 object이면 보통 문자열(글자)을 뜻한다. "숫자처럼 보이는데 object"라면 글자로 저장된 것이라 계산 전에 숫자로 변환해야 한다. → 12장

int / float

  • int: integer, 정수(소수점 없는 수). 예: 42
  • float: 부동소수점 수, 소수점이 있는 수. 예: 3.142장

str (문자열)

string. 글자들이 줄지어 있는 데이터. 따옴표로 감싼다("안녕"). → 2장

bool (불)

boolean. 참(True)·거짓(False) 둘 중 하나만 갖는 타입. 조건 판단의 기본. → 2장

1-D / 2-D (차원)

  • 1-D(1차원): 한 줄로 늘어선 데이터. Pandas의 시리즈에 해당.
  • 2-D(2차원): 행과 열을 가진 표 모양. 데이터프레임에 해당. → 5장

NaN과 빈 값의 표시 None

파이썬에서 아무 값도 없음을 뜻하는 것이 None. 데이터프레임에 넣으면 보통 NaN으로 바뀐다. → 12장

🛠 도구·라이브러리

라이브러리 (library)

누군가 미리 만들어 둔 기능 묶음(도구 상자). 직접 다 만들 필요 없이 import해서 가져다 쓴다. → 6장

Python (파이썬)

이 안내서에서 쓰는 프로그래밍 언어. 배우기 쉽고 데이터 분석에 널리 쓰인다. → 1장

NumPy (넘파이)

Numerical Python. 많은 숫자를 빠르게 계산하는 라이브러리. Pandas의 토대. 관례적 별명은 np. → 5장

Pandas (판다스)

표 형태 데이터를 다루는 대표 라이브러리. 이 안내서의 주인공. 관례적 별명은 pd. → 6장

Matplotlib (맷플롯립)

파이썬에서 그래프를 그리는 기본 라이브러리. matplotlib.pyplotplt로 불러 쓴다. → 15장

Seaborn (시본)

Matplotlib 위에서 통계 그래프를 더 쉽고 예쁘게 그리는 라이브러리. 별명은 sns. → 16장

WordCloud (워드클라우드)

자주 나온 단어일수록 크게 표시하는 그림을 그리는 라이브러리. → 18장

Google Colab (구글 코랩)

설치 없이 브라우저에서 파이썬을 실행하는 무료 도구. 구글 계정만 있으면 된다. → 7장

Jupyter Notebook (주피터 노트북)

코드·결과·설명을 한 페이지에 섞어 담는 문서 형식. Colab은 이 형식을 클라우드에서 돌려 준다. → 7장

⚙️ 프로그래밍 기본 개념

변수 (variable)

값을 담아 두는 이름표 붙은 상자. age = 20처럼 =로 값을 넣는다. → 1장

함수 (function)

입력을 받아 정해진 일을 하고 결과를 돌려주는 이름 붙은 코드 묶음. print(), len() 등. → 4장

import (임포트)

라이브러리를 가져와 쓰겠다고 선언하는 명령. import pandas as pd처럼 as로 별명을 붙인다. → 7장

형변환 (type casting)

값의 종류를 바꾸는 것. int()(정수로), float()(소수로), str()(글자로). → 1장

인덱싱 (indexing)

목록·배열·시리즈에서 번호나 라벨로 특정 요소를 꺼내는 것. 파이썬은 번호를 0부터 센다. → 2장

리스트 / 딕셔너리 / 튜플 / 집합

파이썬의 자료구조:

  • 리스트(list, []): 순서 있고 변경 가능한 목록
  • 딕셔너리(dict, {키:값}): 이름표(키)로 값을 찾는 사전
  • 튜플(tuple, ()): 변경 불가한 목록
  • 집합(set, {}): 중복 없는 모음 → 2장

람다 (lambda)

이름 없는 한 줄짜리 작은 함수. lambda x: x * 2. → 4장

정규식 (regex)

글자 패턴을 표현하는 작은 규칙 언어. "기호만 골라 제거" 같은 작업에 쓴다. → 18장

셀 (cell)

Colab 노트북에서 코드나 글을 입력하는 한 칸. 셀 단위로 실행한다(Shift+Enter). → 7장

마운트 (mount)

외부 저장소(예: 구글 드라이브)를 작업 공간에 연결해 내 폴더처럼 쓰게 붙이는 것. → 7장

런타임 (runtime)

Colab에서 코드가 실제로 돌아가는 실행 환경. 일정 시간 방치하면 초기화되어 업로드한 파일·변수가 사라질 수 있다. → 7장

📊 시각화 용어

figure / axes

  • figure(피규어): 그래프가 담기는 전체 도화지
  • axes(액시스): 그 안의 개별 그래프 한 칸15장

범례 (legend)

그래프에서 어느 색·선이 무엇을 뜻하는지 알려 주는 작은 설명 상자. → 15장

bin (빈, 구간)

히스토그램에서 값을 나누는 구간(통). bins=5면 5개 구간으로 나눈다. → 15장

히스토그램 (histogram)

값의 분포를 구간별 막대로 보여 주는 그래프. (막대 그래프가 범주별 크기라면, 히스토그램은 숫자의 분포.) → 15장

hue

Seaborn에서 어떤 열을 기준으로 색을 나눌지 정하는 옵션. hue="sex"면 성별로 색이 갈린다. → 16장

🗓️ 날짜·텍스트 관련

datetime

날짜·시간을 다루는 파이썬 모듈이자 데이터 타입. 글자를 pd.to_datetime으로 이 타입으로 바꾸면 날짜 계산이 가능해진다. → 17장

Timedelta

시간의 간격(기간)을 나타내는 타입. pd.Timedelta(days=30)은 30일. 날짜에 더하거나 뺄 수 있다. → 17장

.dt / .str (접근자)

  • .dt: 날짜 타입 열에서 연·월·일·요일 등을 꺼낸다.
  • .str: 문자열 열에 문자열 메서드를 한 번에 적용한다. → 17장, 18장

토큰 (token)

토큰화로 쪼개진 한 조각(보통 한 단어). → 18장

🏠 목차로 돌아가기 · 📘 핵심 개념은 부록 C