부록 C · 고유 용어집

이 부록의 역할: 이 안내서의 핵심 개념(Pandas·데이터 분석에서 고유하게 쓰이는 주요 아이디어)을 모았습니다. "이 개념이 정확히 뭐였지?" 싶을 때 찾아보세요. 더 일반적인 기술 용어(CSV·NaN·dtype 등)는 부록 D(기초 기술 용어 사전)에 있습니다.

가나다순으로 정리했습니다. 각 항목 끝의 링크는 그 개념을 자세히 다룬 장입니다.

그룹화 (group-by)

같은 값을 가진 행끼리 묶은 뒤 각 묶음을 요약(평균·합계 등)하는 것. "도시별 평균 매출"처럼 기준에 따라 나눠 집계할 때 쓴다. df.groupby("기준열")["대상열"].mean() 형태가 기본. → 14장

기능 엔지니어링 (feature engineering)

기존 데이터를 조합·변형해 분석에 도움이 되는 새 열(특성)을 만드는 일. 예: 키와 몸무게로 BMI 열 만들기, 날짜에서 요일 뽑기. 좋은 특성 하나가 분석의 질을 크게 바꾼다. → 12장

데이터프레임 (DataFrame)

행과 열을 가진 2차원 표. 엑셀 시트 한 장과 같으며, 데이터 분석에서 가장 많이 다루는 형태. 여러 시리즈(열)를 나란히 붙인 것으로 볼 수 있다. → 10장

메서드 (method)

값.기능() 형태로 값에 딸려 오는 동작. df.head(), s.mean()처럼 괄호가 있다. 계산해서 결과를 돌려주는 동작이면 메서드, 이미 가진 성질이면 속성이다. → 8장

멀티인덱스 (MultiIndex)

인덱스(행 이름표)가 한 층이 아니라 여러 층으로 된 것. groupby(["도시","성별"])처럼 여러 기준으로 묶으면 생긴다. 복잡하면 reset_index()로 평범한 표로 펴서 다루면 쉽다. → 14장

병합 (merge)

공통 열(키)을 기준으로 두 표를 짝지어 옆으로 합치는 것. 엑셀의 VLOOKUP과 비슷. how로 inner(공통)·outer(전부)·left·right 방식을 정한다. → 13장

벡터화 (vectorization)

반복문 없이 배열·시리즈 전체에 연산을 한 번에 적용하는 것. 코드가 짧고 속도도 빠르다. Pandas의 핵심 사고방식("하나씩 돌리지 말고 통째로 처리"). → 5장, 9장

보간/채우기 (fillna)

결측치(빈 값)를 특정 값으로 메우는 것. 0, 평균, 중앙값 등으로 채운다. 무엇으로 채울지는 데이터의 의미에 달렸다(재고 빈칸=0은 자연스럽지만 나이 빈칸=0은 이상). → 12장

불용어 (stopword)

"은/는/이/가/the/is"처럼 자주 나오지만 의미 분석엔 도움이 안 되는 단어. 텍스트 분석 전에 미리 제거해 분석을 선명하게 한다. → 18장

브로드캐스팅 (broadcasting)

하나의 값을 여러 칸에 한 번에 퍼뜨려 적용하는 것. df["보너스"] = 10이면 모든 행에 10이 들어간다. 벡터화와 짝을 이루는 개념. → 11장

불리언 인덱싱 (boolean indexing)

조건(참/거짓)으로 원하는 행·값만 골라내는 것. df[df["점수"] >= 80]처럼 쓴다. 데이터 분석에서 가장 자주 쓰는 기술 중 하나. → 9장, 11장

상관관계 (correlation)

두 값이 함께 변하는 정도. -1~1 사이 값으로, 1에 가까우면 같이 커지고, -1이면 반대, 0이면 관계가 약하다. df.corr()로 구하며 히트맵으로 자주 본다. "함께 움직임"이지 "원인-결과"가 아님에 유의. → 16장

슬라이싱 (slicing)

[시작:끝]으로 데이터의 일부 구간을 잘라내는 것. 주의: 위치 기반(iloc)은 끝을 제외, 라벨 기반(loc)은 끝을 포함한다. → 9장, 11장

시계열 (time series)

시간 순서로 기록된 데이터. 날짜·시각이 인덱스나 한 열로 들어 있고, 시간에 따른 변화를 분석한다. 예: 일별 매출, 시간별 기온. → 17장

시리즈 (Series)

라벨(인덱스)이 붙은 1차원 데이터. 엑셀의 한 열과 같다. 데이터프레임에서 열 하나를 꺼내면 시리즈가 된다. → 8장

속성 (attribute)

값이 이미 가지고 있는 성질. df.shape, s.index처럼 괄호가 없다. 동작을 시키는 메서드와 구분된다. → 8장

연결 (concat)

같은 형태의 표를 위아래로 쌓거나 좌우로 이어 붙이는 단순 합치기. pd.concat([표1, 표2]). (예전의 append는 제거됐으니 concat을 쓴다.) → 13장

인덱스 (index)

시리즈·데이터프레임에서 각 행에 붙은 이름표(라벨). 기본은 0,1,2… 숫자지만 원하는 값으로 바꿀 수 있다. 인덱스로 원하는 데이터를 빠르게 찾는다. → 8장, 10장

split-apply-combine

그룹화의 세 단계: 쪼개기(기준값으로 그룹 분리) → 적용(각 그룹에 요약 적용) → 합치기(결과를 한 표로). groupby가 이 셋을 한 번에 해 준다. → 14장

토큰화 (tokenization)

문장을 단어(토큰) 단위로 쪼개는 것. "나는 책을 읽어" → "나는", "책을", "읽어"]. 단어를 세거나 분석하기 전 필요한 단계. → [18장

결측치 (missing value)

비어 있는 값. Pandas에서는 NaN으로 표시된다. 찾고(isnull), 제거하거나(dropna) 채워서(fillna) 처리한다. (NaN 자체의 정의는 부록 D 참고.) → 12장

.loc 와 .iloc

데이터프레임에서 행·열을 꺼내는 두 도구. .loc은 라벨(이름)로, .iloc은 위치 번호(0,1,2…)로 선택한다. 슬라이싱 시 .loc은 끝 포함, .iloc은 끝 제외. → 11장

apply

시리즈·데이터프레임의 각 값에 내가 만든 함수를 적용하는 메서드. df["BMI"].apply(판정함수)처럼 쓴다. 람다와 자주 함께 쓴다. → 12장

KDE (커널 밀도 추정)

데이터 분포를 부드러운 곡선으로 추정한 것. 히스토그램의 울퉁불퉁함을 매끈한 선으로 보여 줘 분포 모양을 파악하기 쉽다. → 16장

🏠 목차로 돌아가기 · 📖 일반 기술 용어는 부록 D

← 이전18. 텍스트 데이터 분석다음 →부록 D · 기초 기술 용어 사전