부록
← 7부 원리에서 실전으로 · 목차
A. 핵심 용어집
각 용어는 처음 등장한 부와 함께, 한 줄 정의와 시각적/직관적 설명을 붙였습니다.
| 용어 | 한 줄 정의 | 직관 (어디서 다뤘나) |
|---|---|---|
| 토큰 (token) | 텍스트를 쪼갠 처리 단위. 단어보다 작고 글자보다 큰 경우가 많음. | 레고 블록 한 조각 (2부) |
| 토큰화 (tokenization) | 텍스트를 토큰으로 나누는 과정. | 문장을 블록으로 분해 (2부) |
| BPE (Byte Pair Encoding) | 자주 붙어 다니는 글자 짝을 합쳐 토큰을 만드는 대표적 방법. | 빈도 통계로 블록 모양 정하기 (2부) |
| 임베딩 (embedding) | 토큰을 수백 차원의 숫자 좌표로 바꾼 것. 의미가 가까우면 좌표도 가까움. | 도서관의 책 배치 (2부) |
| 어텐션 (attention) | 각 토큰이 "어떤 다른 토큰을 얼마나 참조할지" 정해 정보를 섞는 장치. | 도서관 사서의 자료 안내 (3부) |
| 질의·열쇠·값 (Query·Key·Value) | 어텐션에서 토큰이 맡는 세 역할: 검색어·색인표·본문. | 도서관 검색 (3부) |
| 멀티헤드 (multi-head) | 여러 어텐션을 동시에 돌려 다른 종류의 관계를 병렬로 살핌. | 같은 문장을 읽는 여러 전문가 (3부) |
| 트랜스포머 (transformer) | 어텐션+피드포워드 층을 여러 겹 쌓은 모델 구조. | 덧칠로 완성해 가는 그림 (3부) |
| 파라미터·가중치 (parameter·weight) | 모델이 계산에 쓰는 수십억 개의 조절 가능한 숫자. 학습으로 정해지고 이후 고정. | 거대한 믹싱 콘솔의 다이얼 (3부) |
| 사전학습 (pre-training) | 방대한 텍스트로 "다음 토큰 맞히기"를 반복해 패턴을 흡수하는 단계. | 가림판 받아쓰기 연습 (4부) |
| 자기지도학습 (self-supervised) | 정답을 사람이 안 달고, 데이터 자체에서 가져오는 학습 방식. | 다음 단어가 곧 정답 (4부) |
| 기본 모델 (base model) | 사전학습만 마쳐 패턴은 알지만 지시는 못 따르는 모델. | 박식하나 매너 없는 사람 (4부) |
| 사후학습 (post-training) | 기본 모델을 쓸모 있고 안전한 조수로 다듬는 단계(SFT·RLHF 등). | 면접 예절·코치 피드백 (4부) |
| 지시 미세조정 (SFT) | 모범 질문-답 예시를 흉내 내도록 추가 학습. | 모범 대화 따라 하기 (4부) |
| RLHF | 사람 선호로 모델 답을 다듬는 강화학습 계열 방법. | 글쓰기 코치의 선호 피드백 (4부) |
| 지식 컷오프 (knowledge cutoff) | 학습 데이터의 시점. 그 이후는 모름. | 특정 시점까지의 교과서 (4부, 6부) |
| 추론·생성 (inference·generation) | 완성된 모델이 한 토큰씩 답을 만들어내는 과정. | 한 칸씩 채우는 끝말잇기 (5부) |
| 자기회귀 (autoregressive) | 방금 만든 출력을 다시 입력에 더해 다음을 예측하는 방식. | 이어 쓰며 나아가기 (5부) |
| 샘플링 (sampling) | 확률 분포에서 다음 토큰을 (약간의 무작위로) 고르는 것. | 무게추 단 주사위 (5부) |
| temperature (온도) | 분포의 뾰족함/평평함을 조절해 일관성↔창의성을 바꾸는 손잡이. | 위험 다이얼 (5부) |
| 컨텍스트 윈도우 (context window) | 모델이 한 번에 볼 수 있는 토큰의 유한한 작업 공간. | 책상 넓이 (5부) |
| 환각 (hallucination) | 그럴듯하지만 사실과 다른 내용을 자신 있게 생성하는 현상. | 빈칸을 못 비우는 학생 (6부) |
| 중간 소실 (lost in the middle) | 긴 맥락에서 앞뒤는 잘 보고 가운데를 놓치는 U자 편향. | 긴 회의록의 가운데 페이지 (6부) |
| 사고 사슬 (chain-of-thought) | 답 전에 단계를 밟아 "생각하는" 듯 보이는 출력 방식. | 단계적 풀이 (6부, 7부) |
| 프롬프트 (prompt) | 모델에 넣는 입력. 컨텍스트의 출발점. | 즉흥 연주의 첫 소절 (7부) |
| RAG (검색 증강 생성) | 외부에서 자료를 검색해 프롬프트에 넣어 답하게 하는 기법. | 도서관 출입증 (7부) |
| 도구 사용 (tool use) | 계산·검색 등 약점을 외부 도구에 위임하는 것. | 도구 상자 든 조수 (7부) |
| 에이전트 (agent) | 프롬프트·검색·도구를 스스로 반복 조합하는 시스템. | 생각→행동→관찰 고리 (7부) |
B. 오개념 vs 사실 대조표
본문 곳곳의 "흔한 오해 깨기"를 한자리에 모았습니다.
| 흔히들 생각하길 | 실제로는 |
|---|---|
| AI가 답을 이해하고 나서 말을 만든다 | "다음 조각 예측"을 극한 훈련한 결과로 답처럼 보이는 텍스트가 나옴. 이해의 개입 정도는 논쟁 중 |
| AI는 검색 엔진이다 | 문서를 찾는 게 아니라 패턴에서 생성함. 검색은 별도로 붙인 기능 |
| AI는 사실 데이터베이스를 조회한다 | 사실이 파라미터에 분산 저장돼, 조회가 아니라 재구성함 |
| AI는 글자를 한 자씩 읽는다 | 토큰 덩어리로 봄. 그래서 글자 세기에 약함 |
| 왕−남자+여자=여왕 산수가 요즘 LLM에도 그대로 성립한다 | 옛 정적 임베딩의 성질. 현대 트랜스포머 내부는 더 복잡 |
| 내가 알려준 사실을 AI가 학습해 기억한다 | 대화 내용은 그 맥락에서만 쓰이고 가중치에 남지 않음 |
| RLHF로 모델이 진실을 말하도록 훈련된다 | 선호되는 답을 내도록 다듬을 뿐, 참을 보장하지 않음 |
| AI가 답을 먼저 완성한 뒤 풀어 쓴다 | 다음 한 토큰만 보고 나아감. 앞의 실수가 누적될 수 있음 |
| AI가 지난 대화를 다 기억한다 | 컨텍스트 창을 넘으면 사라짐. "기억하는 듯"은 다시 담아 주기 때문 |
| 답이 매번 다른 건 마음이 바뀌어서다 | 샘플링의 무작위성. 변덕이 아니라 설계 |
| 환각은 고치면 없어질 버그다 | 현재 설계의 구조적 성질에 가까움. 줄일 순 있어도 완전 제거는 어려움 |
| AI는 컴퓨터니까 계산은 정확하다 | 계산기가 아니라 언어 패턴 예측기. 정확한 계산은 도구에 맡겨야 함 |
| AI 편향은 누군가 그렇게 프로그래밍해서다 | 대개 명시적 코딩이 아니라 데이터를 반영하는 학습 방식에서 옴 |
| 에이전트는 사람처럼 자율적으로 계획·실행한다 | 매 단계가 여전히 "다음 토큰 예측+도구 호출"의 반복 |
| 더 큰 모델이 항상 더 낫다 | 데이터 품질·사후학습·용도 적합성도 중요. 작은 모델이 나을 때도 있음 |
C. 합의되지 않은 논쟁 주제 (단정 금지)
이 안내서가 일부러 한쪽으로 결론짓지 않은 주제들입니다. 누군가 이걸 "정설"처럼 말한다면 신중히 받아들이세요.
- LLM이 언어를 "이해"하는가 — 통계적 패턴 짜맞추기일 뿐이라는 입장과, 다음 토큰을 잘 맞히려면 세계의 내부 표상이 형성된다는 입장이 맞섭니다 (1부).
- LLM이 "추론"하는가 — 사고 사슬의 실용적 효과는 분명하나, 그것이 사람 같은 논리 실행인지는 논쟁 중입니다. 복잡도 붕괴를 둘러싼 연구와 그 반박이 공존합니다 (6부).
- 사고 사슬이 실제 근거를 충실히 반영하는가 — 보이는 "생각 과정"과 내부 계산이 일치한다는 보장은 없습니다(충실성 문제) (6부).
- 환각을 어디까지 줄일 수 있는가 — 평가·훈련 개선으로 줄이는 방법이 활발히 연구되지만, 완전 제거 가능 여부는 미정입니다 (6부).
- 차세대 아키텍처 — "다음 토큰 예측" 패러다임을 넘어서려는 시도(토크나이저 없는 구조, 개념 단위 모델 등)가 연구되고 있으나, 무엇이 표준이 될지는 정해지지 않았습니다.
의식·지각 여부처럼 더 멀리 나간 질문은 이 안내서의 범위를 넘어서며, 현재로선 과학적 합의가 없습니다.
D. 🔬 더 깊이 — 다음 단계 안내
본문의 🔬 콜아웃에서 다룬 주제를 더 파고들고 싶다면, 아래 키워드로 출발하면 좋습니다. (특정 링크는 빠르게 바뀌므로, 키워드 중심으로 안내합니다.)
| 더 알고 싶다면 | 찾아볼 키워드 |
|---|---|
| 트랜스포머의 원형 | "Attention Is All You Need" (2017, 트랜스포머를 제안한 논문) |
| 토큰화 구현 | byte-level BPE, SentencePiece, tiktoken |
| 임베딩의 고전 | word2vec, "king − man + woman" 분석 |
| 어텐션 수식 | scaled dot-product attention, softmax |
| 깊은 구조 | residual connection, layer normalization, causal masking |
| 학습 수학 | cross-entropy loss, backpropagation, gradient descent |
| 사후학습 변형 | RLHF, DPO, reward model |
| 생성 제어 | greedy decoding, top-k, top-p (nucleus sampling) |
| 긴 맥락 | KV cache, "Lost in the Middle" |
| 환각 연구 | "Why Language Models Hallucinate" (2025) |
| 추론 논쟁 | "The Illusion of Thinking"과 그 반박 논문들 |
수식이 부담스럽다면, 본문만으로도 원리는 충분히 잡힙니다. 위 자료는 "한 겹 더" 들어가고 싶을 때의 선택지입니다.
E. 추가 학습 자료 (유형별)
특정 사이트를 단정하기보다, 어떤 종류의 자료가 어떤 학습에 맞는지 안내합니다.
- 시각적 직관: 트랜스포머·어텐션을 애니메이션이나 인터랙티브 도구로 보여 주는 시각화 자료가 직관을 빠르게 키워 줍니다.
- 개념 강의: 대학 공개강의(NLP·딥러닝 입문)는 본문보다 한 단계 깊은 체계를 제공합니다.
- 원전 논문: 위 D표의 키워드로 원논문을 찾으면 1차 출처를 확인할 수 있습니다(영어·수식 포함).
- 직접 실습: 작은 모델을 돌려 보거나 토크나이저를 시각화해 보면, "토큰이 이렇게 잘리는구나"를 몸으로 익힙니다.
- 공식 문서: 특정 모델·제품의 최신 스펙(컨텍스트 길이·도구·가격 등)은 해당 제공사의 공식 문서가 가장 정확합니다(빠르게 바뀜).
F. 다른 시리즈 권 안내
이 안내서는 시리즈의 "원리 편"입니다. 여기서 잡은 토대가 후속 권들의 "왜 통하는가"를 떠받칩니다.
| 후속 권(예정·연계) | 이 안내서의 어느 부에서 이어지나 |
|---|---|
| 프롬프트 엔지니어링 실전 | 7.1 |
| RAG·검색 결합 구축 | 7.3 |
| 도구·에이전트 설계 | 7.4–7.5 |
| 모델 선택·평가 심화 | 7.6 |
마치며
LLM의 거의 모든 것은 한 문장에서 출발합니다 — "지금까지의 글을 보고, 다음에 올 가장 그럴듯한 한 조각을 고른다." 토큰화·임베딩·어텐션·학습·샘플링은 이 한 문장을 어떻게 거대한 규모로 잘 해내는지에 대한 답이고, 환각·편향·중간 소실 같은 한계는 이 한 문장에서 불가피하게 따라 나오는 그림자입니다. 그리고 프롬프트·RAG·도구·에이전트는 그 그림자를 메우려는 노력입니다.
원리를 손에 쥐면, 새로운 기법이나 모델을 만났을 때도 "이건 어느 한계를 어떻게 메우는 거지?"라고 스스로 물을 수 있습니다. 그게 이 안내서가 남기고 싶은 가장 단단한 도구입니다.
← 7부 원리에서 실전으로 · 목차