📚 생성형 AI 핵심 개념 – 토큰화, 컨텍스트 윈도우, 임베딩

이 세 가지는 생성형 AI(GenAI)의 기본 개념으로, 시험 문제에도 자주 등장하고 LLM(대규모 언어 모델)을 이해하는 데 꼭 필요합니다.

1. 🔹 토큰화(Tokenization)

정의
텍스트를 모델이 이해할 수 있는 작은 단위인 토큰(token) 으로 쪼개는 과정입니다.
모델은 단어가 아니라 토큰 단위로 학습하고 추론합니다.

종류

단어 단위 토큰화 (Word-based)
- 문장을 단어 단위로 분리
- 예: "The cat sat" → ["The", "cat", "sat"]
서브워드 단위 토큰화 (Subword-based)
- 긴 단어나 잘 안 쓰이는 단어를 더 작은 의미 단위로 분리
- 예: "unacceptable" → "un" + "acceptable"

중요한 이유

예시
문장 : "Danny, Good job!! Learning AI technology is incredibly difficult, but it's worth it."

📌 시험 포인트

정의
LLM이 한 번에 처리할 수 있는 최대 토큰 수(입력 + 출력) 를 의미합니다.

왜 중요한가?

대표 모델별 컨텍스트 윈도우

체감 예시

📌 시험 포인트

정의
텍스트·이미지·오디오 같은 데이터를 수치 벡터(vector) 로 변환한 표현 방식입니다.

처리 과정

예: "cat" → [0.025, -0.12, 0.33, ...] (보통 100차원 이상)

왜 고차원 벡터?

시각화 예시 (2D)

📌 시험 포인트

개념	설명	중요한 이유	예시
토큰화	텍스트를 토큰으로 분리	모델은 토큰 단위로 처리, 비용·성능에 영향	`"unacceptable"` → `"un"`, `"acceptable"`
컨텍스트 윈도우	모델이 한 번에 처리 가능한 토큰 수	클수록 더 많은 문맥 가능, 하지만 비용↑	GPT-4 Turbo = 128k 토큰
임베딩	데이터를 숫자 벡터로 변환	의미·문법·감정을 반영해 검색/추천에 활용	`"dog"` 벡터 ↔ `"puppy"` 벡터 가까움

✅ AWS 시험 핵심 포인트 정리

토큰 = 모델의 최소 단위 (단어가 아님, 구두점도 포함됨).
컨텍스트 윈도우 = 입력+출력 전체 토큰 수.
임베딩 = 벡터 표현, RAG에서 필수.
유사도 검색 = KNN (코사인 유사도/유클리드 거리).
AWS에서 벡터 검색 = OpenSearch / Aurora(pgvector) / Neptune Analytics / S3 Vectors.