📖 LLM에서 텍스트 생성 과정 & 프롬프트 최적화

1️⃣ 텍스트 생성 원리

LLM(대규모 언어 모델)은 다음 단어가 무엇일지 확률적으로 계산해서 문장을 만들어 갑니다.
예를 들어,
“After the rain, the streets were …” 뒤에 올 수 있는 후보 단어와 확률이 있다고 할 때:

  • wet (0.40)
  • flooded (0.25)
  • slippery (0.15)
  • empty (0.10)
  • muddy (0.05)

모델은 이 확률을 기반으로 무작위 선택(random sampling) 하여 다음 단어를 생성합니다.
즉, LLM의 출력은 항상 확률적이므로, 같은 질문을 여러 번 해도 결과가 조금씩 달라질 수 있습니다.


2️⃣ 프롬프트 성능 최적화 (Prompt Performance Optimization)

Amazon Bedrock 같은 서비스에서는 출력 품질을 조절할 수 있는 여러 파라미터를 제공합니다.

🔹 System Prompt

  • 모델이 어떤 역할을 해야 하는지 미리 정의합니다.
  • 예: “너는 AWS 클라우드 선생님처럼 대답해줘.”
  • 톤과 답변 스타일을 설정할 수 있어, 일관된 답변을 얻는 데 유용합니다.


🔹 Temperature (0~1)

  • 창의성(랜덤성) 조절
  • 낮음 (예: 0.2) → 보수적, 반복적, 가장 가능성 높은 답변 선택
  • 높음 (예: 1.0) → 다양하고 창의적인 답변, 하지만 가끔은 덜 일관적일 수 있음

👉 시험 포인트: Temperature 값이 낮으면 일관성↑, 높으면 창의성↑


🔹 Top P (Nucleus Sampling)

  • 확률 분포 상위 몇 %의 단어만 고려할지 정하는 값
  • Low P (0.25) → 상위 25% 단어만 선택 → 더 일관적
  • High P (0.99) → 거의 모든 단어 고려 → 더 다양하고 창의적

👉 시험 포인트: Top P는 확률 누적 기준(percentile)


🔹 Top K

  • 몇 개의 후보 단어만 고려할지 숫자로 제한
  • Low K (10) → 상위 10개 단어만 → 더 예측 가능, 안정적
  • High K (500) → 상위 500개 단어 고려 → 더 다양하고 창의적

👉 시험 포인트: Top P는 비율(%), Top K는 개수(N)


🔹 Length

  • 생성되는 답변의 최대 길이 제한

🔹 Stop Sequences

  • 특정 토큰(문자열)을 만나면 생성을 중단

3️⃣ 프롬프트 지연시간 (Prompt Latency)

Latency = 모델이 응답하는 속도

영향 받는 요소:

  • 모델 크기 (큰 모델일수록 느림)
  • 모델 종류 (예: LLaMA vs Claude → 성능 차이 있음)
  • 입력 토큰 수 (입력이 길면 느려짐)
  • 출력 토큰 수 (많이 생성할수록 느려짐)

👉 시험 포인트:

  • Latency에 영향을 주지 않는 것: Temperature, Top P, Top K

4️⃣ 정리 표

파라미터 의미 낮은 값 높은 값
System Prompt 모델의 역할과 톤을 지정 동일 동일
Temperature 창의성 보수적, 일관적 다양, 창의적
Top P 확률 누적 비율 일관성↑ 창의성↑
Top K 후보 단어 개수 안정적 다양, 창의적
Length 최대 출력 길이 짧은 답변 긴 답변
Stop Sequences 생성 중단 조건 필요 시 제어 필요 시 제어
Latency 영향 요소 속도 결정 모델 크기, 토큰 수 동일
Latency 비영향 요소 속도와 무관 Temp, Top P, Top K 동일

5️⃣ 시험에 자주 나오는 포인트

  • Temperature / Top P / Top K 차이점 (시험에서 자주 비교 문제 나옴)
  • Latency에 영향을 주는 요소 vs 주지 않는 요소
  • System Prompt는 모델의 역할과 톤을 지정할 수 있음
  • Length / Stop Sequence는 출력 제어 방법으로 자주 언급됨

👉 요약하자면,
LLM의 텍스트 생성은 확률적 과정이며,
Temperature, Top P, Top K 같은 설정으로 창의성과 일관성을 조절할 수 있습니다.
또한 Latency는 모델 크기와 토큰 수에 따라 달라지지만,
Sampling 관련 파라미터(Temp, Top P, Top K) 에는 영향을 받지 않습니다.