Few-shot 프롬프트 제대로 쓰는 법: 예시 개수와 순서의 비밀

AI & LLM/프롬프트 엔지니어링

Few-shot 프롬프트 제대로 쓰는 법: 예시 개수와 순서의 비밀

Lumin 2026. 6. 10. 20:57

ChatGPT나 Claude를 한참 쓰다 보면 어느 순간 벽에 부딪힙니다. 같은 작업을 시켰는데 어떨 땐 완벽하고, 어떨 땐 엉뚱한 답을 내놓습니다. 이 격차를 줄이는 가장 검증된 기법이 Few-shot 프롬프트입니다.

이 글에서는 Few-shot이 정확히 무엇이고, 예시를 몇 개 넣어야 하며, 그 순서가 결과에 어떤 영향을 주는지 다룹니다. 코딩 지식 없이도 따라올 수 있게 풀어 썼습니다. ChatGPT 유료 버전을 쓰고 계신 분이라면 오늘 바로 적용 가능한 내용입니다.

Few-shot 프롬프트가 뭐길래

Few-shot 프롬프트는 AI에게 원하는 출력의 예시를 몇 개 보여준 뒤 같은 패턴으로 답하게 하는 기법입니다. "이렇게 해줘"라고 말로 설명하는 대신, "이런 식으로 — 봐봐, 이렇게 — 해줘"라고 견본을 들이미는 셈입니다.

이름의 "shot"은 예시 한 개를 뜻합니다. 예시가 0개면 zero-shot, 1개면 one-shot, 보통 2~5개를 넣으면 few-shot이라 부릅니다.

비유하자면 신입사원 교육과 비슷합니다. "고객 응대 잘하세요"라고 말하는 것보다, 잘 된 응대 사례 3건을 보여주는 쪽이 훨씬 빠르게 감을 잡잖아요.

방식	설명	적합한 상황
Zero-shot	예시 없이 지시만	일반적이고 흔한 작업 (요약, 번역)
One-shot	예시 1개	형식이 약간 특이할 때
Few-shot	예시 2~5개	출력 포맷이 까다롭거나 일관성이 중요할 때

왜 그냥 설명하면 안 되나

말로만 설명하면 AI가 "해석의 자유"를 너무 많이 갖기 때문입니다. 예시는 그 자유도를 좁혀줍니다.

예를 들어 "고객 리뷰를 긍정/부정/중립으로 분류해줘"라고만 하면, AI는 "배송이 빨랐어요"를 긍정으로 볼 수도, 중립으로 볼 수도 있습니다. 어느 쪽도 틀린 답은 아니거든요.

그런데 이렇게 바꾸면 다릅니다.

리뷰: 가격은 비싼데 품질은 좋아요. → 중립
리뷰: 색상이 사진이랑 달라요. → 부정
리뷰: 다음에도 또 살 거예요. → 긍정

리뷰: 배송이 빨랐어요. →

이제 AI는 "감정의 강도"를 본다는 걸 압니다. 단순히 단어가 긍정적이냐가 아니라 재구매 의사·만족도 같은 기준을 추론합니다. 이게 Few-shot의 핵심 효과입니다.

예시는 몇 개가 적정선인가

대부분의 작업에서 3~5개가 가장 효율적입니다. Anthropic 공식 프롬프트 가이드와 OpenAI Cookbook 모두 이 범위를 권장합니다.

직접 테스트해본 결과를 정리하면 이렇습니다 (글 작성 시점 기준, GPT-4 / Claude 3.5 Sonnet 양쪽).

예시 개수	정확도 변화	토큰 비용	비고
0개	기준선	최저	흔한 작업이면 충분
1개	+10~20%	거의 동일	형식만 잡는 용도
3개	+30~50%	약간 증가	가성비 최고 구간
5개	+35~55%	명확히 증가	복잡한 분류 작업에 유효
10개 이상	정체 또는 하락	큰 증가	과적합·맥락 흐림

핵심은 6개 넘어가면 수익이 급감한다는 점입니다. 어떤 분야에서는 오히려 떨어지기도 합니다. AI가 예시들 사이의 미묘한 차이에 과도하게 집중하면서 핵심 패턴을 놓치는 현상입니다.

💡 예시를 늘려도 결과가 안 좋아진다면, 개수를 늘릴 게 아니라 예시의 다양성을 늘려야 합니다.

순서가 결과를 바꾼다

이게 의외로 많이 놓치는 부분입니다. 같은 예시 3개라도 어떤 순서로 배치하느냐에 따라 답이 달라집니다.

특히 두 가지 효과가 강합니다.

1. 최근성 편향 (Recency bias) LLM은 프롬프트의 마지막 부분에 가까운 예시에 더 큰 가중치를 둡니다. Stanford 연구진의 2022년 논문 "Calibrate Before Use"를 비롯해 여러 후속 연구에서 반복 확인된 현상입니다.

즉 분류 작업에서 마지막 예시 3개가 모두 "긍정"이면, 실제 입력에 대한 답도 "긍정" 쪽으로 쏠립니다.

2. 다수 라벨 편향 (Majority label bias) 예시 5개 중 4개가 "긍정"이면, AI는 "이 작업은 대체로 긍정이 정답이구나"라고 학습합니다. 균형이 무너지면 답도 같이 무너집니다.

[잘못된 배치]                    [올바른 배치]
긍정 예시                        부정 예시
긍정 예시         →              긍정 예시
긍정 예시                        중립 예시
부정 예시                        긍정 예시
중립 예시                        부정 예시
                                 (라벨 골고루 + 마지막 편향 분산)

좋은 예시를 고르는 기준

예시 자체의 품질이 개수보다 훨씬 중요합니다. 제가 실무에서 쓰는 체크리스트입니다.

[ ] 라벨(정답) 분포가 골고루 섞여 있는가
[ ] 실제 사용 시 들어올 입력과 형식·길이·말투가 비슷한가
[ ] 애매한 경계 사례(edge case)가 1개 이상 포함됐는가
[ ] 예시끼리 서로 모순되지 않는가
[ ] 출력 형식이 글자 단위로 동일한가 (대소문자, 구두점 포함)

마지막 항목이 특히 중요합니다. 예시에서 "긍정"이라고 썼다가 "긍정적"이라고 쓰면, AI는 둘 다 출력으로 내보낼 확률이 생깁니다. 후처리할 때 골치 아파집니다.

실전 예: 이메일 분류기 만들기

비개발자분들이 엑셀 자동화에 가장 많이 쓰는 시나리오로 직접 만들어보겠습니다. 받은 이메일을 "문의/불만/스팸/기타"로 분류하는 작업입니다.

나쁜 프롬프트 (zero-shot, 모호함)

다음 이메일을 문의, 불만, 스팸, 기타 중 하나로 분류해줘.

좋은 프롬프트 (few-shot, 4개 예시)

다음 이메일을 [문의/불만/스팸/기타] 중 하나로 분류하세요.

이메일: 결제는 했는데 영수증이 안 와요. 확인 부탁드립니다.
분류: 문의

이메일: 일주일째 답이 없네요. 환불해주세요.
분류: 불만

이메일: 🎁 당신만을 위한 특별 할인! 지금 클릭!
분류: 스팸

이메일: 안녕하세요, 잘 지내시죠? 다음에 식사라도.
분류: 기타

이메일: {여기에 분류할 이메일 입력}
분류:

이 프롬프트의 포인트는 세 가지입니다.

라벨 4개를 각각 한 번씩 넣어 균형을 맞춤
마지막 예시를 "기타"로 둬서 최근성 편향이 특정 범주에 쏠리지 않게 함
출력 포맷이 항상 분류: [라벨] 한 줄로 통일

실제로 테스트해보면 zero-shot 대비 정확도가 눈에 띄게 올라갑니다. 특히 애매한 메일(예: 정중한 항의 메일)에서 차이가 큽니다.

자주 막히는 부분

처음 Few-shot을 적용하면서 저도 한참 헤맸던 지점들입니다.

예시를 너무 길게 쓴다

이메일 분류기를 만든다고 진짜 본문 30줄짜리 이메일을 통째로 넣는 분들이 있습니다. 예시가 길어지면 AI가 "어디까지가 입력이고 어디부터가 출력인지" 헷갈려합니다. 실제 입력의 평균 길이와 비슷하거나 약간 짧게 유지하는 게 좋습니다.

구분자를 안 쓴다

이메일:, 분류: 같은 라벨 없이 줄글로 늘어놓으면 AI가 패턴 인식을 못 합니다. 예시들 사이에 빈 줄을 한 줄씩 넣고, 각 항목 앞에 명확한 라벨을 붙여야 합니다.

예시와 실제 입력의 분위기가 다르다

예시는 격식 있는 비즈니스 이메일인데 실제 분류할 입력은 카톡 말투면 안 됩니다. 예시는 실제 들어올 데이터의 축소판이어야 합니다. 솔직히 이게 제일 어렵습니다. 미리 입력 샘플을 10~20개 모아두고 거기서 대표 케이스를 골라내는 게 정석입니다.

모순되는 예시를 섞는다

비슷한 입력에 다른 라벨을 붙이면 AI가 혼란스러워합니다. 예시 작성 후에는 반드시 자기 자신과의 일관성을 한 번 검토해야 합니다.

마무리

Few-shot 프롬프트는 결국 "AI에게 견본을 보여주는 일"입니다. 다만 그 견본의 개수, 순서, 다양성, 일관성 네 가지를 모두 챙겨야 효과가 납니다.

오늘 바로 시도해볼 거리를 하나만 꼽자면, 평소에 자주 쓰는 프롬프트 하나를 골라 예시 3개를 추가해보는 것입니다. 분류·요약·말투 변환 같은 반복 작업이라면 효과를 즉시 체감합니다.

다음에는 Few-shot의 한계와 함께 쓰면 좋은 Chain-of-Thought 기법을 다뤄보려 합니다. 그때까지 만들어둔 프롬프트들을 정리해두시면 좋습니다.

'AI & LLM > 프롬프트 엔지니어링' 카테고리의 다른 글

프롬프트 안 좋은 예시 5가지 — 답변 망치는 표현 (0)	2026.06.17
한국어 프롬프트 vs 영어 프롬프트, 답변 차이 직접 비교 (1)	2026.06.14
역할 부여 프롬프트 한국어 예제 20선과 활용법 (0)	2026.06.03
이미지 생성 AI 프롬프트 작성법 6단계 공식 (0)	2026.06.02
프롬프트 매직 워드 15선, 답변 품질 2배 올리는 한 줄 (0)	2026.05.24

현재글Few-shot 프롬프트 제대로 쓰는 법: 예시 개수와 순서의 비밀

Daily AI Lab

판교에서 일하는 인공지능 개발자 루민입니다. AI/LLM 활용과 개발 실험을 기록합니다.

데이트코스, 시립대맛집, Claude, claudecode, 바이브코딩, AI도구, 대학로맛집, 회기맛집, 내돈내산, 회기역맛집, Anthropic, AI코딩, vscode, openai, AI트렌드, 경희대맛집, 프롬프트엔지니어링, 생성형AI, 딥페이크, ChatGPT,

Today :
Yesterday :

Daily AI Lab