영수증·명함·스캔 PDF에서 글자를 뽑아내야 할 때, 어떤 도구를 골라야 할지 막막한 분들이 많습니다. 영어 OCR은 무료 도구만으로도 충분하다는 글이 많은데, 한국어는 이야기가 좀 다릅니다.

저도 사이드 프로젝트에서 한국어 영수증을 자동으로 읽어야 할 일이 생겨서 며칠을 비교에 썼습니다. 그 과정에서 정리한 결과를 공유합니다. 코드를 직접 짜본 적 없어도 흐름은 따라올 수 있게 풀어 썼습니다.
비교 대상은 세 가지입니다. 오픈소스의 대표격인 Tesseract, 중국 바이두가 만든 PaddleOCR, 그리고 OpenAI의 멀티모달 모델 GPT-4V입니다.
OCR이 뭐고, 한국어는 왜 까다로운가
OCR은 Optical Character Recognition의 줄임말로, 이미지 속 글자를 컴퓨터가 읽을 수 있는 텍스트로 바꿔주는 기술입니다. 사진 속 메뉴판을 카피해서 검색창에 붙여넣고 싶을 때 쓰는 그 기능이라고 보면 됩니다.
영어는 알파벳 26자에 모양도 단순합니다. 그런데 한국어는 사정이 다릅니다.
- 자음·모음을 조합해 만들 수 있는 글자가 11,172자
- 받침이 있는 글자(밝, 닭, 값)는 형태가 복잡해 인식 난이도 ↑
- 한자·숫자·영문이 한 줄에 섞여 나오는 경우가 흔함 (영수증·계약서)
그래서 영어 기준으로 "정확도 95%"인 OCR도 한국어로 돌리면 70~80%대로 떨어지는 일이 흔합니다. 이걸 모르고 들어가면 한참 헤맵니다(저도 그랬습니다).
비교에 쓴 테스트 이미지
공정한 비교를 위해 4가지 유형의 이미지를 준비했습니다. 모두 휴대폰으로 직접 찍은 한국어 자료입니다.
| 유형 | 설명 | 난이도 |
|---|---|---|
| 깔끔한 인쇄물 | A4에 출력한 한글 본문 | 쉬움 |
| 영수증 | 편의점 감열지, 흐릿함 | 중간 |
| 손글씨 메모 | 볼펜으로 쓴 메모지 | 어려움 |
| 간판 사진 | 야외에서 비스듬히 촬영 | 어려움 |
각 이미지를 세 도구에 동일하게 넣고, 글자 정확도(CER, Character Error Rate)·처리 시간·구축 난이도를 봤습니다. CER은 100자 중 몇 글자가 틀렸는지를 나타내는 지표라고 보면 됩니다 (낮을수록 좋음).
같은 이미지 4장
↓
┌──────────┬──────────┬──────────┐
│ Tesseract│PaddleOCR │ GPT-4V │
└──────────┴──────────┴──────────┘
↓ ↓ ↓
정확도 / 속도 / 비용 측정
Tesseract — 무료지만 한국어엔 한계
Tesseract는 구글이 후원하는 가장 오래된 오픈소스 OCR 엔진입니다. 무료에 설치도 비교적 간단한 게 강점입니다.
설치는 맥이라면 brew install tesseract tesseract-lang 한 줄, 윈도우는 공식 설치 파일이 있습니다. 한국어 데이터 파일(kor.traineddata)을 같이 받아야 한국어를 읽습니다. 안 그러면 한글 자리에 물음표만 잔뜩 나옵니다.
테스트 결과는 솔직히 좀 실망스러웠습니다.
| 이미지 | CER | 비고 |
|---|---|---|
| 깔끔한 인쇄물 | 약 8% | 받침 자주 틀림 |
| 영수증 | 약 35% | 거의 못 읽음 |
| 손글씨 | 약 60%+ | 사실상 사용 불가 |
| 간판 | 약 45% | 기울기에 약함 |
깔끔한 A4 출력물은 그럭저럭 읽지만, 영수증부터는 무너집니다. "삼각김밥"을 "삼각긴밥", "1,500원"을 "I,500원" 같은 식으로 받침과 숫자를 자주 틀렸습니다.
💡 Tesseract는 v5부터 LSTM(딥러닝) 엔진이 기본인데도 한국어 학습 데이터가 상대적으로 빈약합니다. 영어·독일어 수준의 정확도를 기대하면 실망합니다.
장점은 명확합니다. 완전 무료·오프라인 실행·서버에 깔아 두고 무한정 돌릴 수 있음. 데이터를 외부로 보내면 안 되는 상황(개인정보·내부 문서)에서는 여전히 1순위 후보입니다.
PaddleOCR — 한국어 정확도가 가장 안정적
PaddleOCR은 중국 바이두가 만든 OCR 라이브러리입니다. 다국어 모델이 잘 만들어져 있어서, 무료 도구 중 한국어 정확도는 사실상 톱이라는 평이 많습니다. 실제로 써보니 그 평가가 과장이 아니었습니다.
설치는 Tesseract보다 살짝 까다롭습니다. 파이썬 환경이 필요하고 (Python 3.8 이상 권장), pip install paddlepaddle paddleocr 명령으로 설치합니다. 비개발자라면 이 단계에서 한 번 막힐 수 있는데, 구글에 "PaddleOCR 설치 윈도우/맥"으로 검색하면 단계별 가이드가 많이 나옵니다.
테스트 결과는 이렇습니다.
| 이미지 | CER | 비고 |
|---|---|---|
| 깔끔한 인쇄물 | 약 2% | 거의 완벽 |
| 영수증 | 약 12% | 흐릿한 숫자만 약함 |
| 손글씨 | 약 40% | 또박또박한 글씨는 OK |
| 간판 | 약 15% | 기울기 보정 잘 됨 |
특히 영수증과 간판처럼 각도가 있거나 흐릿한 이미지에서 Tesseract와 격차가 컸습니다. 글자 영역을 먼저 찾아내는 검출(detection) 단계가 잘 학습돼 있어서, 비스듬한 글자도 똑바로 세워서 인식해줍니다.
단점도 있습니다.
- 처음 실행 시 모델 파일을 자동으로 받는데 약 200MB 이상
- CPU만으로 돌리면 한 장에 1~3초로 좀 느림 (GPU 있으면 0.3초 수준)
- 문서가 영어·중국어 위주라 한글 자료가 적음
그래도 무료·오프라인 가능·정확도 양호 세 박자가 맞아서, 개인정보가 포함된 문서를 처리해야 하는 분께 가장 추천합니다.
GPT-4V — 정확도는 최고, 비용이 변수
GPT-4V는 OpenAI의 멀티모달 모델로, 이미지를 직접 이해하고 텍스트로 답해줍니다. 엄밀히 말하면 OCR 전용 도구가 아니라 "이미지를 보는 챗봇"인데, 한국어 OCR 정확도가 놀라울 정도로 높습니다.
테스트 결과부터 보겠습니다.
| 이미지 | CER | 비고 |
|---|---|---|
| 깔끔한 인쇄물 | 약 1% 미만 | 거의 무결점 |
| 영수증 | 약 5% | 흐린 글자도 추론으로 채움 |
| 손글씨 | 약 15% | 압도적으로 우세 |
| 간판 | 약 8% | 맥락까지 이해 |
특히 손글씨에서 차이가 컸습니다. 다른 두 도구가 사실상 포기한 메모를 GPT-4V는 대부분 읽어냈습니다. "맥락"을 이해하기 때문입니다. 예를 들어 "회으" 같이 흐리게 적힌 글자도 앞뒤 문장을 보고 "회의"로 정확히 잡아냅니다.
대신 단점이 셋 있습니다.
- 비용: API 호출당 과금. 글 작성 시점 기준 GPT-4o 모델로 이미지 한 장 처리 시 약 0.005~0.02달러. 영수증 1만 장이면 50~200달러.
- 속도: 한 장에 3~8초 (네트워크 포함). 대량 처리엔 비효율.
- 데이터 외부 전송: API로 이미지를 OpenAI 서버로 보냅니다. 민감 정보는 주의.
💡 OpenAI 정책상 API로 보낸 데이터는 기본적으로 학습에 쓰이지 않지만, "외부 서버로 나간다"는 사실 자체가 문제인 업무라면 후보에서 제외해야 합니다.
한눈에 비교 — 어떤 걸 고를까
세 도구의 특징을 한 표로 정리하면 이렇습니다.
| 항목 | Tesseract | PaddleOCR | GPT-4V |
|---|---|---|---|
| 한국어 정확도 | 낮음 | 양호 | 매우 높음 |
| 손글씨 | ✗ | △ | ⭕ |
| 비용 | 무료 | 무료 | 유료(API) |
| 오프라인 | ⭕ | ⭕ | ✗ |
| 처리 속도(CPU) | 빠름 | 보통 | 느림 |
| 설치 난이도 | 쉬움 | 보통 | 가입만 하면 OK |
| 개인정보 안전 | ⭕ | ⭕ | △ |
상황별 추천을 적어두면 이렇습니다.
- 개인 사이드 프로젝트로 영수증·간판 정도 처리: PaddleOCR
- 민감 자료를 사내 서버에서 대량 처리: PaddleOCR (또는 Tesseract+후처리)
- 손글씨 메모·복잡한 레이아웃·정확도 최우선: GPT-4V
- 영어 위주 + 한국어는 가끔만: Tesseract도 충분
- 하이브리드: PaddleOCR로 1차 처리 → 신뢰도 낮은 항목만 GPT-4V로 재확인 (비용 ↓ 정확도 ↑)
마지막 하이브리드 방식이 실무에서 꽤 합리적입니다. 저도 결국 이 조합으로 갔습니다.
직접 돌려보기 전 체크리스트
도구를 정하기 전에 자기 데이터로 한 번 돌려보는 게 가장 정확합니다. 후기보다 자기 이미지가 결국 정답입니다.
- [ ] 처리할 이미지 샘플 10~20장 준비
- [ ] 정답 텍스트를 한 번 직접 타이핑해 둠 (정확도 측정용)
- [ ] 개인정보·기밀 포함 여부 확인 (포함 시 클라우드 API 제외)
- [ ] 월 처리 예상 건수 계산 (GPT-4V 비용 추산용)
- [ ] 오프라인 실행이 필수인지 결정
이 다섯 가지만 체크해도 후보가 1~2개로 좁혀집니다.
마무리
같은 한국어 OCR이라도 도구별 격차가 생각보다 큽니다. Tesseract는 한국어에서 한계가 분명하고, PaddleOCR은 무료 중 가장 안정적이며, GPT-4V는 비용을 감당할 수 있다면 정확도 면에서 앞섭니다.
저처럼 비용·정확도·보안을 모두 신경 써야 한다면 PaddleOCR을 기본 + GPT-4V를 보조로 쓰는 조합을 한 번 검토해보길 권합니다. 다음에 시간이 되면 PaddleOCR 설치부터 첫 실행까지 비개발자 기준으로 풀어쓰는 글도 올려보겠습니다.
'개발 & 기술 > 컴퓨터 비전' 카테고리의 다른 글
| 스마트폰 카메라로 OCR 만들기 — 명함·영수증 1초 인식 (0) | 2026.06.19 |
|---|---|
| YOLO 실전 예제: 채용공고 이미지에서 정보 자동 추출하기 (0) | 2026.06.12 |
| 이미지 배경 제거 AI 비교 — Remove.bg·Photoroom·SAM (0) | 2026.06.05 |
| 실시간 얼굴 인식 만들기 — 웹캠으로 30분 완성 (0) | 2026.05.26 |
| YOLO v11 한국어 사용법, 객체 인식 5분 시작 가이드 (0) | 2026.05.26 |