개발 & 기술/컴퓨터 비전

한국어 OCR 비교 — Tesseract·PaddleOCR·GPT-4V 실전 후기

Lumin 2026. 6. 6. 17:29
반응형

영수증·명함·스캔 PDF에서 글자를 뽑아내야 할 때, 어떤 도구를 골라야 할지 막막한 분들이 많습니다. 영어 OCR은 무료 도구만으로도 충분하다는 글이 많은데, 한국어는 이야기가 좀 다릅니다.

저도 사이드 프로젝트에서 한국어 영수증을 자동으로 읽어야 할 일이 생겨서 며칠을 비교에 썼습니다. 그 과정에서 정리한 결과를 공유합니다. 코드를 직접 짜본 적 없어도 흐름은 따라올 수 있게 풀어 썼습니다.

비교 대상은 세 가지입니다. 오픈소스의 대표격인 Tesseract, 중국 바이두가 만든 PaddleOCR, 그리고 OpenAI의 멀티모달 모델 GPT-4V입니다.

OCR이 뭐고, 한국어는 왜 까다로운가

OCR은 Optical Character Recognition의 줄임말로, 이미지 속 글자를 컴퓨터가 읽을 수 있는 텍스트로 바꿔주는 기술입니다. 사진 속 메뉴판을 카피해서 검색창에 붙여넣고 싶을 때 쓰는 그 기능이라고 보면 됩니다.

영어는 알파벳 26자에 모양도 단순합니다. 그런데 한국어는 사정이 다릅니다.

  • 자음·모음을 조합해 만들 수 있는 글자가 11,172자
  • 받침이 있는 글자(밝, 닭, 값)는 형태가 복잡해 인식 난이도 ↑
  • 한자·숫자·영문이 한 줄에 섞여 나오는 경우가 흔함 (영수증·계약서)

그래서 영어 기준으로 "정확도 95%"인 OCR도 한국어로 돌리면 70~80%대로 떨어지는 일이 흔합니다. 이걸 모르고 들어가면 한참 헤맵니다(저도 그랬습니다).

비교에 쓴 테스트 이미지

공정한 비교를 위해 4가지 유형의 이미지를 준비했습니다. 모두 휴대폰으로 직접 찍은 한국어 자료입니다.

유형 설명 난이도
깔끔한 인쇄물 A4에 출력한 한글 본문 쉬움
영수증 편의점 감열지, 흐릿함 중간
손글씨 메모 볼펜으로 쓴 메모지 어려움
간판 사진 야외에서 비스듬히 촬영 어려움

각 이미지를 세 도구에 동일하게 넣고, 글자 정확도(CER, Character Error Rate)·처리 시간·구축 난이도를 봤습니다. CER은 100자 중 몇 글자가 틀렸는지를 나타내는 지표라고 보면 됩니다 (낮을수록 좋음).

같은 이미지 4장
   ↓
┌──────────┬──────────┬──────────┐
│ Tesseract│PaddleOCR │  GPT-4V  │
└──────────┴──────────┴──────────┘
   ↓          ↓           ↓
정확도 / 속도 / 비용 측정

Tesseract — 무료지만 한국어엔 한계

Tesseract는 구글이 후원하는 가장 오래된 오픈소스 OCR 엔진입니다. 무료에 설치도 비교적 간단한 게 강점입니다.

설치는 맥이라면 brew install tesseract tesseract-lang 한 줄, 윈도우는 공식 설치 파일이 있습니다. 한국어 데이터 파일(kor.traineddata)을 같이 받아야 한국어를 읽습니다. 안 그러면 한글 자리에 물음표만 잔뜩 나옵니다.

테스트 결과는 솔직히 좀 실망스러웠습니다.

이미지 CER 비고
깔끔한 인쇄물 약 8% 받침 자주 틀림
영수증 약 35% 거의 못 읽음
손글씨 약 60%+ 사실상 사용 불가
간판 약 45% 기울기에 약함

깔끔한 A4 출력물은 그럭저럭 읽지만, 영수증부터는 무너집니다. "삼각김밥"을 "삼각긴밥", "1,500원"을 "I,500원" 같은 식으로 받침과 숫자를 자주 틀렸습니다.

💡 Tesseract는 v5부터 LSTM(딥러닝) 엔진이 기본인데도 한국어 학습 데이터가 상대적으로 빈약합니다. 영어·독일어 수준의 정확도를 기대하면 실망합니다.

장점은 명확합니다. 완전 무료·오프라인 실행·서버에 깔아 두고 무한정 돌릴 수 있음. 데이터를 외부로 보내면 안 되는 상황(개인정보·내부 문서)에서는 여전히 1순위 후보입니다.

PaddleOCR — 한국어 정확도가 가장 안정적

PaddleOCR은 중국 바이두가 만든 OCR 라이브러리입니다. 다국어 모델이 잘 만들어져 있어서, 무료 도구 중 한국어 정확도는 사실상 톱이라는 평이 많습니다. 실제로 써보니 그 평가가 과장이 아니었습니다.

설치는 Tesseract보다 살짝 까다롭습니다. 파이썬 환경이 필요하고 (Python 3.8 이상 권장), pip install paddlepaddle paddleocr 명령으로 설치합니다. 비개발자라면 이 단계에서 한 번 막힐 수 있는데, 구글에 "PaddleOCR 설치 윈도우/맥"으로 검색하면 단계별 가이드가 많이 나옵니다.

테스트 결과는 이렇습니다.

이미지 CER 비고
깔끔한 인쇄물 약 2% 거의 완벽
영수증 약 12% 흐릿한 숫자만 약함
손글씨 약 40% 또박또박한 글씨는 OK
간판 약 15% 기울기 보정 잘 됨

특히 영수증과 간판처럼 각도가 있거나 흐릿한 이미지에서 Tesseract와 격차가 컸습니다. 글자 영역을 먼저 찾아내는 검출(detection) 단계가 잘 학습돼 있어서, 비스듬한 글자도 똑바로 세워서 인식해줍니다.

단점도 있습니다.

  • 처음 실행 시 모델 파일을 자동으로 받는데 약 200MB 이상
  • CPU만으로 돌리면 한 장에 1~3초로 좀 느림 (GPU 있으면 0.3초 수준)
  • 문서가 영어·중국어 위주라 한글 자료가 적음

그래도 무료·오프라인 가능·정확도 양호 세 박자가 맞아서, 개인정보가 포함된 문서를 처리해야 하는 분께 가장 추천합니다.

GPT-4V — 정확도는 최고, 비용이 변수

GPT-4V는 OpenAI의 멀티모달 모델로, 이미지를 직접 이해하고 텍스트로 답해줍니다. 엄밀히 말하면 OCR 전용 도구가 아니라 "이미지를 보는 챗봇"인데, 한국어 OCR 정확도가 놀라울 정도로 높습니다.

테스트 결과부터 보겠습니다.

이미지 CER 비고
깔끔한 인쇄물 약 1% 미만 거의 무결점
영수증 약 5% 흐린 글자도 추론으로 채움
손글씨 약 15% 압도적으로 우세
간판 약 8% 맥락까지 이해

특히 손글씨에서 차이가 컸습니다. 다른 두 도구가 사실상 포기한 메모를 GPT-4V는 대부분 읽어냈습니다. "맥락"을 이해하기 때문입니다. 예를 들어 "회으" 같이 흐리게 적힌 글자도 앞뒤 문장을 보고 "회의"로 정확히 잡아냅니다.

대신 단점이 셋 있습니다.

  1. 비용: API 호출당 과금. 글 작성 시점 기준 GPT-4o 모델로 이미지 한 장 처리 시 약 0.005~0.02달러. 영수증 1만 장이면 50~200달러.
  2. 속도: 한 장에 3~8초 (네트워크 포함). 대량 처리엔 비효율.
  3. 데이터 외부 전송: API로 이미지를 OpenAI 서버로 보냅니다. 민감 정보는 주의.
💡 OpenAI 정책상 API로 보낸 데이터는 기본적으로 학습에 쓰이지 않지만, "외부 서버로 나간다"는 사실 자체가 문제인 업무라면 후보에서 제외해야 합니다.

한눈에 비교 — 어떤 걸 고를까

세 도구의 특징을 한 표로 정리하면 이렇습니다.

항목 Tesseract PaddleOCR GPT-4V
한국어 정확도 낮음 양호 매우 높음
손글씨
비용 무료 무료 유료(API)
오프라인
처리 속도(CPU) 빠름 보통 느림
설치 난이도 쉬움 보통 가입만 하면 OK
개인정보 안전

상황별 추천을 적어두면 이렇습니다.

  • 개인 사이드 프로젝트로 영수증·간판 정도 처리: PaddleOCR
  • 민감 자료를 사내 서버에서 대량 처리: PaddleOCR (또는 Tesseract+후처리)
  • 손글씨 메모·복잡한 레이아웃·정확도 최우선: GPT-4V
  • 영어 위주 + 한국어는 가끔만: Tesseract도 충분
  • 하이브리드: PaddleOCR로 1차 처리 → 신뢰도 낮은 항목만 GPT-4V로 재확인 (비용 ↓ 정확도 ↑)

마지막 하이브리드 방식이 실무에서 꽤 합리적입니다. 저도 결국 이 조합으로 갔습니다.

직접 돌려보기 전 체크리스트

도구를 정하기 전에 자기 데이터로 한 번 돌려보는 게 가장 정확합니다. 후기보다 자기 이미지가 결국 정답입니다.

  • [ ] 처리할 이미지 샘플 10~20장 준비
  • [ ] 정답 텍스트를 한 번 직접 타이핑해 둠 (정확도 측정용)
  • [ ] 개인정보·기밀 포함 여부 확인 (포함 시 클라우드 API 제외)
  • [ ] 월 처리 예상 건수 계산 (GPT-4V 비용 추산용)
  • [ ] 오프라인 실행이 필수인지 결정

이 다섯 가지만 체크해도 후보가 1~2개로 좁혀집니다.

마무리

같은 한국어 OCR이라도 도구별 격차가 생각보다 큽니다. Tesseract는 한국어에서 한계가 분명하고, PaddleOCR은 무료 중 가장 안정적이며, GPT-4V는 비용을 감당할 수 있다면 정확도 면에서 앞섭니다.

저처럼 비용·정확도·보안을 모두 신경 써야 한다면 PaddleOCR을 기본 + GPT-4V를 보조로 쓰는 조합을 한 번 검토해보길 권합니다. 다음에 시간이 되면 PaddleOCR 설치부터 첫 실행까지 비개발자 기준으로 풀어쓰는 글도 올려보겠습니다.

반응형