범용 문서 OCR 자동 추출 시스템
어떤 서류든 템플릿을 만들면 자동으로 텍스트를 추출하고, 웹에서 검수하고, 데이터화합니다. 추출된 데이터는 분석과 시각화까지 연결됩니다.
종이 서류의 수기 입력은 느리고, 오류가 많고, 데이터 활용이 불가능합니다
모듈화된 구조로 모델/템플릿/검증 규칙을 독립적으로 교체 가능
YAML 설정으로 모델 교체. UI 드롭다운에서 클릭 한 번으로 전환.
PDF 위에 바운딩 박스를 그려 필드 정의. 엑셀 틀에서 자동 추출도 가능.
4가지 타입의 필드 연관성 규칙 자동 검증. 세트 누락 경고.
원자적 저장, PII 마스킹, JSONL 수정 이력, 경로 순회 방어.
검수 수정 데이터 자동 수집. 500건 누적 시 재학습 알림.
교정 데이터 JSON 내보내기/가져오기. Git으로 팀 공유.
PDF 입력부터 데이터 분석까지 End-to-End
PDF 위에 바운딩 박스를 그려 필드 정의. 재사용 가능한 JSON으로 저장.
스캔 PDF와 템플릿을 로드. 필드별 crop 이미지 자동 추출.
선택된 모델로 배치 추론. 체크박스/서명은 CV 감지기로 처리.
12가지 필드별 검증 규칙 + 필드 연관성 규칙으로 경고 생성.
웹에서 즉시 수정. 수정 데이터는 Active Learning으로 자동 수집.
구조화된 데이터를 기반으로 통계 분석, 트렌드 시각화, 대시보드 생성.
AI Hub 한국어 글자체 데이터셋(23GB)으로 Fine-tuning한 TrOCR-small
| 모델 | 파라미터 | CER | 크기 |
|---|---|---|---|
| Fine-tuned TrOCR-small | 54.5M | 2.648% | 218 MB |
| ddobokki/ko-trocr | 213M | - | ~850 MB |
| Qwen-VL (실험) | 9.6B | - | ~18 GB |
검수 UI 헤더 드롭다운에서 클릭 한 번으로 교체
OCR 모델의 정확도를 측정하는 핵심 평가 지표
OCR이 인식한 텍스트와 정답을 문자 단위로 비교하여, 잘못된 문자의 비율을 나타냅니다.
| 기호 | 의미 | 설명 |
|---|---|---|
| S (Substitution) | 대체 | 잘못된 문자로 바뀜 ('동' -> '둥') |
| D (Deletion) | 누락 | 문자가 빠짐 ('홍길동' -> '홍길') |
| I (Insertion) | 삽입 | 없는 문자가 추가됨 ('홍길동' -> '홍길동이') |
| N (Total) | 전체 | 정답 텍스트의 전체 문자 수 |
100글자 중 2.6글자만 오류
100글자 중 15-20글자 오류
어떤 PDF든 업로드 후 바운딩 박스로 필드 정의. 엑셀 틀에서 자동 추출. 저장/재사용.
문서 이미지 + 검수 패널 분할. 필드 오버레이, crop 확대, 즉시 수정, 키보드 네비게이션.
linked_set, mixed, all_optional, conditional 4타입. 그룹 누락 자동 경고.
공백 제거, 특수문자 제거, 주민번호 하이픈, 값 비우기 원클릭.
완료율, 신뢰도 분포, 타입별 오류, Active Learning 현황 실시간.
80%+ 필드를 한 번에 확인. 수동 검수 시간 대폭 단축.
| 필드 타입 | 검증 규칙 | 예시 |
|---|---|---|
| korean_name | 한글 2-5자 | 홍길동 |
| resident_number | 13자리, 항상 검수 | 900101-1234567 |
| phone | 한국 전화번호 패턴 | 010-1234-5678 |
| address | 최소 길이 | 경기도 화성시... |
| date / date_or_birth | YYYYMMDD 또는 6자리 | 20260101 |
| checkbox / signature | CV 기반 감지 | 체크됨 / 서명있음 |
다른 사용자가 수정한 데이터를 팀 전체가 공유
| JSON 내보내기 | 검수 UI [동기화] 버튼 클릭 |
| REST API 수신 | POST /api/sync-corrections |
| Git Push | sync_corrections/ 폴더 커밋 |
| Active Learning | 교정 -> CSV -> 모델 재학습 |
OCR로 추출한 구조화된 데이터를 기반으로 분석과 시각화까지 확장합니다
OCR 파이프라인으로 수집된 구조화 데이터를 활용한 통계 분석
추출된 데이터를 인터랙티브 차트와 대시보드로 시각화
VLM 모델, 다중 페이지, 자동 재학습으로 시스템 고도화
현재 시스템은 종이 서류 -> 구조화된 디지털 데이터 변환에 집중하고 있습니다.
향후 이 데이터를 기반으로 Pandas/Plotly 기반 데이터 분석, 인터랙티브 시각화 대시보드,
리포트 자동 생성까지 연결하여, 단순 OCR을 넘어 데이터 기반 의사결정 지원 시스템으로 발전시킬 계획입니다.
수집된 데이터의 패턴 분석, 이상값 탐지, 트렌드 예측 등 데이터 사이언스 기법을 적용하여
실제 업무에 즉시 활용 가능한 인사이트를 제공합니다.
| 모델 교체 | UI 클릭 1번으로 전환 |
| CER | 2.648% |
| Exact Match | 97.35% |
| 범용 템플릿 | 어떤 문서든 적용 가능 |
| 원격 동기화 | JSON/Git 교정 데이터 공유 |
| 데이터 보안 | PII 마스킹 + 원자적 저장 |
| 현재 | OCR 추출 + 검수 + 엑셀 출력 |
| Phase 1 | 추출 데이터 통계 분석 + 패턴 탐지 |
| Phase 2 | 인터랙티브 시각화 대시보드 |
| Phase 3 | 자동 리포트 생성 + 예측 분석 |
종이에서 데이터로, 데이터에서 인사이트로
Thank you