Elinizdeki PDF'i bilgisayara kopyalayıp yapıştırmak istiyorsunuz ama metin seçilemiyor. Ya da Word'e dönüştürmek istiyorsunuz ama hiçbir şey çıkmıyor. Sorun şu: PDF taranan bir belge, yani metin değil resim.
Çözüm OCR — Optik Karakter Tanıma. Bu rehberde OCR'ın nasıl çalıştığını, Türkçe OCR'ın özelliklerini ve MirPDF'te nasıl kullanılacağını açıklıyoruz.
OCR (Optical Character Recognition — Optik Karakter Tanıma), görüntü içindeki metin karakterlerini bilgisayarın anlayabileceği metin verisine dönüştüren teknolojidir. İlk OCR sistemleri 1950'lere dayanır. Günümüzde derin öğrenme ile çok daha yüksek doğruluk oranlarına ulaşıldı.
Ham görüntü OCR'a hazırlanır. Bu aşama çok kritik — kötü ön işleme doğruluğu dramatik biçimde düşürür.
Görüntü bölgelere ayrılır: başlıklar, paragraflar, tablolar, görseller, kenar çubukları. Bu ayrım hangi bölgenin okunacağını belirler.
Her metin bölgesi satırlara, satırlar kelimelere, kelimeler karakterlere bölünür. Karakterler arası boşluk analizi kritik.
Modern OCR sistemleri bu aşamada derin öğrenme (LSTM ağları) kullanır. Her karakter sınıflandırılır. En olası karakter ve güven skoru (confidence score) üretilir.
Tanınan karakterler dil modeli (n-gram, sözlük) ile doğrulanır. "İnsanh" yazan yerde dil modeli "insanlık" olabileceğini önerir.
Türkçe, Latin alfabesi kullanan ama özgün karakterler içeren bir dil: ğ, ş, ı, ö, ü, ç, İ. Bu karakterler OCR sistemleri için özel zorluk yaratır:
ℹ Tesseract ve Türkçe: MirPDF'in OCR motoru Tesseract, Google tarafından geliştirilen açık kaynak OCR motorudur. Tesseract Türkçe için 'tur' dil paketine sahiptir ve Türkçe karakterleri doğru tanır. MirPDF'te varsayılan OCR dili Türkçe+İngilizce kombine olarak ayarlanmıştır.
| Faktör | İyi OCR | Kötü OCR |
|---|---|---|
| Görüntü çözünürlüğü | 300+ DPI | 150 DPI altı |
| Metin/arka plan kontrast | Yüksek kontrast (siyah/beyaz) | Düşük kontrast, gri metin |
| Yazı tipi | Düz sans-serif (Arial, Helvetica) | El yazısı, süslü fontlar |
| Belge durumu | Temiz, düz belge | Kırışık, katlanmış, soluk |
| Sayfa eğriliği | 0–2 derece | 5+ derece |
| Arkaplan gürültüsü | Temiz arka plan | Noktalı, desenli arka plan |
OCR mükemmel değildir. Özellikle düşük kaliteli taranan belgelerde hatalar olabilir. OCR çıktısını kullanmadan önce:
Taranan belgelerden metin çıkarmak artık kolay. Pro plan gerekir.
OCR Aracını Aç →İyi kaliteli taranmış belgelerde (300 DPI, temiz) doğruluk %95–99 arasında. Kötü kalitede bu oran %70–85'e düşebilir. Türkçe dil paketi ile Türkçe karakterler doğru tanınır.
Standart OCR motorları basılı metin için geliştirilmiştir. El yazısı tanıma (HTR - Handwritten Text Recognition) farklı, daha gelişmiş algoritmalar gerektirir. MirPDF el yazısı OCR sunmaz.
Normal (taranmış) PDF: her sayfa bir görüntü, metin seçilemiyor, arama çalışmıyor. OCR'lı PDF: görüntünün altında metin katmanı var, seçilebilir, aranabilir ve kopyalanabilir. Dosya boyutu biraz artar.
📖 İlgili Rehberler