Teknoloji

OCR Nasıl Çalışır? Taranan PDF'den Metin Çıkarma Rehberi

MirPDF Ekibi · 3 dk okuma · Güncellendi: 2026

2026-03-16 · 9 dk okuma · KVKK Uyumlu

Elinizdeki PDF'i bilgisayara kopyalayıp yapıştırmak istiyorsunuz ama metin seçilemiyor. Ya da Word'e dönüştürmek istiyorsunuz ama hiçbir şey çıkmıyor. Sorun şu: PDF taranan bir belge, yani metin değil resim.

Çözüm OCR — Optik Karakter Tanıma. Bu rehberde OCR'ın nasıl çalıştığını, Türkçe OCR'ın özelliklerini ve MirPDF'te nasıl kullanılacağını açıklıyoruz.

OCR Nedir?

OCR (Optical Character Recognition — Optik Karakter Tanıma), görüntü içindeki metin karakterlerini bilgisayarın anlayabileceği metin verisine dönüştüren teknolojidir. İlk OCR sistemleri 1950'lere dayanır. Günümüzde derin öğrenme ile çok daha yüksek doğruluk oranlarına ulaşıldı.

OCR'ın Çalışma Adımları

1. Ön İşleme (Preprocessing)

Ham görüntü OCR'a hazırlanır. Bu aşama çok kritik — kötü ön işleme doğruluğu dramatik biçimde düşürür.

Gri tonlamaya çevirme: Renkli görüntü gri yapılır, bu OCR'a gereksiz bilgi yüklemez.
Binarizasyon: Gri görüntü siyah-beyaza dönüştürülür (Otsu eşikleme gibi algoritmalar).
Gürültü giderme: Nokta, leke, çizgiler temizlenir.
Eğim düzeltme (Deskew): Tarama sırasında eğik giren belgeler düzeltilir.
DPI normalizasyonu: OCR için optimum DPI 300 — daha düşük DPI doğruluğu düşürür.

2. Sayfa Segmentasyonu

Görüntü bölgelere ayrılır: başlıklar, paragraflar, tablolar, görseller, kenar çubukları. Bu ayrım hangi bölgenin okunacağını belirler.

3. Satır ve Kelime Segmentasyonu

Her metin bölgesi satırlara, satırlar kelimelere, kelimeler karakterlere bölünür. Karakterler arası boşluk analizi kritik.

4. Karakter Tanıma

Modern OCR sistemleri bu aşamada derin öğrenme (LSTM ağları) kullanır. Her karakter sınıflandırılır. En olası karakter ve güven skoru (confidence score) üretilir.

5. Dil Modeli ile Düzeltme

Tanınan karakterler dil modeli (n-gram, sözlük) ile doğrulanır. "İnsanh" yazan yerde dil modeli "insanlık" olabileceğini önerir.

Türkçe OCR'ın Zorlukları

Türkçe, Latin alfabesi kullanan ama özgün karakterler içeren bir dil: ğ, ş, ı, ö, ü, ç, İ. Bu karakterler OCR sistemleri için özel zorluk yaratır:

ı (noktasız i): Birçok OCR sisteminde "l" (L) veya "i" olarak tanınır.
İ (büyük noktalı İ): "I" veya "L" olarak karışabilir.
ğ: "g" veya "g̈" olarak tanınabilir.
Ş ve ş: Genellikle iyi tanınır, cedilla bağlantısı bazen kaçar.

Tesseract ve Türkçe: MirPDF'in OCR motoru Tesseract, Google tarafından geliştirilen açık kaynak OCR motorudur. Tesseract Türkçe için 'tur' dil paketine sahiptir ve Türkçe karakterleri doğru tanır. MirPDF'te varsayılan OCR dili Türkçe+İngilizce kombine olarak ayarlanmıştır.

OCR Doğruluğunu Etkileyen Faktörler

Faktör	İyi OCR	Kötü OCR
Görüntü çözünürlüğü	300+ DPI	150 DPI altı
Metin/arka plan kontrast	Yüksek kontrast (siyah/beyaz)	Düşük kontrast, gri metin
Yazı tipi	Düz sans-serif (Arial, Helvetica)	El yazısı, süslü fontlar
Belge durumu	Temiz, düz belge	Kırışık, katlanmış, soluk
Sayfa eğriliği	0–2 derece	5+ derece
Arkaplan gürültüsü	Temiz arka plan	Noktalı, desenli arka plan

Ne Zaman OCR Gerekir?

Taranan belgelerden metin kopyalamak istediğinizde
PDF'i Word veya Excel'e dönüştürmek istediğinizde
Belge içinde metin araması yapmak istediğinizde
Belgeyi ekran okuyucu ile erişilebilir kılmak istediğinizde
Görüntü PDF'ini aranabilir arşiv haline getirmek istediğinizde

OCR Sonrası Ne Yapılmalı?

OCR mükemmel değildir. Özellikle düşük kaliteli taranan belgelerde hatalar olabilir. OCR çıktısını kullanmadan önce:

Kritik bilgileri (isim, tarih, tutar) elle doğrulayın
Türkçe karakter hatalarını kontrol edin (ı/i, İ/I, ğ/g)
Tablolardaki sayısal verileri orijinal belgeyle karşılaştırın
Yasal belgeler için OCR çıktısına değil orijinal belgeye güvenin

OCR ile Metninizi Çıkarın

Taranan belgelerden metin çıkarmak artık kolay. Pro plan gerekir.

OCR Aracını Aç →

Sık Sorulan Sorular

OCR ne kadar doğru sonuç verir?

İyi kaliteli taranmış belgelerde (300 DPI, temiz) doğruluk %95–99 arasında. Kötü kalitede bu oran %70–85'e düşebilir. Türkçe dil paketi ile Türkçe karakterler doğru tanınır.

El yazısı OCR ile tanınabilir mi?

Standart OCR motorları basılı metin için geliştirilmiştir. El yazısı tanıma (HTR - Handwritten Text Recognition) farklı, daha gelişmiş algoritmalar gerektirir. MirPDF el yazısı OCR sunmaz.

OCR'lı PDF ile normal PDF farkı ne?

Normal (taranmış) PDF: her sayfa bir görüntü, metin seçilemiyor, arama çalışmıyor. OCR'lı PDF: görüntünün altında metin katmanı var, seçilebilir, aranabilir ve kopyalanabilir. Dosya boyutu biraz artar.

📖 İlgili Rehberler

📝 Türkçe PDF'den Metin Çıkarma 📝 OCR Türkçe Karakter Sorunları