Retour
Documentation
OCR : rendre un scan cherchable
L'OCR rend le texte d'un PDF scanné sélectionnable et cherchable. Voici les bonnes pratiques pour obtenir un scan bien exploitable.
Un bon OCR commence par un bon scan
- 300 DPI minimum — en dessous, les caractères deviennent flous, l'OCR confond e/c, o/0, l/1.
- Contraste fort — noir sur blanc idéal. Évite les fonds colorés ou les photos prises de biais.
- Pas trop incliné — BeauPDF corrige jusqu'à ±5°, au-delà la précision chute.
- Une seule langue par page — si c'est mélangé, sélectionne la langue principale.
Sous le capot
En trois étapes :
- Pré-traitement : redressement, contraste, nettoyage.
- Reconnaissance : la reconnaissance de caractères repère chaque caractère, mot et ligne.
- Reconstruction : génération d'une couche texte invisible par-dessus l'image. Le rendu visuel ne change pas, mais le PDF devient cherchable.
Ce que l'OCR ne fait pas
- L'écriture manuscrite — précision <50%, à éviter.
- Les polices très décoratives (gothique, calligraphie).
- Les langues à idéogrammes complexes en basse résolution.
- Les tableaux dont la structure n'est pas conservée (utilise PDF → CSV pour ça).
Disponible
Rends le texte d'un PDF scanné sélectionnable et cherchable.
Reconnaître le texte (OCR) →