Qué es el OCR y cuándo lo necesitas de verdad

El OCR convierte un PDF escaneado en texto buscable y copiable. Qué hace, cuándo lo necesitas y cómo files.co lo ejecuta con Tesseract en tu navegador.

AG Antonia González · 27 de junio de 2026 · 6 min de lectura

Buscas un nombre en un PDF que sabes que está ahí, y no sale nada. El texto está en la pantalla. Lo estás viendo. Pero el buscador actúa como si el documento estuviera vacío. Esa diferencia es la razón de ser del OCR.

Dos tipos de PDF que parecen iguales

Un PDF puede guardar el texto de dos formas muy distintas, y en pantalla pueden verse idénticas.

El primer tipo es un PDF de texto real. Salió de Word, de una web, de un programa de contabilidad, de algo digital. Las letras están guardadas como caracteres de verdad. El PDF sabe que la palabra “factura” está arriba a la derecha. Puedes seleccionarla, copiarla, buscarla.

El segundo tipo es un PDF escaneado. Alguien puso un papel en un escáner, o le hizo una foto con el móvil, y guardó esa imagen dentro de un PDF. Para ti se lee perfectamente. Para el ordenador es solo una foto. No hay letras dentro, solo píxeles de colores colocados con forma de letras. La búsqueda no encuentra nada porque no hay texto que encontrar.

La prueba rápida: intenta seleccionar una sola palabra con el cursor. Si la puedes resaltar, el texto es real. Si el cursor dibuja un recuadro sobre toda la página como si fuera una imagen, tienes un escaneo.

Qué hace el OCR en realidad

OCR significa reconocimiento óptico de caracteres. Mira la imagen, localiza las formas que son letras y escribe el texto real que esas formas representan. Luego mete ese texto dentro del PDF, detrás de la imagen, alineado con lo que ves.

La página sigue viéndose exactamente igual. El escaneo, la mancha de café, el ángulo un poco torcido, todo se queda. Pero ahora hay una capa de texto real debajo. Así que la búsqueda funciona. Copiar funciona. El documento pasa de ser una foto de palabras a ser palabras.

Cuándo lo necesitas de verdad

La mayoría de las veces no lo necesitas. Un PDF que has exportado tú ya lleva texto real. Pasarle el OCR no serviría de nada. Lo necesitas cuando el texto está encerrado dentro de una imagen, y eso pasa más de lo que crees.

Buscar en archivos escaneados antiguos. Tienes una carpeta de recibos o facturas, todos escaneados hace años, y necesitas el de un proveedor concreto. Sin OCR los abres uno a uno. Con OCR buscas en la carpeta y lo encuentras en un segundo.

Copiar texto de un documento fotografiado. Te mandan un contrato como foto de móvil. Necesitas citar una cláusula en un correo. Teclearla a mano es el camino lento. El OCR te deja seleccionar ese párrafo y pegarlo.

Hacer accesible un documento. Un PDF escaneado es un muro para quien usa un lector de pantalla. El programa lee en voz alta la capa de texto, y una imagen pura no tiene capa de texto, así que no lee nada. El OCR le da algo que leer. También es la razón por la que los documentos escaneados suspenden los controles de accesibilidad para cosas como publicación web o expedientes públicos.

Que la IA pueda leer el documento. Si quieres resumir un informe escaneado o hacerle preguntas, la herramienta necesita texto con el que trabajar. Un escaneo en bruto le da píxeles y una conjetura. Un documento con capa de texto real le da las palabras de verdad, y las respuestas mejoran mucho.

Cómo lo hace files.co

El OCR de files.co funciona con Tesseract, un motor de código abierto conocido, y se ejecuta dentro de tu navegador. Tu documento no se sube nunca. No toca ningún servidor. El reconocimiento ocurre en tu propia máquina, en la página que ya tienes abierta, y el archivo con su nueva capa de texto se construye ahí mismo para que lo descargues.

Esto importa porque los documentos que la gente necesita pasar por OCR suelen ser los privados. Contratos escaneados, cartas médicas, extractos del banco, copias del DNI. Mandar eso al servidor de un desconocido para que lo lea es un trato raro a cambio de texto buscable. Aquí no lo haces. La página hace el trabajo y el archivo se queda contigo.

Puedes probarlo con nuestra herramienta de OCR.

La versión corta

Si puedes seleccionar las palabras de un PDF, el texto ya está ahí y has terminado. Si el cursor solo dibuja un recuadro sobre una imagen, las palabras están atrapadas en una foto, y el OCR es la herramienta que las libera. Buscables, copiables, legibles por un lector de pantalla, legibles por una IA. La misma página de la que partías, ahora con el texto que siempre le faltó.

Explora por categoría

Organizar Convertir Editar Seguridad