📖 Glosario · IA y automatización

OCR

Optical Character Recognition

Tecnología de reconocimiento de texto en imágenes o documentos escaneados — convierte datos de píxeles en texto procesable.

¿Qué es OCR?

OCR (Optical Character Recognition) es la tecnología para el reconocimiento automático de texto en imágenes: documentos escaneados, fotografías, archivos PDF (sin capa de texto legible por máquina). El OCR analiza los píxeles, identifica los caracteres individuales y los compone en texto que puede procesarse posteriormente, buscarse, copiarse o enviarse a otros sistemas.

Se distingue entre:

OCR clásico — reconocimiento de caracteres (Tesseract, ABBYY)
IDP (Intelligent Document Processing) — OCR + comprensión del diseño por IA, entiende también la estructura del documento (tablas, cabeceras, pies de página)
ICR (Intelligent Character Recognition) — reconocimiento de escritura manual

El OCR moderno basado en deep learning alcanza una precisión del 98-99 % en texto impreso de buena calidad. Problemas habituales: documentos escaneados inclinados, manchas, sellos ilegibles, tablas sin líneas claras; aquí ayuda la combinación IA/RAG.

En una empresa B2B, el OCR ayuda principalmente en:

Facturas entrantes en PDF — extracción de NIF, importes, IVA, vencimientos
Contratos — búsqueda de texto completo en el archivo
Notas de gastos — lectura de tickets

Cuándo se usa

El OCR es la entrada de prácticamente toda automatización de documentos con IA. Sin OCR, un modelo de IA no podría procesar una factura en PDF ni un contrato escaneado.

Ver módulo Extracción de documentos y módulo Archivos.

Términos relacionados

Extracción de documentos — proceso end-to-end de OCR + extracción con IA. Ver /es/glosario/vytazovanie-dokladov-pojem.
e-Invoice — alternativa donde el OCR no es necesario. Ver /es/glosario/e-invoice.
RAG — tras el OCR, los documentos se indexan típicamente en RAG. Ver /es/glosario/rag.

En Modulario

El módulo Extracción de documentos de Modulario combina OCR con extracción por IA: la factura en PDF llega por correo electrónico, el sistema la procesa con OCR, el modelo de IA extrae todos los campos relevantes y crea automáticamente el registro de factura recibida en la Contabilidad.

Modulario utiliza una arquitectura en capas: para los PDF con texto legible por máquina, el texto se extrae directamente; para los documentos escaneados o los PDF con capas se ejecuta el motor OCR. La precisión de extracción de los campos habituales de una factura (NIF, importe, fecha) es de aproximadamente el 98 %; los casos ambiguos se marcan para verificación manual.

Términos relacionados

Extracción de documentos

Lectura automatizada de facturas, pedidos, albaranes y otros documentos mediante OCR e IA — extracción de datos sin transcripción manual.

RAG

Técnica que amplía el LLM con búsqueda dinámica en documentos corporativos — la respuesta se genera combinando el contexto recuperado con el modelo generativo.

AI Agent

Sistema de software basado en LLM que resuelve tareas de forma autónoma — planifica pasos, usa herramientas y llama a APIs para alcanzar el objetivo.

e-Invoice

Factura electrónica estructurada en formato XML/UBL que puede procesarse automáticamente sin transcripción manual.

P2P

Proceso end-to-end desde la solicitud de compra, pasando por el pedido, la entrega y la recepción de la factura, hasta el pago al proveedor.

Módulos Modulario relacionados

vytazovanie-dokladov subory fakturacia

¿Está implementando OCR en su empresa?

Modulario cubre la mayoría de los procesos B2B de forma modular — implemente solo lo que necesita ahora y crezca gradualmente. Reserve una consulta gratuita.

Dávid Bělousov

Sales Director

+421 902 826 802 sales@amcef.com

Reservar consulta

Volver al glosario