OCR
Optical Character Recognition
Technológia rozpoznávania textu z obrázkov alebo naskenovaných dokumentov — prevádza pixelové dáta na textové s možnosťou ďalšieho spracovania.
Čo je OCR?
OCR (Optical Character Recognition) je technológia pre automatické rozpoznávanie textu z obrázkov — naskenovaných dokumentov, fotografií, PDF súborov (bez strojovo čitateľnej textovej vrstvy). OCR analyzuje pixely, identifikuje jednotlivé znaky a zloží z nich text, ktorý možno ďalej spracovávať, vyhľadávať, kopírovať alebo posielať do iných systémov.
Rozlišujeme:
- Klasické OCR — rozpoznávanie znakov (Tesseract, ABBYY)
- IDP (Intelligent Document Processing) — OCR + AI layout understanding, rozumie aj štruktúre dokumentu (tabuľky, hlavičky, zápätia)
- ICR (Intelligent Character Recognition) — rozpoznávanie ručne písaného textu
Moderné OCR založené na deep learningu dosahuje presnosť 98-99 % na tlačenom texte v dobrej kvalite. Problémy: zošikmené skeny, škvrny, nečitateľné pečiatky, tabuľky bez jasných liniek — tu pomáha AI/RAG kombinácia.
V slovenskej B2B firme OCR najviac pomáha pri:
- Prichádzajúcich faktúrach v PDF — extrakcia IČO, sumy, DPH, splatnosti
- Zmluvách — plnotextové vyhľadávanie v archíve
- Cestovných príkazoch — čítanie bločkov
Kedy sa používa
OCR je vstupom do prakticky každej AI automatizácie dokumentov. Bez OCR by AI model nedokázal spracovať PDF faktúru alebo naskenovanú zmluvu.
Pozri modul Vyťažovanie dokladov a modul Súbory.
Súvisiace pojmy
- Vyťažovanie dokladov — end-to-end proces OCR + AI extrakcia. Pozri /slovnik/vytazovanie-dokladov-pojem.
- e-Invoice — alternatíva, kde OCR netreba. Pozri /slovnik/e-invoice.
- RAG — po OCR sa dokumenty typicky indexujú do RAG. Pozri /slovnik/rag.
V Modulariu
Modul Vyťažovanie dokladov v Modulariu kombinuje OCR s AI extrakciou — PDF faktúra prichádza e-mailom, systém ju OCR-ne, AI model extrahuje všetky relevantné polia a automaticky vytvorí záznam prijatej faktúry v Účtovníctve.
Módio používa vrstvenú architektúru: pre strojovo čitateľné PDF sa text extrahuje priamo, pre naskenované alebo PDF s vrstvami sa spúšťa OCR engine natrénovaný na slovenských a českých znakoch s diakritikou. Presnosť extrakcie bežných polí faktúry (IČO, suma, dátum) je v Modulariu okolo 98 %, nejednoznačné prípady systém označí na manuálne overenie.
Súvisiace pojmy
Vyťažovanie dokladov
Automatizované čítanie faktúr, objednávok, dodacích listov a ďalších dokumentov pomocou OCR a AI — extrakcia údajov bez manuálneho prepisovania.
RAG
Technika, ktorá LLM rozširuje o dynamické vyhľadávanie vo firemných dokumentoch — odpoveď vzniká kombináciou vyhľadaného kontextu a generatívneho modelu.
AI Agent
Softvérový systém postavený na LLM, ktorý autonómne rieši úlohy — plánuje kroky, používa nástroje a volá API na dosiahnutie cieľa.
e-Invoice
Štruktúrovaná elektronická faktúra vo formáte XML/UBL, ktorú možno automaticky spracovať bez manuálneho prepisovania.
P2P
End-to-end proces od vystavenia požiadavky na nákup, cez objednávku, dodávku a prijatie faktúry až po úhradu dodávateľovi.
Súvisiace moduly Modulario
Implementujete OCR vo vašej firme?
Modulario pokrýva väčšinu B2B procesov modulárne — nasaďte len to, čo potrebujete teraz, a rastite postupne. Dohodnite si bezplatnú konzultáciu.
Dohodnúť konzultáciu