Modulario by AMCEF
Demó
📖 Szótár · MI és automatizálás

OCR

Optical Character Recognition

Képekből vagy beszkennelt dokumentumokból szöveget felismerő technológia — a pixeladatokat további feldolgozásra alkalmas szöveggé alakítja át.

Mi az OCR?

Az OCR (Optical Character Recognition) egy technológia képekből — beszkennelt dokumentumokból, fényképekből, PDF-fájlokból (géppel olvasható szöveges réteg nélkül) — való automatikus szövegfelismeréshez. Az OCR pixeleket elemez, azonosítja az egyes karaktereket, és szöveget állít össze belőlük, amelyet tovább lehet feldolgozni, keresni, másolni vagy más rendszerekbe küldeni.

Megkülönböztetünk:

  • Klasszikus OCR — karakterfelismerés (Tesseract, ABBYY)
  • IDP (Intelligent Document Processing) — OCR + MI layout-megértés, érti a dokumentum szerkezetét is (táblák, fejlécek, láblécek)
  • ICR (Intelligent Character Recognition) — kézzel írott szöveg felismerése

A mélytanuláson alapuló modern OCR 98-99%-os pontosságot ér el jó minőségű nyomtatott szövegen. Problémák: ferde szkennelések, foltok, olvashatatlan pecsétek, tiszta vonalak nélküli táblák — itt segít az MI/RAG kombináció.

Magyar B2B vállalatnál az OCR főként a következőknél segít:

  • Beérkező PDF-számláknál — adószám, összeg, ÁFA, fizetési határidő kinyerése
  • Szerződéseknél — teljes szöveges keresés az archívumban
  • Kiküldetési megbízásoknál — blokkok olvasása

Mikor alkalmazható

Az OCR szinte minden MI-alapú dokumentumautomatizálás bemenete. OCR nélkül az MI-modell nem tudna feldolgozni egy PDF-számlát vagy beszkennelt szerződést.

Kapcsolódó fogalmak

A Modulario-ban

A Modulario Dokumentumkinyerés modulja OCR-t MI-kinyeréssel kombinálja — a PDF-számla e-mailben érkezik, a rendszer OCR-nel feldolgozza, az MI-modell kinyeri az összes releváns mezőt, és automatikusan létrehozza a beérkező számla rekordját a Könyvelésben.

A Modulario réteges architektúrát alkalmaz: géppel olvasható PDF-ekhez a szöveget közvetlenül nyerik ki, beszkennelt vagy rétegelt PDF-ekhez OCR-motort futtatnak, amelyet magyar és ékezetes karakterekre betanítottak. A számla általános mezőinek kinyerési pontossága (adószám, összeg, dátum) a Modulario-ban kb. 98%, a nem egyértelmű eseteket a rendszer manuális ellenőrzésre jelöli.

Kapcsolódó Modulario modulok

OCR implementálása a cégénél?

A Modulario a legtöbb B2B folyamatot modulárisan lefedi — csak azt vezesse be, amire most szüksége van, és fokozatosan bővítse. Foglaljon ingyenes konzultációt.

Dávid Bělousov

Dávid Bělousov

Sales Director

+421 902 826 802 sales@amcef.com
Konzultáció foglalása