OCR ehk tekstituvastus

Tõlkebüroo

(+372) 501 2125
Kentmanni 10-19, Tallinn •

Oled siin: Avaleht » Teenused » OCR ehk tekstituvastus

OCR ehk tekstituvastus (optical character recognition) on tehnoloogia, mille abil digitaalsest pildifailist eraldatakse tekst. Seda võimalust sisaldab skanneri tarkvara, samuti mõned spetsiaalsed arvutiprogrammid. Eesmärk on muuta pildi kujul olev tekst töödeldavaks ning võimaldada tekstisisest otsingut. Tänu tekstituvastustehnoloogiale on võimalik paberdokumentidest, PDF-failidest ja pildistatud dokumentidest luua redigeeritav tekstifail.

Tekstituvastus algab materjali digitaliseerimise ehk digiteerimisega (ingl digitalization). Digitaliseerimine tähendab füüsilise objekti või analoogmaterjali (nt trükis, kaart, kirjavahetus, aga ka kunstiteos või helisalvestis) digitaalsele kujule viimist vastavate seadmete abil. Trükiste ja kirjalike dokumentide korral tehakse seda tavaliselt skanneri abil, kuid kasutada saab ka näiteks digifotokaamerat.

Skaneerimise käigus saadakse trükisest või ka käsitsi kirjutatud tekstist digitaalne pilt, pildifail. Pildifaili teatavasti tekstitöötlusvahenditega töödelda ei saa. Kuidas muuta pildi kujul olev tekst töödeldavaks? Siin tulebki appi tekstituvastustarkvara. See tunneb ära tähed ja numbrid, mis moodustavad skaneeritud kujutise (pildifaili), ning teisendab iga tähemärgi kujutise nn ASCII-koodiks (ASCII – American Standard Code for Information Interchange, Ameerika Informatsioonivahetuse Standardkood). Teksti pilt teisendatakse seega tekstiks, mis salvestatakse tekstifailina, ning seda faili suudab tekstitöötlusprogramm lugeda.

Tekstituvastustarkvara suudab saavutada üha täpsemaid tulemusi. Ladina kirjasüsteemis trükikirja tuvastustäpsuseks on, olenevalt keelest, isegi kuni 99%. Erandiks on täpitähed, mida kõik tekstituvastusprogrammid ära tunda ei pruugi. Samuti mõjutab tekstituvastustäpsust algmaterjali kvaliteet: murdejoontega, kortsunud või pleekinud algmaterjal suurendab vigade hulka.

Tekstituvastustarkvara suudab tunda ära ka käsitsi kirjutatud tähed ja numbrid, kuid tuvastustäpsus on loomulikult väiksem kui trükitud teksti puhul. Parematel tekstituvastusprogrammidel on ka võime eri sümboleid ja tähemärke juurde õppida.

Kasutajasõbralik tekstituvastustarkvara abistab kasutajat vigade, ebaselgete ja töötlemata kohtade leidmisel ja parandamisel, kuid siiski tuleks tekstituvastustarkvara abil loodud tekstifaili ka käsitsi toimetada. Keelekoda Tõlkebüroos on viimaseks töö ülevaatajaks alati inimsilm.

Turul leidub mitmesugust eri tootjate tekstituvastustarkvara. Eesti keele tunnevad ära näiteks ABBYY FineReader OCR, OmniPage ja Readiris, neist ABBYY FineReaderil on olemas ka eesti keele sõnastik, s.t see tarkvara võimaldab kontrollida eesti keeles kirjutatud teksti õigekirja.

Keelekoda Tõlkebüroo kasutab igapäevases töös rohkesti OCR-i ehk tekstituvastust, seda näiteks PDF-failidest ja paberdokumentidest tõlgitava materjali ettevalmistamisel. Kliendile tähendab see tellitava töö kiiremat valmimistähtaega ja paindlikkust tellimuse töösse andmisel.

Vaata ka selle lehekülje eelmist kujundust aadressil https://www.keelekoda.ee/oldsite/est-ocr-ehk-tekstituvastus/