Paieška: 

Esate čia: Pradinis puslapis » Paslaugos » Teksto atpažinimas arba OCR

Teksto atpažinimas arba OCR (optical character recognition)


OCR arba teksto atpažinimo programa (optical character recognition) skaitmeninė vaizdo rinkmena yra paverčiama tekstu. Tokia programa gali būti įdiegta skaitytuve, taip pat tam yra naudojamos specialios programos. Atlikus OCR procesą, arba optinį rašto ženklų atpažinimą, nuskaitytas dokumentas įrašomas ne kaip paveikslėlis, o kaip tekstas. Programa identifikuoja randamas raides ir skaičius. Paprastai tekstas yra konvertuojamas tam, kad jį būtų galima redaguoti ir jame vykdyti paiešką. Naudojant teksto atpažinimo technologiją popieriuje atspausdintus dokumentus, PDF rinkmenas ir fotografuotus dokumentus galima paversti redaguojamomis rinkmenomis.

Teksto atpažinimas pradedamas nuo teksto skaitmeninimo. Skaitmeninimas – tai fizinio objekto arba panašios medžiagos (t.y. spaudinio, žemėlapio, laiško, meno kūrinio arba muzikos įrašo) perkėlimas į skaitmeninį pavidalą, naudojant atitinkamą įrangą. Spaudiniai ir spausdinti dokumentai paprastai yra skaitmeninami skaitytuvu, tačiau galima naudoti ir skaitmeninį fotoaparatą.

Skaitmeninimo metu spausdintas arba ranka rašytas tekstas paverčiamas vaizdo rinkmena. Suprantama, kad vaizdo rinkmenos teksto redaktoriumi redaguoti negalima. Kaip padaryti, kad vaizdo rinkmeną būtų galima redaguoti? Tokiu atveju gelbsti minėta teksto atpažinimo programa. Ji atpažįsta raides ir skaičius, sudarančius vaizdo rinkmeną, ir kiekvieną ženklą užkoduoja ASCII kodu (ASCII – American Standard Code for Information Interchange, t.y. amerikietiškas informacijos mainų koduotės standartas). Rinkmenoje esantis vaizdas paverčiamas tekstu, o tokią rinkmeną sugeba skaityti tekstinio redaktoriaus programa.

Lotyniškomis raidėmis parašytas tekstas atpažįstamas net iki 99 %. Tačiau ne visos teksto atpažinimo programos atpažįsta raides su diakritiniais ženklais. Didelę įtaką teksto atpažinimui turi ir pradinės medžiagos kokybė: sulankstytame, suglamžytame arba išteptame tekste bus daugiau klaidų.

Teksto atpažinimo programa sugeba atpažinti ir rankraštį bei skaičius, tačiau atpažinimo tikslumas, žinoma, bus mažesnis nei spausdinto teksto. Geresnės teksto atpažinimo sistemos gali „išmokti“ skirtingus simbolius ir raides.

Patogi teksto atpažinimo programa padeda naudotojui rasti neaiškias ir neapdorotas vietas ir jas pataisyti, tačiau reikėtų, kad teksto atpažinimo programa sukurtą tekstinę rinkmeną sutvarkytų redaktorius. Vertimų biure „Keelekoda“ rezultatus visada peržiūri žmonės, o ne mašinos.

Testo atpažinimo programas kuria daug gamintojų. Lietuvių kalbos tekstus atpažįsta ABBYY FineReader OCR, OmniPage ir Readiris programos. ABBYY FineReader programoje yra lietuvių kalbos žodynas, kuriuo galima patikrinti rašybą.
Vertimų biuras „Keelekoda“ dažnai naudoja ORC programas – PDF rinkmenas ar spausdintuose dokumentuose esantį tekstą paverčiame tekstine rinkmena. Tai reiškia, kad klientas gali pateikti bet kokios formos dokumentą.


Žiūrėti ankstesnę šios interneto svetainės dizaino versiją adresu http://www.keelekoda.ee/oldsite/lit-ocr-teksto-atpazinimas/