Meklēšana: 

Esat šeit: Sākums » Pakalpojumi » OCR jeb teksta atpazīšana


Warning: Use of undefined constant email - assumed 'email' (this will throw an Error in a future version of PHP) in /data01/virt94214/domeenid/www.keelekoda.ee/htdocs/lat-ocr-teksta-atpazisana/index.php on line 455

OCR jeb teksta atpazīšana


Šī procesa pamatā ir programmatūra, ar kuras palīdzību digitāli tiek atdalīts teksts no attēlu faila. Šāda iespēja ir iekļauta skenera programmatūrā, kā arī dažās speciālās datoru programmās. Mērķis ir pārveidot attēlā esošo tekstu tā, lai to varētu apstrādāt un dot iespēju veikt teksta satura meklējumus. Rakstzīmju optiskā atpazīšanas tehnoloģija ļauj izveidot no PDF failiem un fotografētajiem dokumentiem rediģējamu teksta failu.

Rakstzīmju optiskā atpazīšana sākas ar materiāla ciparošanu (digitizing). Ciparošana nozīmē fiziska objekta vai analogā materiāla (piem., drukas teksta, kartes, vēstules – mākslas darba veidā vai audio ierakstā) pārveidošanu ciparsignālu formā, lietojot atbilstošu ierīci. Drukātiem un rakstveida dokumentiem to parasti veic ar skenera palīdzību, lai gan var lietot arī digitālu fotokameru.

Skenēšanas laikā no drukāta materiāla vai teksta rokrakstā iegūst digitālu attēlu, attēlu failu. Attēlu failu, kā zināms, nav iespējams apstrādāt ar teksta apstrādes līdzekļiem. Attēla veidā esošu tekstu būs iespējams apstrādāt lietojot rakstzīmju optisko atpazīšanas programmatūru. Tā atpazīst burtus un ciparus, kuri sastāda skenētu tēlu (attēlu failu) un pārveido katru zīmi t. s. ASCII kodā (ASCII – American Standard Code for Information Interchange, Amerikas Informācijas apmaiņas standarta kods). Tādējādi teksta attēlu pārveido tekstā, kuru ieraksta kā teksta failu un teksta apstrādes programma var to nolasīt.

Teksta rakstzīmju atpazīšanas programma darbojas ļoti precīzi. Latīņu rakstzīmju sistēmā drukas teksta precizitāte (atkarībā no valodas) var būt līdz pat 99%. Izņēmums ir īpašie rakstzīmju apzīmējumi, kurus visas teksta atpazīšanas programmas nav spējīgas noteikt. Teksta atpazīšanas precizitāti ietekmē arī sākotnējā materiāla kvalitāte; līnijas, burzījumi vai smērējumi (plankumi) palielina kļūdu iespēju.

Teksta rakstzīmju atpazīšanas programma var atpazīt arī burtus un ciparus rokrakstā, taču šādas darbības precizitāte būs zemāka, salīdzinot ar drukātu tekstu. Labākās teksta atpazīšanas programmas ir spējīgas papildus „apgūt” īpašus simbolus un rakstzīmes.

Ērtā un vienkāršā teksta rakstzīmju atpazīšanas programmatūra palīdz lietotājam atrast un izlabot kļūdas un neskaidrās vietas, tomēr tas neizslēdz vēlāku šī teksta faila rediģēšanu. Keelekoda tulkošanas birojā pēdējās darbu vienmēr pārskata cilvēka acis.

Programmatūras tirgū ir sastopamas dažādu ražotāju teksta rakstzīmju atpazīšanas programmas. Igauņu valodu, atpazīst, piemēram, programmatūras OmniPage, Readiris un ABBYY FineReader OCR; turklāt pēdējā ir iekļauta arī igauņu valodas vārdnīca, tādējādi ļaujot pārbaudīt igauņu valodas pareizrakstību.

Keelekoda tulkošanas birojā ikdienas darbā vairāk tiek lietota OCR jeb teksta rakstzīmju atpazīšana, piemēram, lai no PDF faila vai papīra veida dokumenta sagatavotu materiālu tulkošanai. Klientiem tas nozīmē pasūtītā darba ātrāku izpildes termiņu, kā arī iesniedzamā darba formas daudzveidības iespēju.


Sk. arī šīs lappuses iepriekšējo noformējumu adresē https://www.keelekoda.ee/oldsite/lat-ocr-teksta-atpazisana/