Kako izgleda proces OCR skeniranja?

OCR tehnologija danas ima sve veću primjenu, a naša znatiželja ne staje i želimo vam približiti savremene procese koji nude bezbroj mogućnosti.

Optičko prepoznavanje znakova i digitalno prepoznavanje znakova su u početku smatrani različitim poljima istraživanja. Zbog činjenice da je jako malo aplikacija koje su koristile istinske optičke tehnike preživjelo, termin OCR danas obuhvaća i tehnike i digitalne obrade slika. Ranije sisteme bilo je potrebno naučiti (dati im poznati primjer svakog od znakova), te kako čitati pojedini font. Sada je tehnologija razvijena da su „pametni“ sistemi sa velikim stepenom tačnosti za veliku većinu fontova dostupni svima. Neki sistemi su sposobni reprodukovati i aproksimirati format ulaznog skeniranog dokumenta koji se može sastojati od slike, grafikona i drugih netekstualnih dijelova.

Svaki korak u procesu OCR-a važan je za određivanje tačnosti konačnog teksta. Proces počinje pretvaranjem pisanog dokumenta. Ukoliko tekst ima tragove, mrlje i loš kontrast, softver će napraviti pogreške tokom prepoznavanja, a rezultat će se pokazati netačnim. Kako bi se izbjegli ovi problemi, može se napraviti poboljšana fotokopija za ispisivanje.

Prva faza rada je skeniranje pisanog tekst. OCR softver radi sa datotekama slika.  Proces počinje pretvaranjem skeniranih datoteka u crno-bijele, a cjelokupni proces je binaran. Sa crnom bojom na slici prepoznaje se OCR tekst, a bijelo, zauzvrat, djeluje kao pozadina. Druga faza je definicija znakova, a brzina ovog procesa zavisi od OCR programa koji koristite. Većina programa analizira svaki element jedan po jedan. Svrha programa je identifikacija likova, ali dobri programi ne prepoznaju samo tekst već i tablice i druge elemente rasporeda.

Procesi OCR-a imaju ugrađene opcije za provjeru pravopisa i označavanje pogrešne riječi. Neke od  njih su složene i mogu označavati neusklađenost riječi i gramatički grešaka, a korisnik samo treba podestiti tu opciju.

Posljednji korak je spremanje gotovog dokumenta u ispravni format.

Tehnologija optičkog prepoznavanja znakova (OCR) omogućuje slijepim i slabovidnim osobama čitanje tekstova. On koristi jezik i prikazuje informacije na Braileovom zaslonu. Postoje tri glavna elementa sistema optičkog prepoznavanja znakova: snimanje, prepoznavanje i čitanje tekst.

Pisani dokument je tako reći zarobljen, a OCR softver ga pretvara u priznate znakove i riječi. Informacije se mogu pohranjivati na elektronski uređaj sa OCR softverom ili u samostalnoj memoriji uređaja. Proces uzima u obzir logičku strukturu bilo brojeva ili riječi u zavisnosti od oblika kojeg želimo prikazati.

Svi OCR sistemi stvaraju privremene datoteke koje sadrže znakove ili izgled stranica, a to zavisi za šta koristimo OCR softver. Neki sistemi mogu pretvarati u formate koji se mogu pronaći putem uobičajenih računarskih aplikacija, kao što su uređivači tekstova, različite tablice i baze podataka.

U narednim pasusima pročitajte kako izgleda faza pretvaranja jednog pisanog teksta u digitalni putem OCR-a.

Faza 1 je pretvaranje bitmape skeniranog tekst iz PCX formata (Picture eXchange – jedan je od prvih široko prihvaćenih formata za datoteke u DOS-u) u interni format. PCX format koristi se radi dobre mogućnosti kompresije datoteka i mogućnosti brze obrade. Druga faza je prikaz slike bitmape teksta na monitoru računara. U ovoj fazi program pronalazi i izdvaja sve sakupljene tačke. Sakupljene tačke se zatim obrađuju i uklanjaju sa ekrana ali iz datoteke koja sadrži bitmapu teksta. Faza tri je obrada skupljenih tačaka odnosno svih oblika. Ova faza se sastoji od nekoliko podfaza, prva faza ovog kompleksnog procesa je izdvanje grupa tačaka. Izdvajanje znakova odnosno oblika iz okoline pomoću potprograma. Potprogrami prepoznaju znakove, oblike, kao međusobno povezanu grupu (neprekinuti niz) tačaka iste boje te ih tako mogu razlikovati od podloge (najčešće bijelog papira). Zatim, slijedi podfaza otklanjanja smetnji, ova je podfaza zadužena za poboljšanje rada OCR programa. U podfazi normiranja koja slijedi izvršava se izdavanje znakova odnosno oblika sa predlošcima koji su pohranjeni u memoriji. Izdvojeni oblici moraju biti usporedivi sa predlošcima u sistemu i moraju stati u zadani standardni okvir (veličina je 16*16 tačaka). Oblici koji ne odgovaraju toj veličini transformišu se preračunavanjem koordinata tačaka dok se ostali jednostavno kopiraju u standardni okvir.

Naredna faza je izdvajanje osnovnih oblika, u ovoj podfazi se izdvajaju dvije osnovne  grupe tačaka: broj okvira znaka i veličine vanjskog znaka. Uz svaki znak koji služi kao prijedlog za prepoznavanja znakova, a koji je pohranjen u memoriji sistema, nalaze se podaci o dvije osnovne tačke. Izdvajanjem ovih osnovnih tačaka postiže se to da se više ne mora utvrđivati stepen sličnosti izdvojenih znakova i svih predložaka, već samo onih koji sadrže te iste dvije osnovne funkcije. Ovdje je bitno reći da broj okvira oblika mora biti identičan, na primjer slovo A ima dva okvira. Jasno je da se radi o jednom vanjskom i jednom unutrašnjem okviru. Značaj veličina vanjskog okvira koja je izražena brojem rubnih tačaka koje čine okvir ne mora biti identična prijedlogu i može odsupati i do 20%.

Podfaza koja slijedi je uspoređivanje izdvojenog oblika sa prijedlozi za prepoznavanje. U ovoj podfazi prepoznavanja izdvojeni oblici uspoređuju se sa svim pohranjenim prijedlozima sa kojima dijele osnovne oblike.

Najprije se uspoređuje veličina, visina i širina izdvojenog oblika sa veličinom znaka za prepoznavanje (u oba slučaja uspoređuje se veličina prije normiranja): Ako pri uspoređivanju odstupanja veličine izdovojenog znaka i prijedloga nije veća od 15% prelazi se u sljedeći korak.

A taj korak je utvrđivanje stepena podudarnosti izdvojenog znaka i predloška. Kod predloška sa najvećim stepenom podudarnost dodaje se izdvojenom obliku i on je sada prepoznat jer je najsličniji predlošku. Kod se upisuje u tablicu prepoznavanja zajedno sa koordinatama prepoznatog znaka u bitmapi teksta kako bi se znao tačan položaj prepoznatog znaka u tekstu.

U OCR sistemu skeniranja teksta, faza 4 se sastoji od sastavljanja znakova iz izdvojenih oblika. U ovoj fazi potrebno je spojiti znakove koji se sastoje od više od jednog dijela. Kod znakova koji se sastoje od samog jednog dijela kao što je znak “A” to nije potrebno provesti. Međutim, postoje znakovi koji se sastoje iz dva ili više dijelova (na prijmer “I”, “č” i “%”). Dakle, potrebno je da OCR program izdvoji i prepozna svaki dio znaka. Prema tome od koliko su dijelova odnosno komada sastavljeni znakovi postoji nekoliko tipova znakova: tip 1 – znak se sastoji od 1 dijela; tip 2 – znak se sastoji od 2 dijela; tip 3 – znak se sastoji od 3 dijela; i tip 4 – specijalni znaka, na primjer interpukcije poput tačke ili zareza, odnosno znak koji može stajati samostalnom tekstu ili biti dio nekog drugog znaka. Interpukcije poput tačke i zareza mogu biti samostalni, a mogu biti i dio jednog istog znaka, primjer znak tačka sa zarezom (;).

OCR je takođe važan koncept vještačke inteligencije, a jedan od najvažnijih koncepata na kojem se OCR tehnologija bazira jesu neuronske mreže.

Neuronske mreže su sofisticirani, fleksibilni algoritmi koji uče na temelju primjera, a kao takvi su odlični za OCR tehnologiju. One se mogu primjeniti na različite zadatke kao što su prepoznavanje uzorka, predviđanje vremenskih serija, usklađivanja funkcija, grupisanja i slično.

Neuronske mreže su alati koji mogu pomoći u rješavanju problema s tipovima OCR. Inspirirane su načinom na koji funkcioniše ljudski mozak i načinom na koji on obrađuje informacije. Sadrže zbir matematičkih modela koji predstavljaju karakteristike biološkog živčanog sistema. Neuronske mreže se sastoje od velikog broja međusobno povezanih elemenata za obradu (čvorovi) koji su vezani vezama (linkovima). Uče pomoću treninga, odnosno izlaganja skupu ulaznih i izlaznih podataka (obrazaca) te se znanja nužna za rješavanje problema pohranjuju. Danas se koriste za rješavanje složenih problema. Najbolje su prilikom rješavanja problema koji su prekomplikovani za konvencionalne tehnologije (ukoliko problem nema algoritamsko rješenje ili problem za koje je algoritamsko rješenje previše komplikovano da bi se tražilo) i za probleme za koje ljudi imaju mogućnost rješavanja, ali tradicionalne metode nisu prikladne. Vrlo su dobre prilikom prepoznavanja uzoraka i robusnih klasifikatora, a imaju i mogućnost generalizacije u donošenju odluka na temelju nepreciznih ulaznih informacija. Nude rješenja za razne probleme klasifikacije kao što su prepoznavanje govora, signala, funkcionalna predviđanja, modelisanja sistema i slično. Glavne prednosti neuronskih mreža su njihova sposobnost učenja i otpornost na “iskrivljene” ulazne podatake.

 

OCR program svakodnevno nailazi na nove uzorke slova, razne fontove koji se ne koriste često, na dokumente koji mogu biti loše skenirani, neuredni, zamrljani, neuredno ručno pisani i slično. Neuronske mreže se tu izdvajaju kao rješenje jer imaju mogućnost analiziranja sličnosti (nepoznati uzorak uspoređuje sa već poznatim uzorcima) i generišu izlaz koji je najsličniji već postojećim uzorcima. Kao što je već navedeno, neuronske mreže usmjerene su na razvoj mreža koje bi trebale funkcionisati kao ljudski mozak u rješavanju problema. One služe kako bi razumijeli biološke neurološke mreže i  za riješavanje problema u području vještačke inteligencije. Imaju veliku mogućnost prepoznavanja obrazaca, učenja iz iskustva, organizaciji i grupisanju podataka, sortiranju podataka kao relevantne i irelevantne i slično. Često se koriste u “data miningu”- ekstrakciji znanja i razumijevanju iz čistih, sirovih podataka. OCR kao sistem takođe pripada “data miningu” zbog mogućnosti određivanja koji oblici pripadaju kojem slovu (npr. razlika između slova “A” i slova “B”). Postoje razni uzorci određenog simbola (npr. slova “a”, odnosno “A”). Osnovni uzorak slova unosi se u neuronsku mrežu koja razvija ideju o tome kako određeno slovo izgleda. Trebalo bi u mrežu unijeti i dovoljan broj uzoraka slova kako bi bio u mogućnosti prepoznati svaki oblik koji se unese na prepoznavanje.

Stručnjaci kompanije MMSCODE takođe naš softver razvijaju na najsavremenijim tehnologijama vještačke inteligencije i OCR-a.

Naš OCR softver ima veliku biblioteku skeniranih podataka, a softver se primjenjuje kod skeniranja vozačkih dozvola, pasoša, u svrhe digitalnog marketing.

Više informacija pronađite upravo ovdje, na našoj veb stranici.

VAŠ MMSCODE

MI STVARAMO SISTEME BUDUĆNOSTI