„Data Mining“ ili metoda „vrijedna zlata“

Skoro svi dnevno koristimo Internet i pristupamo nekim od nekoliko milijardi dokumenata, a svaka naša akcija, odnosno klik pohranjuje se u obliku podataka.

Količina podataka se povećava neumoljivo, a čovjek sve manje može da ih razumije. Danas se podaci čuvaju sa ciljem dalje analize i generisanja korisnih informacija za potrebe odlučivanja, nužno je postojanje metodologija i tehnika kojima će se taj cilj i ostvariti.

Data mining ili kako se kod nas prevodi „rudarenje podataka“ je nova metoda koja otkriva vrijednost podataka koji se nalaze u bazama podataka preduzeća.

Prema definiciji rudaranje podacima je traženje vrijednih informacija u velikim količinama podataka. Rudarenje podacima je istraživanje i analiza velikih količina podataka pomoću automatskih ili poluautomatskih metoda s ciljem otkrivanja smislenih pravilnosti.

Rudarenje podataka, mnogi iz ovog svijeta smatraju više umjetnošću nego naukom. Prema naučniku Baragoin-u, ne postoji recept za uspješno rudarenje podacima koja će sigurno dati rezultat pronalaženja vrijednih informacija, ali smatra on vjerovatnoća uspjeha će se povećati ako se slijede koraci procesa rudarenja podacima.

Ovo je proces kojim preduzeća pretvaraju sirove podatke u korisne informacije. Radi se zapravo o disciplini koja omogućava automatsku obradu velike količine podataka kako bi se identifikovali obrasci i trendovi u podacima koji prevazilaze jednostavne analize.

Aktivnosti rudarenja podataka predstavlja iterativan proces koji je usmjeren prema analizi velikih količina podataka, sa ciljem izdvajanja informacija i znanja koji se mogu pokazati potencijalno korisnim osobama zaduženim za donošenje odluka.

Ovaj proces radi uz korištenje najsavremenijih informatičkih tehnologija i uz pomoć matematičkih algoritama i modela automatskih okvira koji prepoznaju uzorke u podacima, predviđaju najverovatnije rezultate i stvaraju iskoristive informacije.

„Data Mining“ najviše danas koriste preduzeća koja imaju snažan odnos sa kupcima, kao što je prodaja, finansije, komunikacije i marketinške organizacije, a veliki je porast upotrebe i u neprofitnim i državnim institucijama.

Gotovo svake minute u preduzeću se donose odluke na raznim nivoima upravljanja koja imaju uticaj na pravac poslovanja, te odluke su presudne za jednu takvu organizaciju. Donošenje dobre odluke u kritičnom trenutku može dovesti do efikasnije proizvodnje, profitabilnijeg preduzeća ili zadovoljnijih kupaca. Iako je danas na tržištu mnogo alata za obradu podataka i njihovu distribuciju, još uvijek postoje preduzeća i organizacije koje se prilikom donošenja odluka oslanjaju prije svega na instikt, savjete drugih i prethodno iskazane prakse.

Povećanje memorijskih kapaciteta, smanjenje njihovih cijena i široka dostupnost internetske veze olakšalo bi organizacijama i korisnicima pohranu i distribuciju podataka.

S obzirom da se riječ o podacima prikupljenim iz različitih izvora, samim tim i njihova struktura je različita, ali i sadržaj.

Mogućnost pristupa velikoj količini podataka predstavlja priliku za savremena preduzeća da njihovom obradom stvore adekvatnu informativnu podlogu za efektivno i pravovremeno donošenje odluka. Upravo to je problem kojim se bavi i nastoji riješiti oblast poslovne inteligencije, a rudarenje podataka pripada toj grupi.

Naravno, objasnićemo vam gore pomenuti pojam poslovne inteligencije ili na engleskom Business Intelligence, a definiše se kao skup matematičkih modela i analitičkih metodologija koje koriste dostupne podatke za stvaranje informacija i znanja, korisnih za složene procese donošenja odluka.

Stručnjaci takođe definišu poslovnu inteligenciju kao tehnologiju upravljanja procesom za analizu podataka i prezentovanje prikupljenih informacija kako bi se pomoglo izvršnim direktorima, menadžerima i brojnim drugim krajnjim korisnicima donošenja poslovnih odluka.

Za poslovnu inteligenciju se može reći da se radi o bilo kojoj aktivnosti, alatu ili procesu koji se koristi za dobijanje relevantnih informacija za podršku procesu donošenja odluka.

Postoje dvije osnovne vrste rudarenja i analize podataka:

Interpretacija – osnovni cilj ovih aktivnosti jeste identifikacija uobičajenih obrazaca u podacima i njihovo iskazivanje kroz skup pravila i kriterijuma koji su lako razumljivi krajnjim korisnicima.

Predviđanje – druga kategorija aktivnosti rudarenja podataka nastoji predvidjeti vrijednost koju će slučajna varijabla poprimiti u budućnosti, kao i vjerovatnoća da se ta vrijednost stvarno i ostvari.

MODELI I METODE

Postoji veliki broj različitih metoda i tehnika koje se mogu koristiti za posao rudarenja podataka. Neke od tih tehnika spadaju pod klasične statističke tehnike, dok je dio njih jedinstven za rudarenje podataka.

U narednim pasusima predstavićemo neke od tehnika.

Asocijacija ili na engleskom Association – asocijacijska pravila, poznata i kao pravila sklonosti, koriste se za identifikaciju zanimljivih i ponavljajućih povezanosti između grupa zapisa u setu podataka. Ona koristi niz IF i THEN kako bi pomogla otkriti vezu između naizgled nepovezanih podataka u realcionoj bazi podataka ili nekom drugom izvoru. Ova tehnika se na primjer može koristiti za utvrđivanje proizvoda koji se često kupuju zajedno, kao i vjerovatnoća da će doći do kupovine.

Korelacija ili na engleskom Correlation, jedna od najjednostavnijih tehnika koja se koristi prilikom rudarenja podataka. Osnovni cilj korelacijskog rudarenja je otkrivanje interesantnih i neuobičajenih zavisnosti između velikog broja varijabli. Koristi se kao brz i lagan način za utvrđivanje u kakvoj se interakciji nalaze određeni podaci. Rezultat koji dobijemo radom sa korelacijskim rudarenjem naziva se koeficijent korealcije. Taj koeficijent ukazuje na jačinu i smjer veze između dvije varijable.

Grupisanje ili engleski Clustering, je tehnika koja nastoji definisati prikaladne pokazatelje i uvoditi pojmove udaljenosti i sličnosti između parova posmatranja identitifikacije homogene grupe opažanja koje nazivamo grozdovima (eng. Cluster). Radi se o algoritmu baziranom na udaljenosti koji dijeli podatke u unaprijed određeni broj grozdova (pod uslovom da postoji dovoljno jedinstvenih slučajeva). Rezultat primjene ove tehnike bi trebao biti određeni broj skupova unutar koji se nalaze podaci koji su istovremenom međusobno sliči, ali takođe i različiti od podataka koji se nalaze u tim drugim grupama. Grupe objekata koje dijele zajednčka svojstva imaju bitnu ulogu u načinu na koji ljudi analiziraju i opisuju svijet. To nam omogućava lakše razumijevanje određenih pojmova.

Grupisanje takođe možemo koristiti kako bi izdvojili individualne podatke koji se nalaze u tim grupama. Te grupe potom možemo koristiti kako bi njihovom daljom analizom donijeli zaključke o individualnim podacima koji se nalaze unutar njih.

Linearna regresija ili Linear Regression, cilj ove metode jeste da se na temelju raspoloživih nezavisnih varijabli predvidi vrijednost ciljne varijable za svako opažanje. Zamisao je da se ciljna varijabla izrazi  kao linearna kombinacija nezavisnih varijabli sa predoređenim ponderima. Svoj cilj ostvaruje tako da pronađe vrijednost regresijskih koeficijenata za koje će regresijska funkcija najbolje odgovarati grupi podataka koja stoji na raspolaganju. Uopšteno se radi o vrijednosti regresijskih koefincijenata za koje se minimizira određena mjera pogreške, kao što je na primjer zbir kvadrata grešaka.

Regresija se koristi kako bi se ostvarila dva cilja. Prvi cilj je naglašavanje i tumačenje zavisnosti ciljne varijable o drugim, nezavisnim varijablama. Drugi cilj je prediviđanje buduće vrijednosti ciljne varijable temeljno na identifikaciji funkcionalne zavisnosti i budućoj vrijednosti nezavisnih varijabli. Najjednostavnijji oblik regresije je kada postoji linearna zavisnost jedne varijable o jednoj nezavisnoj varijabli.

Još jedna regresija koja se često koristi je standardna multivarijantna regresija, koja uzima u obzir sve nezavisne varijable. Kod STEPWISE i hijerarhijske regresije su procesi unutar kojih se analiziraju pojedinačne nezavisne varijable te se biraju samo one koje najbolje odgovaraju modelu.

Stabla odlučivanja ili Decision Trees, stablo odlučivanja je vrsta SUPERVISED LEARNING algoritam koji se najčešće koristi kod klasifikacijskih problema. Kod ove tehnike dijeli se populacija ili uzorak na dvije ili više homogenih grupa prema određenoj varijabli. Sastoji se od čvorova i listova koji predstavljaju varijablu prema kojoj je moguće najbolje podijeliti određenu grupu podataka.

Neuronske mreže ili Neural Networks, ovom tehnikom imitira se rad ljudskog mozga kako bi se korištenjem umjetnih neurona međusobno usporedili atributi. Obrađivanje vrijednosti atributa i stvaranjem čvorova spojenih neuronima, ova tehnika omogućava predviđanje, čak i u uslovima neizvjesnosti.

Neuronske mreže se obično sastoje od više slojeva. Svaki sloj se sastoji od određenog broja međusobno povezanih čvorova koji sadrže aktivacijsku funkciju. Ulazni nivo pruža podatke odnosno obrazce, skrivenom nivou koji je zadužen za njihovu obradu sistemu ponderiranih veza. Nakon što su podaci obrađeni šalju se izlaznom nivou. Svaka neuronska mreža ima sebi pridružena pravila učenja. U prvom ciklusu obrade podataka sistem neuronskih mreža nagađa odraze tih podataka. Nakon toga potrebno je sagledati koliko taj rezultat odstupa od stvarnog i provodi potrebne korekcije.

Text – mining, korištenjem ove tehnike analiziraju se podaci koji se nalaze u obliku prirodnog jezika odnosno teksta. Ova tehnika može pomoći kompanije da izvuče korisne informacije o poslovanju iz različitih elektronsko pohranjenih dokumenata, elektronske pošte, komentara na društvenim mrežama i tome slično. Rezultat ove metode je pretvaranje nestruktuisanih tekstualnih podataka u struktuisane numeričke podatke nad kojima se mogu koristiti tehnike vizualizacije i analize podataka. Može se takođe koristiti za automatsku obradu otvorenih pitanja u anketama, identifikaciji ključnih riječi u dokumentima, te utvrđivanju sličnosti dokumenata.

Rudarenje teksta ili Text Mining, unutar analiziranog skupa podataka nalazi se stub koji sadrži sažeti opis svakog realizovanog projekta. S obzirom da se radi o velikom broju projekata, postupak “ručnog” analiziranja njihovog sadržaja zahtjevao bi veliku angažovanost ljudskih resursa i vremena. Osnovni informativni sadržaj do kojeg možemo doći primjenom tehnike rudarenja teksta jeste učestalost pojave ključnih riječi u dokumentu. Kako bi ostvarili taj cilj, potrebno je izgraditi model  u alatu za rudarenje podataka.

Model se sastoji od četiri operatora. Prvi operator Read Excel koristi se za učitavanje podataka iz .xls datoteke. Sljedeći u nizu je operator Nominal to Text, koji kao što su samo ime kaže transformiše vrstu podataka iz nominalne u tekstualnu. Treći operator, Data to Documents,koristi se za pretvaranje svake pojedine ćelije u zasebni document.

Zadnji operator, Process Documents, koristi se za obradu dokumenta. Potrebno je istaknuti posljednji operator sam po sebi nije u mogućnosti obraditi dokumente, već on služi kao svojevrsni spremnik za operatore obrade teksta.

O ovoj temi čitajte i u našem narednom blogu.

VAŠ MMSCODE

MI STVARAMO SISTEME BUDUĆNOSTI