Proces rudarenja podacima

U prethodnom tekstu rekli smo kako mnogi naučnici i stručnjaci kažu da je rudarenje podacima više umjetnost nego nauka. Danas ćemo vam objasniti i cjelokupni proces, a vama ostavljamo priliku da razmišljate o nauci 21. vijeka i ko zna, možda neki od vas i odluče svoju karijeru usmjeriti u ovom pravcu.

Uvijek se polazi od problema, i ovdje je prvi korak definisanje poslovnog problema, drugi korak je priprema podataka koja uključuje određivanje potrebnih podataka, transformaciju i uzorkovanje, te vrednovanje podataka. Modelovanje je treći korak, a obuhvata odabir metoda rudarenja te izradu i vrednovanje modela. Četvrti korak je implementacija koja obuhvata interpretaciju i korištenje rezultata.

Proces rudarenje podataka je iterativan, što znači da se u svakom trenutku moguće vratiti na neki od prethodnih koraka. Na primjer, u procesu odabira tehnike rudarenja možemo shvatiti da nismo dobro odabrali potrebne podatke, te se možemo vratiti na prethodni korak i početi sve ispočetka.

Ovo vraćanje unazad možemo više shvatiti kao pravilo nego izuzetak, jer je u rudarenju podataka najvažnije dobro definisanje problema, te izbor i priprema podataka, što je možda i “najteži” korak.

Naravno, sa druge strane tokom procesa poveća se i naše znanje o poslovnom problemu i podacima, te je takva “revidirana” definicija poslovnog problema često bolja od orginalne. U nastavku ćemo detaljno opisati korake rudarenja podataka.

Rudarenje podacima počinje kao što smo rekli definisanjem poslovnog problema, zatim određivanjem potrebnih podataka, transformacijom i uzorkovanjem, da bismo nakon toga mogli izabrati  tehnike rudarenja (neke od njih smo predstavila u prethodnom blogu). Nakon što smo  prikupili podatke slijedi njihovo vrednovanje, interpretacija te na kraju i korištenje.

DEFINISANJE POSLOVNOG PROBLEMA

Prvi korak u procesu rudarenja podataka je definisanje poslovnog problema te izražavanje tog problema u obliku pitanja na koja se na završetku procesa može odgovoriti. Najbolji pristup u definisanju poslovnog problema je analiziranje područja gdje je rudarenje podataka već uspješno korišteno. Nakon upoznavanja sa uspješnim primjenama ovog procesa, možemo izabrati područje koje je najkritičnije za naše preduzeće. U ovom koraku određuje se koje će osobe sudjelovati u projektu rudarenja podacima. To su uglavnom specijalisti za rudarenje podacima, informatičari koji dobro poznaju baze podataka i stručnjaci iz oblasti na kojima se primjenjuje zahtjevana metoda. U proces su uključeni i zaposleni u menadžmetu koji možda ne rade direktno na projektu, ali mogu pružiti pomoć u rješavanju eventualnih nejasnoća i problema. Proces rudarenja podacima polako se počinje uključivati i u poslovne proces na našem području.

Priprema podataka obuhvata određivanje potrebnih podataka, transformaciju i uzrokovanje te vrednovanje podataka. Ova faza je vremenski najzahtjevnija, a obuhvata 60-90% vremena potrebnog za rudarenje podataka. Podaci za rudarenje mogu biti pohranjeni u različitim oblicima, od kojih su najčešći relacione baze podataka ili skladišta podataka. Može se raditi o operativnim sistemi kao što su POS, bankomati, telefonski razgovori, web server i slično.

Specijalista za rudarenje podataka, infromatičar ili stručnjaci iz pojedine oblasti koja zahtjeva ovaj proces zajedno određuju koji če podaci biti potrebni za izradu modela.

ODREĐIVANJE PODATAKA

Drugi korak u rudarenju podacima je određivanje podataka koji će se koristiti za izradu modela. Podaci koji se tipično koriste za rudarenje podataka pohranjeni su u obliku  baza podataka koje kompanije posjeduju.

U ovom koraku se određuju i varijable koje će se izbaciti iz analize te koja će varijabla biti ciljna ili zavisna. Na primjer, ukoliko se radi o procijeni nekog rizika klijenta, ciljna varijabla će biti ona koja opisuje da li je klijent i dalje u riziku ili ne.

Konačan rezultat određivanja potrebnih podataka je popis varijabli koje će se koristiti u izradi modela.

TRANSFORMACIJA PODATAKA

U ovom koraku se varijable iz dostupnih baza podataka transformišu u oblik pogodan za proces. Podaci moraju biti u tabelarnom obliku pri čemu se u stubovima trebaju nalaziti varijable (obilježja), a u riječima opažanja. Svaki red mora opisati podatak koji je značajan za preduzeće bilo da se radi o kupcima ili proizvodima. Na temelju dostupnih varijabli iz baza podataka računaju se varijable koje određuju stručnjaci određene oblasti odnosno iz oblasti na kojoj trenutno rudarimo podatke.

UZORAK PODATAKA

U bazama se nalaze velike količine podataka. Za izradu modela nije potrebno toliko podataka, za uzrokovanje se koristi mala količina za izradu modela. Ovdje stručnjaci često postavljaju pitanje koliko je podataka dovoljno. Ipak, ne postoji konačan odgovor, sve zavisi od algoritma. Za izradu “stabla odlučivanja” dovoljno je imati dvije do tri hiljade podataka, ali za treniranje neuronski mreža potrebno je mnogo više podataka za uzorak, a biraju se najčešće slučajnim izborom. Često se desi da je udio događaja koji se analizira u uzorku veoma mali. Na primjer, ako želimo napraviti model koji će prognozirati vjerovatnoću da će klijent kupiti neki proizvod, potrebna nam je baza podataka sa sličnim podacima iz prošlosti. U takvoj bazi od, na primjer 100 000 klijenata, može biti samo 4 000 klijenta koji su kupili proizvod. Na temelju njihovih karakteristika će se napraviti model. Za izradu modela nije nam potrebno 100 000 podataka već  mnogo manje na primjer 10 000. Međutim ako se podaci izaberu slučajnim izborom, broj od 4 000 klijenata koji su kupili proizvod u uzorku će biti mnogo manji, oko 40. Preporučuje se zato da u takvim slučajevima u uzorku od 10 000 uzme svih 4 000 klijenata koji su kupili proizvod, a ostalih 6 000 klijenata odabere se slučajnim izborom. Pokazalo se da takav pristup daje pouzdanije rezultate. Pošto je izabran uzorak za izradu modela, potrebno ga je dodatno podijeliti na dva dijela – dio podataka za izradu modela i dio podataka za testiranje modela. Takav pristup tipičan je za rudarenje podataka jer se na taj način provjerava efikasnost modela na podacima koji nisu korišteni za njegovu izradu.

VREDNOVANJE PODATAKA

Kod vrednovanja podataka potrebno je analizirati postojanje netipičnih vrijednosti i takozvanih prljavih podataka. Netipične vrijednosti javaljaju se u svakoj bazi podataka, te je potrebno odlučiti i šta dalje sa tim vrijednostima. Moguće je napraviti analizu i sa tim podacima, izbaciti podatke o klijentima koji imaju netipične vrijednosti, izbaciti iz analize varijablu koja ima mnogo netipične vrijednosti ili netipične vrijednosti zamijeniti sa nekom vrijednosti, na primjer minimumom, maksimum ili prosjek.

Prljavi podaci se odnose na nepostojeće vrijednosti, nejasno definisane podatke i netačne vrijednosti. Vrijedi pravilo da su svi podaci prljavi podaci, odnosno u svakoj bazi je moguće pronaći neku od ovih pojava. Nepostojeće vrijednosti česte su, a obično se radi o stanju kada nemamo dovoljno podataka o  klijentima, na primjer demografske podatke ili starost. Potrebno je vidjeti može li se starost izračunati na osnovu  nekih drugih varijabli – npr. jedinstvenog matičnog broja građanina. Ako to nije moguće, postupak sa nepostojećim vrijednostima isti je kao i postupak za netipične vrijednosti. Nejasne definicije podataka česte su kod “prelaska” podataka iz jedna baze podataka u drugu. Netačne vrijednosti su najčešće posljedica pogrešnog unosa podataka u računar.

“Data mining” je nova disciplina koja ima cilj da filtirira podatke u bazama podataka, da ih sumira i pronalazi obrazce. Ovo je nova tehnologija koja rješava brojne probleme, sa velikim potencijalom za komercijalna i naučna otkrića.

VAŠ MMSCODE

MI STVARAMO SISTEME BUDUĆNOSTI