Data Science i Data Engineering

Kako je tehnologija napredovala tako se i broj podataka povećavao, a to je dovelo do toga da je svijet zatrpan podacima od kojih se mali dio iskoristi za dobijanje kvalitetnih informacija. Ta potreba za kvalitetnim informacijama je uslovila stvaranje kompanija koje se bave istraživanjem podataka. Misija kompanija koje istražuju i obrađuju podatke jeste njihovo pretvaranje i ugrađivanje u inovativne proizvode koji će unaprijediti poslovanje njihovih klijenata. Podaci se prikupljaju, klasifikuju, analiziraju i obrađuju kako bismo svi mi kasnije mogli iskoristiti dobijene informacije u svoje poslovne svrhe. Data Science (nauka o podacima) i Data Engineering (inžinjerstvo podataka) su dva nova zanimanja koja se bave podacima. Počećemo naš tekst time šta je to Data Science i Data Engineering i koja su to znanja potrebna za savladavanje ovih vještina.

Šta je Data Science i Data Engineering?

Data Engineering podrazumjeva ljude koji imaju znanje iz programiranja, infrastrukture i arhitekture sistema za prikupljanje i obradu podataka. Ovi profesionalci vladaju podacima iz druge perspektive, jer rade na razvoju infrastrukture, automatizaciji skladištenja podataka i tokova podataka, te rade na životnom ciklusu podataka koji donosi brzinu unutar sistema. Data engineering kada jednom uspostavi model učitavanja podatka nema potrebe da to uradi ponovo. Oni su odgovorni za projektovanje, izgradnju, održavanje i testiranje arhitekture, kao što su baze podataka i sistema za obradu velikog broj podataka. Data engineering su takođe odgovorni za stvaranje podataka u procesu koji se koriste za modeliranje, rudarstvo podataka, nabavku i verifikaciju.

Oni poznaju instalaciju distributivih sistema kao što su Hadoop MapReduce/Spark klasteri, znaju da kodiraju u programima kao što su Scala/Python/Java, C/++, Perl, Goal programming i Unix skripting. Poznavaju rad u operativnim sistemima UNIX, Linux i Solari jer mnogi matematički alati su zasnovani na sistemima koji zahtijevaju korijen za pristup hardveru i operativnom sistemu funkcionalnosti iznad ili izvan Microsoft i Mac OS. U inžinjerstvu podataka potrebno je znanje i razumjevanje sistema: modela podataka, relacione i neralicone baze podataka, upravljanje i odnos među njima, protok informacija izvršenja, komparativna analiza skladišta podatake, te je neophodno poznavanje SQL-a i programa poput Cassandre ili Bigtable, za upravljanje podacima.

Data Scientist zahtjeva rad nad velikim skupovima podataka sa Machine learning algoritmima, potrebno je da znaju kako razviti prediktivne modele, poznavanje matematike i statistike iza modela, te da na kraju znaju da interpretiraju i objasne ponašanja modela jednostavnim jezikom. Takođe od njih se traži dobro poznavanje SQL-a, kao i poznavanje barem jednog programskog jezika za prediktivnu analitiku, na primjer R ili Pyhton. Poznavanje mašinskog učenja je potrebno da bi se mogli fokusirati kako podatke da iskoristimo na tržištu, te pretvaranje podataka u korisne alatke.

Data science i Data engineering danas mijenjaju ekonomiju i način poslovanja. Za ova zanimanja se kaže da su multidisciplinarna jer zahtjevaju poznavanja više oblasti. To su profesionalci koji pripremaju “Big Data” infrastrukturu za analiziranje podataka i na osnovu podataka rade na izgradnji novog proizvoda. Zajedno rade na izgradnji novog proizvoda. Data scientist prikupljaju dosta informacija koje će iskoristi Data engineering ugrađivanjem u sistem ili aplikaciju kao novi proizvod.

Zaključak

Data engineering i Data science je inovacija koji čini razvoj novih usluga i proizvoda za kompanije koje mogu pomoću njih ostvariti poslovni uspjeh. Data Engineering je veoma uzbudljiva oblast koja se zajedno sa Data Science svakodnevno unapređuje, a to je i prilika da svoju karijeru usmjerite upravo prema novoj oblasti koja je otvorila vrata četvrte industrijske revolucije.