Veliki podaci zahtevaju veliko skladište.

Od skladištenja podataka u data warehouse-ima, preko data lake-a pa sve do data estate-ova, pouzdana infrastruktura za skladištenje je ključna za podršku savremenih poslovanja i aplikacija - pod uslovom da je zaista "savremena".

Ali šta čini data warehouse "savremenim"?

Osvrnimo se pre odgovora na ovo pitanje na sam DWH I čemu on služi. Data warehouse predstavlja svaki sistem koji se koristi za analizu podataka i izveštavanje.

Analiza podataka: Izvlačenje korisnih informacija i uvida iz podataka koji su prikupljeni, očišćeni, transformisani i modelovani u određene svrhe. Uobičajeni primeri uključuju poslovnu inteligenciju (BI) i mašinsko učenje.

Izveštavanje: Generisanje izveštaja koji su čitljivi za ljude, na osnovu rezultata analize podataka, često u formi grafikona ili dijagrama.

post image

Baš kao što pravo skladište čuva robu na pogodnom mestu za obavljanje određenih zadataka, data warehouse-i čuvaju podatke sa istim ciljem. Ti podaci mogu dolaziti iz različitih izvora kao što su senzori, API-ji pa čak i blogovi - slično kao što pravo skladište može primati inventar iz kamiona, vozova ili drugih oblika transporta.

Mnogi tradicionalni data warehouse-i su specijalizovani za analizu podataka u svrhu poslovne inteligencije. Kao rezultat toga, oni prikupljaju samo određene podatke o prodaji sa specifičnih izvora, a potom sprovode posebne analize kako bi generisali specifične rezultate, kao što su prognoze prodaje.

Moderne data warehouse-e karakteriše mnogo veća fleksibilnost. Oni pružaju "mešovitu kolekciju" podataka iz različitih izvora, koji se mogu formatirati i koristiti za različite aplikacije. To je kao da su naša prava skladišta koja smo ranije pomenuli udružila snage i zalihe popunila sa cevima i građevinskim materijalom, omogućavajući građevinskim kompanijama da koriste bilo koju kombinaciju tih materijala koja im je potrebna.

Nažalost, ovo je tačka gde naša analogija sa pravim svetom prestaje. Da bi pružili takvu fleksibilnost, moderni data warehouse-i moraju koristiti jednako fleksibilnu arhitekturu.

Da bi obezbedili takvu fleksibilnost, moderni data warehouse-i moraju da iskoriste podjednako fleksibilnu arhitekturu.

Moderna arhitektura DWH

Iako to možda deluje kao paradoks, to je jedna od osnovnih prednosti - ako ne i celokupna svrha - modernih data warehouse-a.

Pošto su moderni data warehouse-i namenjeni za različite svrhe, moraju biti sposobni da usvoje bilo koju arhitekturu koja je potrebna za rešavanje problema. Nasuprot tome, tradicionalni data warehouse-i obično su ograničeni na proces Extract, Transform, Load (ETL), što čini staru šemu (star schema) verovatno najčešćom arhitekturom.

Moderne data warehouse-e mnogo manje ograničavaju. Oni ne samo da mogu koristiti staru šemu (star schema), već mogu koristiti i specijalizovane arhitekture kao što su:

Hibridne arhitekture: Koriste kombinaciju infrastrukture na lokaciji i cloud infrastrukture, obično sa resursima na lokaciji koji služe samo da nadopune cloud tamo gde je to potrebno.

Arhitekture sa masovno paralelnom obradom (MPP): Obrada podataka je distribuirana preko više čvorova ili servera.

Lambda arhitekture: Obradi ogromne količine podataka koristeći kombinaciju slojeva (batch, speed i service). Ovde se podaci istovremeno obrađuju u batch sloju i speed sloju, pri čemu batch sloj podržava obradu sirovih podataka, a speed sloj podržava obradu podataka sa niskom latencijom koji već nisu isporučeni batch sloju. U međuvremenu, service sloj podržava upite u stvarnom vremenu. Ova arhitektura je česta u aplikacijama sa velikim količinama podataka (big data aplikacije).

Tradicionalni vs. moderni data warehouse

Lokacija i arhitektura nisu jedine razlike između modernih i tradicionalnih data warehouse-a.

Ipak, priznaćemo zasluge gde zaslužuju: ove dve ključne razlike dovode do svih ostalih, kao što su razlike u svrsi, obuhvatu pa čak i ceni.

Evo nekih od glavnih razlika koje treba imati na umu.

  • Lokacija

Gde su tradicionalni data warehouse-i obično smešteni na mestu (on-site), moderni data warehouse-i koriste cloud infrastrukturu kako bi održali fleksibilnost. Međutim, kao što je ranije pomenuto, moderni data warehouse-i takođe mogu koristiti hibridnu arhitekturu gde je to prikladno.

  • Svrha

Budući da su tradicionalni data warehouse-i smešteni na fizičkim serverima na lokaciji korisnika (on-premises), često su namenski izgrađeni za određene poslovne procese i tipove podataka. Oni obično podržavaju donošenje odluka za određena poslovna područja.

S druge strane, moderni data warehouse-ovi obrađuju velike količine različitih podataka (strukturiranih, polustrukturiranih ili nestrukturiranih) sa različitih izvora. Kao rezultat toga, oni su izuzetno poželjni za opterećenja gde obim podataka premašuje kapacitet tradicionalnih alatki - što je situacija koja je postala sve češća.

  • Obuhvat

Proširenje specifične svrhe dovodi do toga da su tradicionalni data warehouse-i takođe ograničeni na određeni obuhvat, kao što su poslovna inteligencija (BI) ili online analitička obrada (OLAP). Moderni data warehouse-ovi su mnogo manje ograničeni i "slobodni" su da analiziraju i izvlače uvide iz big data koje karakterišu četiri V-a (Obim, Raznolikost, Brzina i Pouzdanost).

  • Izvori podataka

Tradicionalni data warehouse-i često prikupljaju podatke iz konvencionalnih izvora, kao što su operativne ili transakcione baze podataka. Iako moderni data warehouse-i takođe mogu povlačiti podatke iz ovih izvora, nisu ograničeni samo na njih.

Umesto toga, moderni data warehouse-i mogu koristiti različite izvore podataka, uključujući društvene mreže, senzore, blogove, audio i video zapise. Ova mogućnost takođe postaje moguća zahvaljujući cloud infrastrukturi, gde se interfejsi i resursi mogu trenutno dodeliti u virtuelnom okruženju.

  • Arhitektura

Pošto većina tradicionalnih data warehouse-a podržava procese ETL (Extract, Transform, Load), star schema je obično najočigledniji izbor arhitekture. Moderni data warehouse-i mogu usvojiti različite arhitekture kako bi odgovarali svojim opterećenjima, uključujući hibridne, lambda i MPP (Massively Parallel Processing) arhitekture. Napomena: većina modernih data warehouse-ova koristi Extract, Load, Transform (ELT) pristup umesto ETL kako bi podržali veće količine podataka.

  • Troškovi

Iako ova fleksibilnost može zvučati skupo, istina je suprotna: Cloud računarstvo (i moderni data warehouse-i kao produžetak toga) zapravo je postalo pristupačnije od tradicionalnih, on-premises data warehouse-ova.

Prednosti modernog data warehouse-a

Iskorišćavanjem fleksibilnosti i skalabilnosti cloud-a, organizacije mogu uživati u većoj fleksibilnosti i većim opterećenjima bez žrtvovanja vremena i novca na održavanje fizičkih data centara na lokaciji (on-premises).

Evo nekih od glavnih prednosti modernih data warehouse-a:

  • Niži početni troškovi

Čak i kada se troškovi hardvera nastave smanjivati, još uvek je skupo kupiti sopstvenu opremu.

Ako početni troškovi nisu dovoljni, oprema na lokaciji takođe zahteva redovno održavanje, povećava račune za električnu energiju i s vremenom gubi vrednost do tačke kada je potrebno zameniti je

S druge strane, cloud infrastruktura modernih data warehouse-a koristi prednosti ekonomije razmere u računarstvu. Drugim rečima, pružaoci usluga posvećeni pružanju cloud resursa već su investirali milione dolara u obezbeđivanje ogromnih količina računarske snage - i kontinuirano održavanje i nadogradnje koje slede.

Kao rezultat toga, iznajmljivanje relativno malog dela cloud resursa je mnogo jeftinije od kupovine i održavanja ekvivalentnih resursa na lokaciji (on-premises).

  • Manje održavanja

Korišćenje cloud infrastrukture eliminiše potrebu za kontinuiranim održavanjem. Ovo ne samo da štedi novac i vreme, već takođe eliminiše potencijalne greške i prekide zbog planiranih ažuriranja, zamene opreme, bezbednosnih pretnji i slično.

Iako pružaoci cloud usluga nisu nužno imuni na ove probleme, obično mogu garantovati gotovo stalnu dostupnost i snažnu bezbednost, istovremeno obavljajući nadogradnje i zamene hardvera u pozadini.

  • Brži rad

Moderni, bazirani na cloud-u data warehouse-i obično su mnogo brži od tradicionalnih data warehouse-ova smeštenih na lokaciji korisnika.

Deo razloga za to leži u većoj računarskoj snazi i obradnim resursima koji su dostupni, ali još jedan važan faktor je korišćenje ELT pristupa umesto ETL pristupa. U ELT pristupu, bolje se koriste alati za replikaciju podataka kako bi se istovremeno učitale velike količine podataka, a potom ih transformisale po potrebi, za razliku od obrnutog procesa u ETL pristupu.

Ove prednosti omogućavaju modernim data warehouse-ima na cloud infrastrukturi da pruže bolje performanse i brže vreme obrade podataka, što je ključno za efikasnu analitiku i donošenje odluka u savremenom poslovnom okruženju.

  • Veća fleksibilnost

Zbog toga što cloud infrastruktura implementira virtuelne instance na distribuiranom fizičkom hardveru, pružaoci mogu lako prelaziti između različitih formata, tipova podataka i arhitektura data warehouse-a - čak i logički ih kombinovati. Nasuprot tome, tradicionalni data warehouse-ovi koji koriste relacione baze podataka često su ograničeni na podatke sličnog tipa ili formata.

  • Lakše skaliranje

Fleksibilnost cloud-a je takođe sinonim za skalabilnost. Ponovo, pošto se resursi dodeljuju virtuelno, moguće je trenutno dodati više ili manje resursa. Ovo olakšava preuzimanje većih opterećenja i uvoz veće količine podataka kako pronađete nove načine za korišćenje vašeg data warehouse-a.

  • Migracija na moderni data warehouse

Srećom, moderni data warehouse-ovi su podjednako laki - ako ne i lakši - za migraciju kao i za korišćenje. Međutim, da biste izabrali pravo rešenje, moraćete uzeti u obzir svoje potrebe, ciljeve i procese, kao i izabrati odgovarajuće arhitekture i integracije.

Migracija na moderni data warehouse obično zahteva planiranje i pažljivu implementaciju kako bi se osiguralo da vaši podaci budu bezbedno preneti, a analitika i izveštavanje ostanu netaknuti. Ipak, moderni data warehouse-i i cloud infrastruktura nude mnoge prednosti i mogu biti dragoceni za organizacije koje žele maksimalno iskoristiti svoje podatke u brzom i skalabilnom okruženju.

Iako ne postoji univerzalno rešenje za sve, praćenje ovih koraka može vam pomoći da pronađete pravo rešenje za vašu organizaciju.

  • Definišite svoje ciljeve u vezi sa podacima

Šta želite postići sa vašim podacima? Ako već imate postojeće procese ili skladište podataka, koji su vaši problemi ili uska grla? Da li su neki od vaših podataka izolovani?

Ovo su samo neka od pitanja koja možete postaviti kada definišete svoje ciljeve u vezi sa podacima. Odgovaranjem na njih možete bolje razumeti svoje trenutno stanje podataka, što vam omogućava da identifikujete problematična područja ili neefikasnosti koje bi mogle imati koristi od modernog data warehouse-a.

  • Identifikujte poslovne potrebe

Ciljevi u vezi sa podacima iz prethodnog koraka verovatno su povezani sa nekom vrstom poslovne potrebe. Bilo da se radi o analizi finansijskih podataka ili pružanju mogućnosti mašinskog učenja za aplikaciju, Vaše rešenje za skladištenje podataka mora zadovoljiti vaše ciljeve u vezi sa podacima i ispunjavati zahteve vaših klijenata i zainteresovanih strana.

Napomena: Ovaj korak nije samo o IT-ju ili čak tehnologiji: Sve se svodi na poslovanje. Pokušajte da razumete šta pokušavate da izmerite, zašto je to važno za poslovanje i kako bi budući trendovi i digitalne transformacije mogli uticati na vaše uvide. Na taj način ćete bolje moći da prioritizirate poslovne potrebe i pružite rešenja za podatke koja ih ispunjavaju.

Upoznajte osnovne procese sa podacima.

Koji su vaši izvori podataka i kako planirate da (ili trenutno) koristite svoje podatke?

Ovo može biti jednostavno pitanje, ali odgovor će vam pomoći da identifikujete pravo rešenje za skladištenje podataka. Procesi sa podacima i poslovni procesi su ovde čvrsto povezani u smislu toga kako će vaši podaci o klijentima definisati vaše modele podataka i na kraju informisati vaše poslovne procese.

  • Procenite dostupnost

Ko i šta će imati pristup vašim podacima - i kako?

Iako moderni data warehouse-i nude dovoljno fleksibilnosti da se prilagode različitim izvorima i formatima podataka, takođe treba razmotriti koje konektore će vam biti potrebni, koji su dostupni metapodaci i koliko često ćete moći čitati podatke iz vaših izvora.

Kao i kod svega u IT-ju, takođe treba razmotriti upravljanje sigurnošću u vezi sa pristupom vašem data warehouse-u.

  • Izaberite pravu arhitekturu

Iako moderni data warehouse-i mogu koristiti različite arhitekture, možda ćete biti ograničeni na osnovu ostatka vašeg skupa podataka.

Većina skupova podataka sastoji se od data lake-a, data warehouse-a i data mart-a.

Svaki od ovih slojeva teče u sledeći kroz vaš data pipeline. Neobrađeni podaci teku iz data lake-a u data warehouse, gde se čiste, formatiraju i organizuju. Odatle, relevantni skupovi podataka isporučuju se poslovnim korisnicima i aplikacijama putem data mart-a.

Da biste jasno videli ovu topologiju u svojoj organizaciji, odličan način je da uspostavite arhitekture koje će vam biti potrebne u vašem data warehouse-u.

  • Koristite alate za integraciju podataka

Iako moderni data warehouse omogućava prikupljanje podataka iz širokog spektra različitih izvora, još uvek ćete morati da ih kombinujete na način koji pruža jedinstveni, ujedinjeni pregled za naprednu analitiku i upravljanje.

Ovaj proces poznat je kao integracija podataka, pri čemu je ELT (Extract, Load, Transform) najpoznatiji primer. Većina modernih data warehouse-a oslanja se na alate za integraciju podataka kako bi na kohezivan način centralizovali i čuvali podatke.

  • Ostati fleksibilan

Vaši ciljevi vezani za podatke i poslovne potrebe verovatno će se menjati tokom vremena. Tako će se menjati i izvori podataka, arhitekture i zahtevi za skladištenje podataka kao rezultat toga.

Ostanak u toku sa ovim promenama znači ostati fleksibilan u pristupu. Kada prelazite na moderni data warehouse, može vam pomoći da krenete sa manjim koracima kako biste testirali svaki novi pristup i strategiju.

Zaključak

Moderan data warehouse nije samo praktičan za velike količine podataka: on je neophodan. Srećom, nikada nije bilo lakše izgraditi i koristiti sopstveni data warehouse.