Zapis podatkov v podatkovno jezero (Data Lake)

Zapis podatkov v podatkovno jezero (Data Lake)

V sodelovanju s podjetjem Gen-i d.o.o smo vzpostavili spletno platformo Alya, ki nudi sodobne rešitve na področju množičnega zajema podatkov v obliki časovnih serij, izvajanja alarmiranja, prikazu podatkov in možnosti analitike. Obseg podatkov se dnevno povečuje in bo v bližnji prihodnosti dosegel tudi do 2,5 milijard meritev dnevno.

Pri tej količini podatkov, lahko govorimo o velepodatkih (angl. Big Data), saj jih ne moremo učinkovito hraniti in analizirati s klasičnimi metodami (npr. SQL). Kot smo opisali že v eni izmed prejšnjih objav, se za analitiko uporablja orodje Apache Spark, medtem ko za hranjenje podatkov uporabljamo podatkovna jezera (angl. Data Lake). Podatkovna jezera so namenjena centralnemu skladiščenju tako strukturiranih, kot nestrukturiranih podatkov. Prednosti podatkovnega jezera pred klasičnimi metodami hranjenja so:

  • Hranjenje podatkov v surovi obliki – ni potrebe po modeliranju podatkov pri samem vnosu.
  • Skalabilnost – brez težav lahko povečamo kapacitete za relativno majhne stroške.
  • Versatilnost – hranjenje podatkov v različnih strukturah in različnih podatkovnih formatih.
  • Fleksibilnost sheme – pri klasičnih metodah je potrebno sheme definirati pred samim vnosom podatkov in je kasnejše spreminjanje lahko problematično. Pri podatkovnih jezerih lahko sheme definiramo po vnosu podatkov in lahko na istih podatkih izdelamo več shem.
  • Podpora več programskim jezikom – klasične metode so omejene zgolj na SQL programski jezik, medtem ko pri podatkovnih jezerih obstajajo jeziki, ki temeljijo na SQL (npr. Hive), kot tudi jeziki, ki omogočajo drugačen način analitike podatkov (npr. PIG ali Spark).

Za podatkovno jezero se uporablja storitev, na platformi Microsoft Azure, Azure Storage. Microsoft Azure je storitvena platforma, ki omogoča razvoj naslednje generacije aplikacij (t.i. računalništvo v oblaku – angl. Cloud Computing). Na tej platformi se nahaja celoten sistem Alye, kar omogoča enostavno integracijo podatkovnega jezera v celoten proces.Prijava na e-novice