fcSovelto
Tietovarastointikoulutus
Mitä asiantuntija tarvitseetulevaisuudessa?
Tapani Lahti
Sovelto Oyj
fcSovelto
DW-koulutuksen kaksi osa-aluetta
Tietovarastoinnissa käytettävien tekniikoidenhallinta
Tietovarastoinnissa käytettävien laitteistojen jaohjelmistojen hallinta
2
fcSovelto
3
Tietovaraston suunnittelu ja toteutus
Tietovarastojen toteutuksessa on monia erikoulukuntia, joiden näkemykset oikeaoppisestatietovarastosta eroavat toisistaan
Dimensiomalli vs. normalisointi
Top-down vs. bottom-up
Tietovaraston tietomallista riippumatta analysointiperustuu pääosin dimensiomallin mukaiseennäkymään dataan
fcSovelto
4
Datan lataus (ETL-prosessi)
Extract
Transform
Load
Suurten datamäärien käsittelyssä ETL-työkalullaratkaisevan tärkeä rooli
Eri tietolähteistä tulevan datan rakenteenyhtenäistäminen vaatii paljon käsityötä
Schemamuutosten hallinta
fcSovelto
ETL-työkalut, esimerkki (SSIS)
5
fcSovelto
6
Datan ylläpito ja laadunvarmistus
Tietovarastoon tuleva data on yleensähuonolaatuista
Suurin osa ajasta tietovaraston ylläpidossa kuluudata siivoamiseen ja yhtenäistämiseen
Tietovarastoon tulevaa dataa voi yhtenäistää joalkulähteillä
Ydintiedon hallinta (Master Data Management)
Datan laadunvarmistukseen voidaan käyttääprofilointityökaluja
fcSovelto
Datan profilointi, esimerkki
7
fcSovelto
8
Tietovaraston suorituskyvyn optimointi
Tietovarastossa on tyypillisesti yksityiskohtaistadataa pitkältä aikaväliltä
Datavolyymit kasvavat huomattavan suuriksi,suurimmat nykyään jo petatavujen luokassa
Tallennustilan kapasiteetti ja suorituskyky vaativatsuunnittelua
Tietokannat alkavat eriytyä teknisesti: operatiivisetvs. analyysitietokannat
Pilvipalvelujen mahdollisuudet ja uhkat (UnitedSpies of America)
fcSovelto
Suorituskyvyn seuranta, esimerkki
9
fcSovelto
10
Datan analysointi (OLAP)
Datan analysoinnin perusmalli on hyperkuutio,jossa on joukko ortogonaalisia dimensioita
Dimensiot tyypillisesti hierarkkisia
OLAP-työkalut mahdollistavat datan monipuolisenanalysoinnin "kysy-mitä-vain"-periaatteella
OLAP-työkalut optimoivat toimintaansa käyttäjänvalintojen perusteella
OLAP ei ole kuitenkaan massojen työkalu vaanedistyneiden analyytikoiden apuväline (alle 10%käyttäjistä)
fcSovelto
OLAP-esimerkki (Excel PowerPivot)
11
fcSovelto
12
Raportointi
90% käyttäjistä tyytyy raportteihin
Raportti on ennaltamääritelty näkymä hyperkuutiondataan
Raportoinnissa on haasteena löytää optimaalinentaso: oikea tieto oikeaan aikaan oikealle henkilölle
Numeerisen datan rinnalla tarjolla runsaasti 2d-,3d- ja 4d-visualisoinnin mahdollisuuksia
Paperiraportit vs. interaktiiviset selainraportit
fcSovelto
13
Tiedon louhinta
Tiedon louhinta (Data Mining) tarjoaa tilastollisiatekniikoita tietovaraston datan analysointiin
Rutiinikäytössä suurissa yrityksissä, läpimurtoalaajamittaiseen käyttöön PK-yrityksissä ei oletapahtunut
Vaatii syvällistä matemaattisten ja tilastollistenmenetelmien hallintaa
fcSovelto
Tietokantatekniikat kehittyvät
Relaatiokannat ja SQL (1980-luvulta)
NoSQL (2010-luku)
SQL-rajapinta on tullut ja tulossa yhä useampiinNoSQL-tuotteisiin, tarjoaa yhteydet työkalujenvälille
NewSQL (2010-luku): relaatiotietokantoja uudellatekniikalla
14
fcSovelto
Must know
Relaatiomalli
Dimensiomalli
SQL-kieli
Käytettävien tuotteiden ominaisuudet
15
fcSovelto
Should know
DW-koulukuntien erot
OLAP perusteet
ETL perusteet
Raportointi perusteet
Master Data Management perusteet
Virtualisointi ja pilvipalvelut
16
fcSovelto
Sovelto DW-koulutustarjontaa
TEORIAA JA TEKNIIKOITA
Tietovaraston suunnittelu ja laadunvalvonta (3pv)
SQL-kielen peruskurssi (2pv)
SQL-kielen jatkokurssi (2pv)
TUOTEKOHTAISIA (MS SQL Server)
SQL Server Analysis Services (3pv)
SQL Server Reporting Services (3pv)
SQL Server Integration Services (2pv)
10777: Implementing a Data Warehouse withMicrosoft SQL Server 2012 (4pv)
17