2TX BS-Data Warehousing en Datamining

Uit Diana's examenwiki

Data Warehousing

Algemeen

G. Barrezeele

Zij heeft de theorie gegeven uit haar boek.
Er was ook een project dat in groepjes gemaakt moest worden, het uitwerken van een Data Warehouse op basis van aangeleverde brondata. We moesten dus zelf managementsvragen opstellen, ETL doen etc. en daarna moest het gepresenteerd worden.

Het examen bestaat uit een schriftelijk en een mondeling deel: schriftelijk is puur theorie, mondeling was een oefening (sterschema maken).
PE staat op 4 punten, waar dat dus het project voor zorgt. Het examen staat op /8 punten en wordt samengeteld met datamining staat ook op /8+

Juni 2014

donderdag 5 juni: voormiddag - data mining

  1. netica - you get a netica diagram, select the corresponding chance table of one of the nodes
  2. k-nearest neighbours - you get some training data and the distances to a record, determine the target value
  3. naive bayes - which output can you get with naive bayes - one with RMSE or confusion matrix, or both?
  4. you get a netica diagram - select the option that isn't correct... it was either an explanation of naive bayes or smth else that wasn't correct in my question
  5. you get some output of logistic regression - calculate manually the target value of a new record
  6. you get output of association rules - select 1 of 4 that isn't correct.
  7. something about partitioning - what is it
  8. some output of multiple linear regressions - which model can you use without changing it - the one which doesn't have outliers, correlating variables and no p-value above 0.05
  9. hierarchical clustering, you get the data for a specific step, which clusters will be combined in the next step
  10. k-means clustering, you get a drawing with the situation in a specific iteration, what will happen in the next iteration
  11. you get a confusion matrix, what will happen if you lower the cutoff, select the correct answer
  12. you get a lift chart - select the correct answer, what do the 2 lines/graphs represent?
  13. naive bayes, you get some numbers / chances, select the right formula/calculation to calculate the chance that x... like in the example during class with the green and red cars
  14. you get output of different models, made with multiple-linear regression I think, select the one that has the highest predictive value
  15. you get output of different classification models, select the model which will get you the highest profit when sending out promotional packages...

dinsdag 3 juni: voormiddag - data warehousing

Ik had blauw.

Vraag 1: Paper

  • Wat is Big Data, wat kan je er mee doen, wat zijn de knelpunten enz...

Vraag 2

  1. modelleren van een DWH - geef feit, metingen enzovoort...
  2. attributenboom en sterschema

Vraag 3

  • Life cycle Kimball, omschrijf, beschrijf kort de verschillende delen

Vraag 4

  • Opslagmethodes van data die specifiek zijn voor DWH, geef er 3 en bespreek ze kort
  Ik had hier redundantie, 'partitionering en parallelisatie' en tenslotte indexen

Vraag 5: terminologie

  • DWH vs BI, geef verschillen, gelijkenissen, visies

Vraag 6: terminologie

  • Wat is click stream analysis

Juni 2013

donderdag 13 juni: voormiddag

Vraag 1 Beschrijving van een case

  1. Geef de feiten-dimensies-meetwaarden
  2. teken de attributenboom
  3. teken het sterschema


Vraag 2

  1. Definitie van 1992 van wie?
  2. Geef die definitie(en leg de elementen kort uit)
  3. Waarom is deze definitie niet volledig
  4. Bredere definitie geven

Vraag 3

  1. Wat is ETL? Geef de 4 stappen van het proces en leg uit? Waarvoor dient het?

Vraag 4: Terminologie

  1. Geef 3 fouten data audit en geef een voorbeeld
  2. Wat is datamining, waarvoor dient het, geef een voorbeeld
  3. Wat is datamart? waarvoor wordt het gebruikt?

Juni 2011

Reeks 1 (9/06/11 8u30, F. Sanen)

  1. Het examen is mondeling met schriftelijke voorbereiding. De PE staat op 4.

Vraag 1

  1. Definitie van 1992 van wie?
  2. wat zijn de 5 fouten van huidige management informatie
  3. Welke fouten worden door definitie opgelost
  4. Definitie zelf geven en uitleg (kort)

Vraag 2

  1. Geef 3 fouten data audit en geef een voorbeeld /3

Vraag 3. Leg kort uit: /2

  1. SSRS
  2. Business corporation performance
  3. Integrale load
  4. Dashboard
  5. bus architecture

Vraag 4

  1. Verklaar dimensional modeling a h v voorbeeld /2

Vraag 5

  1. Geef 3 basisconcepten ETL (geeft er 1, vul er 2 aan) /1

Vraag 6

  1. Oefening op sterschema en attribuutboom /4

Reeks 1 (9/06/11 13u00, F. Sanen)

  1. Het examen is mondeling met schriftelijke voorbereiding. De PE staat op 4.

Vraag 1

  1. Definitie van 1992 van wie?
  2. Definitie zelf geven en uitleg (kort)
  3. Waarom was deze definitie niet goed genoeg?
  4. Geef de betere definitie

Vraag 2

  1. Geef 3 fouten data audit en geef een voorbeeld /3

Vraag 3. Leg kort uit: /2

  1. SSRS
  2. Data Mart
  3. Click-Stream Analysis
  4. Delta load
  5. bus architecture

Vraag 4

  1. Verklaar dimensional modeling a h v voorbeeld /2

Vraag 5

  1. Geef 3 basisconcepten ETL (geeft er 1, vul er 2 aan) /1

Vraag 6

  1. Oefening op sterschema en attribuutboom /4

Juni 2010

Reeks 1A (31/05/10 8u30, K. Milis)

  1. Mondeling: Wat zijn de verschillende vormen van ondervraging van een DWH? Geef bij elke soort een voorbeeld aan de hand van gebruik binnen een ziekenhuis.
  2. Schriftelijk. Wat is transformatie? Welke vormen bestaan er? Leg uit aan de hand van gebruik bij een kruidenier, detailhandel. Waarom gebruiken we transformatie?
  3. Schriftelijk: Leg uit: hoe ziet Belgacom de evolutie van BI (business intelligence) en informatica? (Nalv een presentatie van Belgacom in één van de lessen.)
  4. Mondeling: a) Je krijgt een schema van een operationele databank van een bedrijf. Je wilt onderzoek doen naar welke klanten hun orders te laat betaald hebben. Teken het sterschema. b) Stel dat je een hiërarchie wenst te gebruiken in je onderneming en ook met afdelingshoofden wilt werken. Hoe zou je dan te werk gaan?

Reeks 1B (31/05/10 13u, K. Milis)

  1. Gegeven de 4 kenmerken van een DWH uit de definitie (subject-oriented, integrated, time-variant, non-volatile), verklaar elk en geef een voorbeeld uit de automobielsector. Als we dit nu hebben, wat is dan het doel van een DWH? (mondeling)
  2. Eén van de keuzes die gemaakt moet worden, is hoeveel tijd er zit tussen het doorvoeren van aanpassingen in het bronsysteem naar het doelsysteem. Er zijn hiervoor verschillende mogelijkheden, geef, leg uit en vertel wanneer welke gebruikt wordt. (schriftelijk)
  3. Belgacom vergelijk zijn evolutie van het DWH met de stadia in het menselijk leven. Leg uit: de stadia Teenager en Adult. (schriftelijk)
  4. Gegeven een hoop tabellen, we willen shipping oriented vragen oplossen. Teken een sterschema. (mondeling)
  5. Als een aantal van onze werknemers ook klanten zijn bij ons, hoe lossen we dat op in een DWH? (mondeling)
  6. Vragen over het project (mondeling)

Data Mining

Algemeen

R. Roels

Juni 2010

Het examen bestaat uit 15 meerkeuzevragen zonder giscorrectie en je mag gebruik maken van alle slides, opgaves + je eigen oplossingen van deze opgaves

Reeks 1 (11/06/11 8u30, R. Roels)

Het examen bevatte veel screenshots ( vooral van XL miner outputs en bayesiaanse netwerken ) Een aantal vragen waarbij de incorrecte stelling moet aangeduid worden en de overige vragen waarbij het correcte antwoord moet aangeduid worden.

Vraag 1 : Situatieschets waarbij hij zegt dat er een classificatiemodel(1) gebruikt wordt voor analyse en een prediction model(2) om iets te voorspellen

  • Hoe kan men zien of deze modellen goed werken:
    • RMS error voor beide
    • RMS error voor (1) en confusion matrix voor (2)
    • omgedraaid

Vraag 2 : Vraag over kansen / odds ( gemakkelijk: getallen invullen in de formule )

  • Wat is de kans dat de persoon met gegevens X en Y volgens dit model bij de succes klasse behoord.

Vraag 3 : Vraag over k-Nearest Neighbours:

  • Adhv een XLminer output tabel van KNN : Met k=3 , wat is de waarde van de target variabele

Vraag 4 : Nettowinst berekenen

  • Gegeven: Een XLminer output van een Logistic regression (?) Wat is de nettowinst als men 5 personen kiest volgens DIT MODEL

Vraag 5 : Lift charts

  • Welke van de gegeven lift charts hoort bij dit model ?

Vraag 6 : Clustering

  • Gegeven : Een afbeelding met punten die gegroepeerd zijn ( 3 clusters totaal )
  • Vraag: Wat is de volgende stap als men de afstand berekend volgens complete linkage ? (= Welke clusters worden gegroepeerd ? )

Vraag 7 : Normaliseren

  • Wat is normaliseren ? Duidt de incorrecte stelling aan
    • Aantal definities / redenen / formules

Vraag 8 : Spamfilter

  • Gegeven : Uitleg + woordfrequentie uitput van spam en niet-spam mails + alles draait rond het woord 'offer'
  • Welke voorstelling van een Bayesiaans Netwerk in Netica hoort niet bij deze spamfilter ?
    • Spamfilters in netica met 2 nodes ( spam en offer )
    • verschillende situaties ( spam aanwezig / offer aanwezig ) waarbij de kansen steeds veranderen

Vraag 9 : Spamfilter

  • Gegeven : Een screenshot van een spamfilter in Netica met ~ 7 nodes
  • Vraag: Welke afleiding is niet correct over deze spamfilter ?
    • een antwoord dat het aantal kansen van 1 node berekent
    • een antwoord dat volgens de aangevinkte toestanden van de nodes een afleiding maakt
    • een tweede afleiding

Vraag 10 : Partitionering

  • Waarom wordt gesplitst in Training en Validatie data : Duidt de foute stelling aan