Letzter Test Flashcards

(69 cards)

1
Q

Was ist die Kernidee von Temporal Data?

A

Statt nur den aktuellen Zustand zu speichern, wird jede Version eines Datensatzes mit Zeitstempel gespeichert → Zeitreise durch die Daten wird möglich.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Nenne 4 typische Anwendungsfälle für temporale Daten.

A

Gehaltserhöhungen, Versicherungsänderungen, Preishistorie, Zinssätze

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Was bedeutet Application Time?

A

Der Zeitraum, in dem ein Fakt in der realen Welt gültig war/ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Was bedeutet Transaction Time?

A

Der Zeitraum, in dem ein Fakt in der Datenbank gespeichert war/ist.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Was sind Bitemporal Data?

A

Daten, bei denen sowohl Application Time als auch Transaction Time gleichzeitig getrackt werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Was ist ein Snapshot in temporalen Datenbanken?

A

Temporale Daten zu einem bestimmten Zeitpunkt — eine Momentaufnahme.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Was ist Interval Representation?

A

Jede Zeile hat explizit valid_from UND valid_to gespeichert.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Was ist Point Representation?

A

Nur valid_from wird gespeichert; valid_to ergibt sich implizit aus dem nächsten Tupel.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Welches Risiko hat die Interval Representation?

A

Temporale Überlappungen — zwei Zeilen mit gleicher ID könnten gleichzeitig gültig sein.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Wie wird unendliche Gültigkeit in Interval Representation dargestellt?

A

Mit einem künstlichen Maximalwert, z.B. 9999-12-31.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Was ist der Nachteil der Point Representation?

A

Abfragen zu bestimmten Zeitpunkten sind schwierig; Lücken und Enden sind schwer darstellbar.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Welche Spalte eignet sich als Teil des Primary Keys bei Interval Representation?

A

valid_from ODER valid_to (z.B. PRIMARY KEY (item_id, valid_to)).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Welche Integrity Checks sind bei temporalen Tabellen nötig?

A

Vermeidung von Überlappungen, Vermeidung ungewollter Lücken, Sicherstellung referentieller Integrität.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Was ist Coalescing (Temporale Normalisierung)?

A

Aufeinanderfolgende Zeilen mit gleichen Attributwerten werden zu einem einzigen Intervall zusammengefasst.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Was ist Attribut-Splitting bei temporalen Daten?

A

Verschiedene Attribute mit unterschiedlichen Änderungshistorien werden in separate Tabellen aufgeteilt.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Nenne 3 Nachteile temporaler Tabellen.

A

Kapazität (mehr Datenvolumen), Komplexität (aufwändigere Abfragen), Modellierung (schwer in ER-Modellen abzubilden).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Was ist eine System-Versioned Temporal Table?

A

Eine SQL-Server-Tabelle, bei der die Versionshistorie automatisch vom DBMS verwaltet wird — bestehend aus Temporal Table (aktuell) und History Table (vergangen).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Was ist der Unterschied zwischen System-Versioned Tables und Application Time?

A

Bei System-Versioned Tables setzt das DBMS die Zeitstempel automatisch (Transaction Time); bei Application Time verwaltet die Anwendung die Gültigkeitszeiträume manuell.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Wie erstellt man eine System-Versioned Temporal Table?

A

Mit SYSTEM_VERSIONING = ON, zwei DATETIME2-Spalten mit GENERATED ALWAYS AS ROW START/END und PERIOD FOR SYSTEM_TIME.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Was passiert bei einem INSERT in eine System-Versioned Table?

A

SystemStartTime = Transaktionszeitpunkt, SystemEndTime = 9999-12-31. In die History Table kann nicht direkt eingefügt werden.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Was passiert bei einem UPDATE einer System-Versioned Table?

A

Temporal Table: neue Werte + neuer SystemStartTime. History Table: alter Zustand wird mit SystemEndTime = jetzt eingetragen.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
22
Q

Was passiert bei einem DELETE einer System-Versioned Table?

A

Temporal Table: Zeile wird entfernt. History Table: letzter Zustand bleibt mit SystemEndTime = jetzt erhalten.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
23
Q

Was macht FOR SYSTEM_TIME AS OF?

A

Gibt den gültigen Datensatz zum angegebenen Zeitpunkt zurück (Punkt-Abfrage).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
24
Q

Was ist der Unterschied zwischen FOR SYSTEM_TIME FROM…TO und BETWEEN?

A

FROM…TO: start < t2 AND end > t1 (exklusiv t2). BETWEEN: inklusiv t2.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
25
Was macht FOR SYSTEM_TIME CONTAINED IN?
Gibt nur Versionen zurück, die vollständig innerhalb des angegebenen Intervalls liegen.
26
Was macht FOR SYSTEM_TIME ALL?
Gibt alle Datensätze zurück — Union aus Temporal Table und History Table.
27
Wie löscht man eine System-Versioned Temporal Table korrekt?
Zuerst SYSTEM_VERSIONING = OFF setzen, dann beide Tabellen separat droppen.
28
Was passiert, wenn man nur die Temporal Table droppt?
Die History Table bleibt erhalten.
29
Was sind die 4 Vs von Big Data?
Volume (Datenmenge), Velocity (Geschwindigkeit), Variety (Vielfalt), Veracity (Verlässlichkeit).
30
Nenne den Hauptzweck von Big Data vs. Business Intelligence.
Big Data: Muster erkennen, ML, Echtzeit-Analyse. BI: KPIs überwachen, strategische Entscheidungen unterstützen.
31
Welche Tools werden bei Big Data typischerweise eingesetzt?
Hadoop, Spark, NoSQL-Datenbanken (MongoDB), Cloud-Plattformen.
32
Welche Tools werden bei BI typischerweise eingesetzt?
Data Warehouse, OLAP Cubes, Power BI, SAP BusinessObjects.
33
Was ist Operational Data?
Rohe, unverarbeitete Daten aus dem Tagesbetrieb — echtzeit-aktuell, in Transaktionsdatenbanken gespeichert (ERP, CRM).
34
Was ist Dispositive Data?
Aggregierte, transformierte Daten für strategische Entscheidungen — periodisch aktualisiert, in Data Warehouses gespeichert.
35
Was ist OLTP?
Online Transaction Processing — operatives System für kurze Transaktionen, viele gleichzeitige Nutzer, normalisierte Daten, read/write.
36
Was ist OLAP?
Online Analytical Processing — strategisches System für lange Abfragen über große Datenmengen, wenige Nutzer, denormalisierte Daten, read only.
37
Nenne je 2 Beispiele für OLTP und OLAP-Systeme.
OLTP: Online Banking, Ticket Shop. OLAP: Risk Information System, Sales Forecast Application.
38
Wie hängen OLTP und Data Warehouse zusammen?
Operative Daten aus OLTP-Systemen werden per ETL-Prozess in das Data Warehouse übertragen, von wo aus OLAP-Analysen und BI-Tools arbeiten.
39
Was ist ein Data Warehouse?
Eine dedizierte Datenbank, in der alle entscheidungsrelevanten Unternehmensdaten konsolidiert gesammelt werden — Basis für OLAP.
40
Nenne die 6 Schichten der DWH-Referenzarchitektur von unten nach oben.
Data Sources → Staging Area (ETL) → Core DWH → Data Marts → DWH Management → Presentation Layer.
41
Was passiert in der Staging Area?
Rohdaten aus verschiedenen Quellen landen hier zuerst und werden per ETL bereinigt, validiert und transformiert.
42
Was ist der Core DWH?
Das zentrale Repository — die Single Source of Truth mit standardisierten, bereinigten Daten.
43
Was ist ein Data Mart?
Eine themenspezifische Teilmenge des DWH für einen Fachbereich (z.B. Sales, Finance), meist denormalisiert.
44
Was enthält das DWH Management?
ETL-Prozesssteuerung, Wartung von Data Marts, Datensicherheit, Zugriffskontrolle und Metadaten.
45
Was sind Metadaten im DWH-Kontext?
Daten über die Daten im DWH: Herkunft, Transformationsregeln, Granularität, Datenqualität, Datenmodell.
46
Was sind die 3 Schritte des ETL-Prozesses?
Extract (Daten aus Quellen holen), Transform (in einheitliche Struktur überführen), Load (in DWH schreiben).
47
Was ist der Unterschied zwischen Push und Pull beim Extract?
Push: Quellsystem liefert Daten aktiv. Pull: DWH startet den Datenabruf selbst.
48
Was ist ein Star Schema?
Eine zentrale Faktentabelle direkt umgeben von denormalisierten Dimensionstabellen (2NF). Einfache, schnelle Abfragen.
49
Was ist ein Snowflake Schema?
Dimensionstabellen sind weiter normalisiert (3NF) — reduziert Redundanz, aber Abfragen werden komplexer und langsamer.
50
Was ist ein Galaxy Schema?
Mehrere Faktentabellen teilen sich gemeinsame Dimensionstabellen — ein Netz aus Star Schemas. Reduziert Redundanz, erhöht Komplexität.
51
Was ist der Unterschied zwischen Faktentabelle und Dimensionstabelle?
Faktentabelle: enthält messbare Werte (z.B. Umsatz, Menge). Dimensionstabelle: enthält Kontextinformationen (wer, was, wo, wann).
52
Star vs. Snowflake: Was ist schneller bei Abfragen?
Star Schema — weniger Joins nötig, da Dimensionen denormalisiert sind.
53
Was bedeutet hohe Granularität im DWH?
Feingranulare Daten (z.B. jede einzelne Transaktion) → mehr Daten, flexibler, aber langsamere Abfragen.
54
Was ist ein Data Cube?
Fakten werden entlang mehrerer Dimensionen gruppiert und als mehrdimensionaler Würfel dargestellt.
55
Was macht die OLAP-Operation Roll-Up?
Aggregation auf eine höhere Ebene, z.B. von Tagen zu Monaten (zooming out).
56
Was macht die OLAP-Operation Drill-Down?
Detailliertere Ansicht, z.B. von Monaten zu Tagen (zooming in).
57
Was ist Slicing?
Erstellung eines Subsets des Data Cube entlang eines einzigen Wertes einer Dimension.
58
Was ist Dicing?
Erstellung eines Subsets entlang mehrerer Werte in einer oder mehreren Dimensionen.
59
Was ist Pivoting?
Rotation des Data Cube zur Darstellung aus einer anderen Perspektive.
60
Was passiert im DWH, wenn ein neues Dimensionsattribut hinzukommt?
Eine neue Spalte wird in der Dimensionstabelle ergänzt.
61
Was passiert im DWH, wenn ein Fakt in einem neuen Kontext hinzukommt?
Eine zusätzliche Faktentabelle wird erstellt.
62
Was sind Surrogate Keys im DWH?
Im DWH intern generierte, eindeutige numerische Schlüssel — unabhängig von den Schlüsseln der Quellsysteme.
63
Warum sollte man Surrogate Keys verwenden?
Quellsysteme können Keys wiederverwenden oder bei Integration überlappen — Surrogate Keys verhindern Konflikte.
64
Was sind Slowly Changing Dimensions (SCD)?
Dimensionen, die sich im Laufe der Zeit ändern (z.B. Mitarbeiter wechselt Abteilung). Behandlung: overwrite, new row oder new column.
65
Was bedeutet SCD Typ overwrite?
Der alte Wert wird überschrieben — kein Verlauf bleibt erhalten.
66
Was bedeutet SCD Typ new row?
Bei jeder Änderung wird eine neue Zeile angelegt — vollständiger historischer Verlauf.
67
Was bedeutet SCD Typ new column?
Der alte und neue Wert werden in verschiedenen Spalten derselben Zeile gespeichert — begrenzter Verlauf.
68
Warum sollte man Timestamps im DWH in UTC speichern?
Um Verwirrung durch Zeitzonen zu vermeiden — Konvertierung in lokale Zeit erst bei Analyse/Anzeige.
69
Was sind Conformed Dimensions?
Einheitliche Dimensionstabellen, die über mehrere Data Marts hinweg konsistent verwendet werden — verhindert inkonsistente Berichte.