Welche Dimensionen gibt es, um die Qualität von Daten zu messen?
Für das Data Cleaning, über welche Typen an Fehlern sollte man Bescheid wissen?
Wie kann man mit fehlenden Daten umgehen?
Was ist Data Integration?
Data integration combines data from
multiple sources into a coherent store
Mit welcher Methode kann man redundante Attribute erkennen?
chi-square test (nominal)
correlation analysis
Was sind die Vorteile von Data Integration?
Beschreib den Chi-Square Test mathematisch
Was bedeutet ein hohes Chi-Quadrat?
→ data distributions are statistically different
Was bedeutet ein niedriges Chi-Quadrat?
distributions are similar
Wie funktioniert ChiMerge?
Man hat Intervalle und checkt rekursiv, ob die Verteilung der Label in den beiden ähnlich ist anhand des Chi-Quadrat tests und mergt diese, falls dies stimmt
Beschreib den Pearson’s product
moment coefficient mathematisch
Pearson’s product moment coefficient
Was bedeutet es, wenn r > 0?
A and B are positively correlated
Pearson’s product moment coefficient
Was bedeutet es, wenn r = 0?
uncorrelated, not necessarily independent
Pearson’s product moment coefficient
Was bedeutet es, wenn r < 0?
negatively correlated
Wie berechent man die Kovarianz?
Was bedeutet eine Kovarianz von größer als null?
A and B tend to be together
larger or together smaller than their expected values
Was bedeutet eine Kovarianz von kleiner als null?
if A is larger than its expected
value, B is likely to be smaller than its expected value.
Wie kann die Kovarianz vereinfacht werden?
Wie berechnet man element ij einer Kovarianzmatrix?
it computes the covariance between feature i and feature j
Welche Strategien für das Binning existieren?
Welche Smoothing Strategien im Anschluss des Binnings existieren?
Welche zwei Wege zur Dimensionsreduzierung existieren?
Was minimiert deskriptive Dimensionsreuzierung?
den Informationsverlust