Lagemaße
Arithmetischer MW
Median

getrimmter Mittelwert

Streumaße
Varianz
Die Varianz gibt den mittleren Abstand der Messwerte vom Mittelwert an, ist also ein Maß für die Breite der Verteilung der Daten. Da sie auf den MW bezogen (zentriert) ist , ist sie von der Lage der Verteilung unabhängig, und heißt daher auch zweites zentrales Moment.

Streumaße
Standardfehler des Mittelwertes,
SEM (standard error of the mean)
Bei einer Normalverteilung der Daten kann man an Hand der SD abschätzen, wie viele Daten innerhalb einer bestimmten Streubreite enthalten sind. So kann man bspw. davon ausgehen, dass bei einer Streubreite von 2SD in diesem Bereich 95% aller Daten enthalten sind, man also fast alle Daten erfasst. Bei anderen Verteilungen sieht es natürlich anders aus und muss im konkreten Fall untersucht werden.
Ein wichtiges Maß ist der Standardfehler des MW, der SEM (Siehe Konfidenzintervall). Diese Beziehung ergibt sich aus dem Fakt, dass bei der arithmetischen Mittelung von stochastischen Daten die Varianz des Mittels um den Faktor n reduziert wird, wobei n die Anzahl der gemittelten Daten angibt.
Manchmal wird in Studien oder Publikationen gerade der SEM angegeben, was im Grunde nicht falsch ist. Allerdings kann man oft unterstellen, dass dem statistisch nicht kundigen Leser eine viel höhere Genauigkeit vorgetäuscht werden soll, als sie tatsächlich war und zumindest mit der gleichzeitigen Angabe der SD auch dokumentiert werden müsste. Bspw. wird bei 100 Versuchen der SEM 10mal geringer ausfallen als die SD. Das kann im Zweifelsfall zu falsch begründeten Entscheidungen führen, z.B. beim Kauf eines bestimmten Medizingerätes aus einem größeren Angebot von Produkten.

Streumaße
Das p-Quantil gibt an, bis zum welchen Wert von x (von links, von niedrigeren Werten her gesehen) der Anteil p von allen Daten liegt. Damit ist das Quantil zwar ein Streumaß, gleichzeitig aber auch eine Information über die Lage der empirischen Verteilung (siehe Box-Whisker-Plot). Quantile sind an sich Rangparameter, da sie Information über die Anteile (Häufung) der Daten liefern und nicht über die Ausprägung der Merkmale selbst.

Streumaße
Variationskoeffizient
Der Variationskoeffizient kann in der Datenerfassung durch Messung als Genauigkeit interpretiert werden. Allerdings muss man bei der Interpretation der Ergebnisse unterscheiden, wodurch die Streuung entstanden ist. D.h. welchen Anteil der Messfehler und welchen die natürlich vorhandene Variabilität einnimmt. Im Normalfall wird gefordert, dass die Messgenauigkeit um mindestens eine Größenordnung höher liegt, als die natürliche Schwankung der Messdaten. Vor allem aber in der Medizin ist diese Forderung oft nicht erfüllbar.
Die Standardabweichung einer Stichprobe wird durch den jeweiligen Mittelwert dividiert. Der Korrelationskoeffizient drückt daher das relative Verhältnis der Streuung zum Mittelwert aus. Der Variationskoeffizient besitzt keine Einheit.

Darstellung – „Box und Whiskers“
Der Boxplot ist eine sehr anschauliche Darstellung der Daten mit wenigen Parametern, die die Verteilung der Daten repräsentiert. Aus den beiden Stichproben lassen sich die wichtigsten Eigenschaften ermitteln. Währen die linke Verteilung symmetrisch ist (Gaussdaten), zeigt die rechte Spalte eine deutliche Unsymmetrie. Das untere Quartil ist vom Median deutlich weniger entfernt als das obere Quartil, was auf eine Häufung der Daten im unteren Teil hindeutet. Der Einschnitt (notch) beim Median zeigt den Bereich des Medians an, in dem der Median mit 95%-Sicherheit tatsächlich liegt (sog. Konfidenzintervall, siehe Analytische Statistik). Man kann auf diese Weise mit einem Blick erkennen, ob die beiden Mediane voneinander signifikant unterschiedlich sind. Wenn sich nämlich die Einschnitte nicht überdecken, so kann man von unterschiedlichen Medianen ausgehen. In dieser Darstellung wäre die Entscheidung allerdings grenzwertig.


Diese Grafik soll veranschaulichen, wie effektiv die Darstellung an Hand des Boxplots ist. Während man für die empirische Verteilung (unten) u.U. sehr viele Parameter braucht (hier 100 Klassen), so reichen für den Boxplot fünf Parameter, die Quartile. Allerdings gibt der Boxplot keine Auskunft über den Modus und den Mittelwert.
IQ:Interquartile = Q3-Q1
Formmaße
Schiefe
Rechtsschiefe Verteilungen sind typisch für Medizin und Biologie.

Formmaße
Exzeß


In der Statistik werden diese Funktionen vollständig als Wahrscheinlichkeitsverteilungsfunktion bzw. Wahrscheinlichkeitsdichtefunktion bezeichnet. Da es hier später gleichermaßen um Häufigkeiten wie auch Wahrscheinlichkeiten gehen wird, werden die Bezeichnungen Verteilung und Verteilungsdichte verwendet.
Für kontinuierliche Verteilungen gilt, dass die Verteilungsdichte sich aus der ersten Ableitung der Verteilung nach der Zufallsvariablen ergibt. Bei diskreten ZV werden die entsprechenden diskreten Zuwächse herangezogen.
Der zentrale Grenzwertsatz

Hypergeometrische Verteilung
超几何分布是统计学上一种离散概率分布。它描述了从有限N个物件(其中包含M个指定种类的物件)中抽出n个物件,成功抽出该指定种类的物件的次数(不放回)。

Poisson-Verteilung
Poisson-Verteilung ist typisch für diskrete Zufallsvariable mit geringer WS des Auftretens. Für sehr hohe n setzt man für die beiden Parameter n und p in der Binomialverteilung durch deren Produkt lambda = n*p ein, so erhält man die Poisson-V.

Lineare Regression von y auf x

Bivariate Datenbeschreibung

Die Regression kann grundsätzlich zwischen jedem Paar von Variablen angewandt werden, so auch auf den Zeitverlauf. Zeitliche Verläufe sind allerdings Gegenstand von Zeitreihenanalysen bzw. Analyse der stochastischen Prozesse. Daher wird im weiteren auf dieses Thema verzichtet, siehe BSV2.
Die Geburtenzahlen in NRW seit 1990 sind als Zusammenhang zwischen männlichen und weiblichen Neugeborenen dargestellt, also ohne einen Zeitbezug. Man kann auf den ersten Blick erkennen, dass der Zusammenhang sehr stark ist, also wenig Schwankungen zwischen den Geburtenzahlen auftreten.
Bivariate Datenbeschreibung

Natürlich sind auch Zufallsvariable voneinander nichtlinear abhängig, so wie exakt ermittelbare physikalische und technische Größen. Die Schwierigkeit besteht in der Bestimmung des Grades der Nichlinearität, die umso größer wird, je höher die Streuung der Daten. In diesem Beispiel wäre auch eine andere gerade Nichtlinearität denkbar, z.B. die vierte Ordnung, oder der Cosinus. Ich habe die zweite Ordnung für das Fitting gewählt, weil ich natürlich wußte, wie ich die Daten generiert habe. Die Wahl der Fittingfunktion ist nicht trivial, da sie in der weiteren Analyse auf die Modellierung von System- und/oder Signalparametern Einfluß haben kann.
Bivariate Datenbeschreibung
Korrelationskoeffizient nach Pearson

Der KK nach Pearson gibt AUSSCHLIESSLICH über den linearen Zusammenhang Auskunft. Das heißt, dass jedes Wertepaar mit dem selben Faktor und einer gewissen Streuung beschreibbar ist. Jeder weitere Zusammenhang ist theoretisch nicht nachweisebar. Praktisch jedoch hängt Vieles von den konreten Daten ab, wie später gezeigt wird. Selbst bei hoch nichtlinearen Zusammenhängen können nachweisbare KK heraus kommen, die theoretisch nicht vorhanden sind. Man kann diesen Fakt in etwa so interpretieren, dass der KK nach Pearson einen Zusammenhang umso deutlicher zeigt, je näher er an die lineare Abhängigkeit heran kommt.
Ein wesentlicher Nachteil des Pearson-KK ist, dass er exakt nur ausgewertet werden kann, wenn die untersuchten ZG normalverteilt sind. Und das ist in der praktischen Analyse sehr selten der Fall bzw. man kann über die Verteilung keine Aussage treffen.
Für die praktische Analyse gelten ganz grob die aufgeführten Faustregeln.
Bivariate Datenbeschreibung
Rang-Korrelationskoeffizient nach Spearman

Wie wir schon beim Median, Quantilen und getrimmeten Mittelwerten beobachten konnten, bringen Rangfolgen eine gewisse Robustheit in die Analyse. Und obwohl – oder gerade weil - sie selbst nichtlineare Operatoren sind, können sie einen nichtlinearen Zusammenhang besser identifizieren. Ausserdem sind sie robust gegen die Forderung nach der Normalverteilung der Daten.
Interpretation der Korrelation
Korrelationsanalyse - Fehlinterpretationen


Schätzverfahren

In diesem Beispiel handelt es sich offensichtlich um eine Binomialverteilung, da die ZG nur zwei Werte annehmen kann (0 – nicht erfolgreich, 1 – erfolgreich). Die theoretische Erfolgswahrscheinlichkeit ist aber nicht bekannt, sonst müssten wir die klinische Studie nicht durchführen. Sie ist auch nicht genau berechenbar, denn dazu bräuchten wir sehr viele Einzelversuche (n > 10e6), die unter identischen Voraussetzungen durchzuführen wären. Und das ist praktisch nicht realisierbar. Daher werden wir versuchen, den Erfolg an Hand einer Stichprobe (SP) aus der Grundgesamtheit (GG) zu schätzen. Damit die SP die gesuchten Parameter gut abbildet, muss sie repräsentativ sein. Praktisch heißt das, aller für die Studie relevanten Merkmale müssen in der SP anteilig so vertreten sein, wie in der GG. Und dies ist eines der größten Probleme bei der praktischen analytischen Statistik. Wenn man genau wüsste, wie die einzelnen Merkmale in der GG verteilt sind, müsste man sie nicht untersuchen. Der Ausweg besteht darin, dass man die SP nach Möglichkeit sehr groß wählt in der Hoffnung, dass die Merkmale damit rein statistisch der Originalverteilung der GG entsprechen. Aus der SP werden nach bestimmten Schätzverfahren die gesuchten Parameter der GG geschätzt. Bsp.: In einer Studie zu Blutdruck senkenden Mitteln dürfte man nicht Patienten einschließen, deren BD am oberen Ende des möglichen Bereiches liegt. Da bei diesen physiologisch ohnehin nur noch eine Absenkung möglich ist, würden sie fälschlicherweise einen Therapieerfolg demonstrieren.
Schätzverfahren

Die Verwendung der Schreibweise ist die gleiche, wie in der deskriptiven Statistik: mit kleinen Buchstaben werden konkrete (gemessene, ermittelte) Werte, mit großen Buchstaben die statistischen Größen (Variable, Maße).

Schätzverfahren

