VI - DATA SCIENCE FOR SECURITY Flashcards

Question 1

Q

VI.1 Beschreiben Sie den CRISP-DM

Answer

A

= Cross-Industry Standard Process for Data Mining, Prozess besteht aus 6 Phasen:

Business Understanding: Geschäftsproblem gründlich verstehen und die Ziele sowie Anforderungen des Projekts aus einer geschäftlichen Perspektive zu definieren.
Data Understanding: Datensammlung und Aktivitäten, um mit den Daten vertraut zu werden, ihre Qualität zu bewerten und erste Einsichten zu gewinnen.
Data Preparation: Daten werden gereinigt und formatiert, um sie für die Analyse vorzubereiten. Dies kann das Selektieren von Tabellen, das Bereinigen von Daten, das Erstellen von neuen Datenfeldern und das Formatieren der Daten umfassen.
Modeling: Modellierungstechniken werden angewendet und kalibriert, um die besten Vorhersagen oder Einsichten basierend auf den Daten zu erzielen.
Evaluation: Die Modelle werden evaluiert, um sicherzustellen, dass sie die Geschäftsziele effektiv erfüllen. Diese Phase beinhaltet die Überprüfung der Ergebnisse, um festzustellen, ob das Modell wie beabsichtigt funktioniert und die Geschäftsziele erfüllt.
Deployment: Implementierung des Data-Mining-Modells in die Betriebsabläufe. Dies kann die Erstellung von Berichten, die Generierung von Listen zur operativen Nutzung oder die Implementierung eines wiederholbaren Daten-Mining-Prozesses sein.

Question 2

Q

VI.2 Welche Skalenniveaus gibt es? Welche Tests sind für nominalskalierte Daten zulässig? Nennen Sie Beispiele für intervallskalierte Daten? Was ist bei ordinalskalierten Daten unzulässig?

Answer

A

Nominal, Ordinal, Intervall, Rational

Nominal: kategorisch, =/≠, z.B. Namen, Gender, …

Ordinal: kategorisch, =/≠ und <>, z.B. Schulnoten

Intervall: numerisch, =/≠, <> und +/-, z.B. Temperatur, Jahreszahlen
Rational: numerisch, =/≠, <> und +/- und x/:, z.B. Gehalt

Tests für nominalskalierte Daten: Modus (Modalwert) – z.B. „Welcher Name kommt am häufigsten vor?“

Für ordinalskalierte Daten wäre z.B. das arithmetische Mittel unzulässig.
Beispiel Restaurantbewertung: 30 Kunden vergeben 1 Stern, 2 Kunden 5 Sterne.
Das AM wäre 1,81 und damit „zu gut“, weil der numerische Wert von 5 mehr Einfluss hätte.

/// ChatGPT
1. Einführung: Was sind Skalenniveaus?

Skalenniveaus beschreiben, welche Aussagen und Berechnungen mit Daten zulässig sind. Man unterscheidet vier Haupttypen:
Nominal, Ordinal, Intervall und Rational (auch Verhältnisskala genannt).
Je höher das Skalenniveau, desto mehr mathematische Operationen sind erlaubt.

⸻

Nominalskala
• Definition: Kategorische Daten ohne natürliche Reihenfolge. Man kann nur sagen, ob etwas gleich oder ungleich ist (=/≠).
• Beispiele: Geschlecht, Haarfarbe, Nationalität, Namen.
• Erlaubte Auswertungen:
• Häufigkeiten
• Modus (Modalwert): Der häufigste Wert.
• Zulässige Tests:
• Chi-Quadrat-Test: Zum Vergleich von Häufigkeiten zwischen Gruppen.
• Fisher’s exakter Test (bei kleinen Stichproben).
• Beispiel: „Welcher Vorname kommt in einer Klasse am häufigsten vor?“

⸻

Ordinalskala
• Definition: Kategorische Daten mit Rangfolge, aber ohne fest definierten Abstand zwischen den Werten.
• Operatoren: =/≠ und < / >
• Beispiele:
• Schulnoten (z. B. 1 = sehr gut, 5 = mangelhaft)
• Zufriedenheitsratings (z. B. sehr unzufrieden bis sehr zufrieden)
• Zulässige Auswertungen:
• Median
• Rangordnungen
• Tests:
• Mann-Whitney-U-Test
• Wilcoxon-Test
• Spearman-Rangkorrelation
• Unzulässig:
• Arithmetisches Mittel (Durchschnitt), weil Abstände zwischen den Werten nicht gleich sind.
• Beispiel: Wenn 30 Kunden 1 Stern und 2 Kunden 5 Sterne geben, ist der Durchschnitt 1,81 – dieser spiegelt aber nicht korrekt wider, dass die meisten Kunden sehr unzufrieden waren.

⸻

Intervallskala
• Definition: Numerische Skala mit gleichen Abständen, aber ohne echten Nullpunkt.
• Operatoren: =/≠, <>, +/−
• Beispiele:
• Temperatur in Celsius oder Fahrenheit (0 °C ist nicht “kein Temperatur”)
• Jahreszahlen (z. B. 2000 ist nicht “doppelt so viel” wie 1000)
• Erlaubt:
• Arithmetisches Mittel, Standardabweichung, Korrelation (Pearson), lineare Regression
• Unzulässig:
• Aussagen wie “doppelt so viel”, da kein absoluter Nullpunkt

⸻

Verhältnisskala (Rationalskala)
• Definition: Wie Intervallskala, aber mit echtem Nullpunkt, daher sind Verhältnisse sinnvoll interpretierbar.
• Operatoren: =/≠, <>, +/−, × / :
• Beispiele:
• Körpergröße, Gewicht, Alter, Einkommen
• Erlaubt:
• Alle mathematischen Operationen: Mittelwert, Varianz, Verhältnisse, etc.
• Interpretation wie „Person A verdient doppelt so viel wie Person B“

Für nominale Daten → Häufigkeit und Modus → Chi-Quadrat-Test
• Für ordinale Daten → Median, Rangtests, kein Durchschnitt!
• Für intervallskalierte Daten → Arithmetisches Mittel möglich, aber keine Verhältnis-Aussagen
• Für rationalskalierte Daten → Alle Operationen möglich

⸻

Optional: Prüfungs-Tipp (nicht sagen, nur merken)

Wenn du eine Variable siehst, frag dich:
• Gibt es eine Reihenfolge? → Dann mindestens ordinal
• Sind die Abstände gleich? → Dann mindestens intervall
• Gibt es einen absoluten Nullpunkt? → Dann rational

Question 3

Q

VI.3 Was ist der Unterschied zwischen qualitativen und quantitativen Daten? Nennen Sie Beispiele! Was ist der Unterschied zwischen stetigen und diskreten Daten?

Answer

A

Quantitativ = numerisch (Alter, Anzahl Personen),

qualitativ = nicht numerisch (Meinungen, Farben, Kategorien);

stetig = können im Intervall jeden Wert annehmen (8,33; 21,4443, …),

diskret = können nur einzelne abzählbare Werte annehmen (Anzahl Kinder)

/// ChatGPT
1. Einführung: Unterschied zwischen qualitativen und quantitativen Daten
• Quantitative Daten sind numerisch. Sie messen oder zählen etwas und können sinnvoll mathematisch verarbeitet werden.
• Beispiele: Alter (z. B. 25 Jahre), Anzahl der Personen (z. B. 4 Personen), Einkommen, Körpergröße.
• Qualitative Daten sind nicht numerisch. Sie beschreiben Kategorien, Eigenschaften oder Meinungen.
• Beispiele: Lieblingsfarbe (blau, rot), Geschlecht (männlich, weiblich), Meinungen („zufrieden“, „unzufrieden“), Nationalität.

Unterschied zwischen stetigen und diskreten Daten (nur bei quantitativen Daten relevant)
• Stetige Daten (kontinuierlich):
Können jeden Wert innerhalb eines Intervalls annehmen, auch gebrochene oder Dezimalzahlen.
• Beispiele: Körpergröße (1,75 m), Temperatur (21,3 °C), Zeitdauer (3,456 Sekunden).
• Diskrete Daten:
Können nur abzählbare, ganze Werte annehmen, oft Zählzahlen. Zwischen zwei Werten gibt es keine Zwischenwerte.
• Beispiele: Anzahl der Kinder (0, 1, 2, 3…), Anzahl Autos, Anzahl Stimmen.

⸻

Warum ist die Unterscheidung wichtig?
• Je nachdem ob Daten qualitativ/quantitativ oder stetig/diskret sind, sind unterschiedliche Analysemethoden zulässig.
• Stetige Daten ermöglichen oft präzisere Messungen und komplexere statistische Verfahren.
• Diskrete Daten sind oft zählbar und nutzen andere statistische Methoden (z. B. Poisson-Verteilung).

Question 4

Q

VI.4 Welche Methode gibt es zur Erhebung von Daten? Was ist ein Merkmal? Was ist ein Label? Was eine Instanz?

Answer

A

Datenerhebung: Fragebögen, Interviews, Experimente, Beobachtungen, Data Mining, strukturierte Daten aus unstrukturierten gewinnen, aus ERP/CRM Systemen exportieren, aus analogen Signalen digitale Samples erzeugen.

Merkmal: Eigenschaft oder Charakteristik, die anhand von Daten messbar ist und zur Beschreibung eines Datensatzes oder einer Datenmenge verwendet wird. Merkmale sind einzelne Aspekte oder Variablen, die in einer Datensammlung erfasst werden, um Einheiten wie Personen, Objekte oder Ereignisse zu beschreiben.
Numerische Merkmale repräsentieren quantitative Daten, die messbare Größen darstellen, wie Alter, Gewicht oder Temperatur.
Kategoriale Merkmale stellen qualitative Daten dar und beschreiben Kategorien oder Gruppen, wie Geschlecht, Nationalität oder Berufsbezeichnung.

Label: Zielvariable, die das Ergebnis oder die Antwort darstellt, welche ein Modell vorhersagen soll. Labels sind ein wesentlicher Bestandteil des überwachten Lernens, bei dem Modelle darauf trainiert werden, aus vorhandenen Datenbeispielen zu lernen.
Beim überwachten Lernen werden Datensätze mit bekannten Labels verwendet, um einem Modell beizubringen, wie es Eingabedaten (Features) zu diesen Labels in Beziehung setzt. Das Ziel ist, dass das Modell die Struktur dieser Beziehung erfasst und auf neue, unbekannte Daten anwenden kann.
Bei einer E-Mail-Sortieranwendung könnte jedes E-Mail-Beispiel entweder das Label „Spam“ oder „Kein Spam“ haben. In einer medizinischen Diagnoseanwendung könnten die Labels die Namen verschiedener Krankheiten sein.

Instanz: Einzelne, unabhängige Beobachtung oder ein Datenobjekt in einem Datensatz. Jede Instanz wird durch einen Satz von Merkmalen (Features) repräsentiert, die bestimmte Eigenschaften oder Aspekte dieser Beobachtung beschreiben.
In einem medizinischen Datensatz könnte eine Instanz die medizinischen Aufzeichnungen eines Patienten sein, einschließlich Merkmale wie Alter, Gewicht, Blutdruck und Diagnose.
In einem Finanzdatensatz könnte jede Instanz eine einzelne Transaktion darstellen, mit Details wie Transaktionsbetrag, Datum, Typ und Kontostand.

Question 5

Q

VI.5 Weshalb müssen Daten vorverarbeitet werden? Nennen Sie Kriterien für Datenqualität. Was gehört zu den wichtigsten Aufgaben der Datenvor-verarbeitung? Was ist ein Exot? Wie können Ausreißer behandelt werden? Für welchen Zweck wird die Normalisierung benötigt?

Answer

A

Oft sind die für die Analyse relevanten Daten nicht in einem einzelnen Datensatz aus einer einzigen Datenquelle in einem einzigen IT-System enthalten, sondern verteilt über verschiedene Datensätze, Datenquellen und IT-Systeme. Um Daten aus verschiedenen Systemen zu kombinieren, müssen Merkmalsvektoren aus verschiedenen Datensätzen einander zugeordnet werden. Solche Zuordnungen basieren auf Schlüsseln wie Codes, die Personen oder Objekte identifizieren, (relative) Zeitstempel oder (relative) Standortinformationen.

Der sogenannte ETL-Prozess umfasst die Schritte
- Extraktion – die Daten aus verschiedenen Quellen,
- Transformation – Bereinigen/Aufbereiten der Daten, und
- Laden der Daten – in den endgültigen Behälter/die Datenbank. Dieser Prozess wird von zahlreichen spezialisierten Softwaretools unterstützt.

Kriterien für Datenqualität: Correctness, Completeness, Consistency, Accuracy, Relevance, Uniqueness, Timeliness, Uniformity

Aufgaben der Datenvorverarbeitung: Data Integration
Bei der Integration werden Merkmalsvektoren mit demselben Schlüssel gesucht und zusammengeführt. Dabei muss berücksichtigt werden, dass die Schlüssel möglicherweise nur annähernd gleich sind.
Zum Beispiel können zwei Zeitstempel 10:59 und 11:00 als äquivalent betrachtet werden. Werden keine Merkmalsvektoren für einen Schlüssel in allen Datensätzen gefunden, führt dies zu fehlenden Einträgen im integrierten Datensatz. Solche unvollständigen Merkmalsvektoren werden oft entfernt.
Werden mehrere Merkmalsvektoren für einen Schlüssel in einem Datensatz gefunden, können im integrierten Datensatz mehrere Einträge für einen Marker erstellt werden.
Solche mehrfachen Merkmalsvektoren werden oft verknüpft, um einen einzigen Merkmalsvektor zu bilden, beispielsweise als Mittelwert von mehrdeutigen Merkmalswerten.

Behandlung von Exoten (Outliers): Ersetzen des Ausreißers durch den maximalen oder minimalen Wert, Ersetzen durch den globalen Mittelwert, Ersetzen durch nächstgelegene Nachbarn, Lineare Interpolation für Zeitreihen mit äquidistanten Zeitschritten, Lineare Interpolation für Zeitreihen mit nicht äquidistanten Zeitschritten, Filterung, Entfernung

Normalisierung: Bei der Datenbehandlung wird Normalisierung verwendet, um sicherzustellen, dass alle Daten in einem vergleichbaren Bereich liegen.
➔ Vergleichbarkeit: Daten können in verschiedenen Maßeinheiten vorliegen oder auf verschiedenen Skalen gemessen werden. Durch die Normalisierung können sie auf eine gemeinsame Skala gebracht werden, was den Vergleich und die Interpretation der Daten erleichtert.
➔ Vermeidung von Verzerrungen: Wenn einige Merkmale oder Variablen einen viel größeren Wertebereich haben als andere, können sie die Analyse verzerrt beeinflussen. Die Normalisierung gleicht die Einflüsse aus und hilft, Verzerrungen zu vermeiden.
➔ Algorithmenleistung: Viele Machine-Learning-Algorithmen und statistische Methoden arbeiten besser, wenn die Daten normalisiert sind. Durch die Normalisierung wird die Konvergenzgeschwindigkeit von Optimierungsalgorithmen verbessert und die Leistung von Modellen insgesamt kann erhöht werden.
➔ Stabilität: Normalisierte Daten sind oft stabiler gegenüber Änderungen in den Eingabewerten. Kleine Änderungen in den rohen Daten führen zu proportionalen Änderungen in den normalisierten Daten, was die Stabilität der Analyse verbessert.

Insgesamt trägt die Normalisierung dazu bei, die Konsistenz, Interpretierbarkeit und Leistung von Datenanalysen und Modellen zu verbessern.

/// ChatGPT

• Correctness: Sind die Daten sachlich korrekt?
• Completeness: Fehlen Daten?
• Consistency: Sind Daten widerspruchsfrei?
• Accuracy: Wie genau sind sie?
• Relevance: Sind sie relevant für die Analyse?
• Uniqueness: Gibt es Duplikate?
• Timeliness: Sind sie aktuell?
• Uniformity: Gleiche Maßeinheiten & Formate?

Beispielformulierung für mündliche Antwort

„Ich beantworte die Frage in 5 Teilen – zuerst den Grund für Datenvorverarbeitung, dann die Aufgaben, die Qualitätskriterien, den Umgang mit Ausreißern und schließlich die Rolle der Normalisierung.“
1. Datenvorverarbeitung ist notwendig, weil Daten oft über mehrere Quellen und Systeme verteilt sind. Man muss sie also erst kombinieren – das passiert im ETL-Prozess: Daten werden extrahiert, transformiert und geladen.
2. Zu den wichtigsten Aufgaben gehört die Datenintegration, z. B. über Zeitstempel oder Codes. Dabei muss man auf fehlende oder doppelte Werte reagieren – etwa durch Löschen oder Mittelwertbildung.
3. Gute Datenqualität erkennt man an acht Kriterien: Correctness, Completeness, Consistency, Accuracy, Relevance, Uniqueness, Timeliness und Uniformity.
4. Ein Exot oder Ausreißer ist ein ungewöhnlicher Wert. Solche Werte kann man z. B. ersetzen, interpolieren oder herausfiltern.
5. Die Normalisierung sorgt dafür, dass Daten vergleichbar sind, keine Verzerrung entsteht, und dass Algorithmen stabiler und effizienter arbeiten

Question 6

Q

VI.6 Beschreiben Sie einen Entscheidungsbaum!
Was ist der Bias<–>Variance Trade-off bei Entscheidungsbäumen? Was unterscheidet einen Entscheidungsbaum vom Random Forest?

Answer

A

Bias<–>Variance Trade-off: Wichtiges Konzept im maschinellen Lernen, das die Balance zwischen Bias und Varianz bei der Modellbildung beschreibt.

Bias bezieht sich auf die Fehler, die entstehen, wenn ein Modell zu einfache Annahmen über die zugrunde liegenden Daten trifft. Ein Modell mit hohem Bias tendiert dazu, starre Annahmen zu. Beispiel = lineare Regression, die versucht, nicht-lineare Beziehungen zwischen Variablen zu modellieren.
Varianz beschreibt die Sensitivität eines Modells gegenüber kleinen Schwankungen in den Trainingsdaten. Ein Modell mit hoher Varianz passt sich den Trainingsdaten zu stark an und erfasst auch die zufälligen Störungen oder Rauschen in den Daten. Dies kann zu Überanpassung führen. Beispiel = hochkomplexes neuronales Netzwerk mit vielen versteckten Schichten, das leicht dazu neigt, sich den Trainingsdaten anzupassen, aber möglicherweise nicht gut generalisiert.

Das Bias-Variance-Dilemma entsteht aus dem Ziel, ein Gleichgewicht zwischen Bias und Varianz zu finden, um ein Modell zu entwickeln, das sowohl die Trainingsdaten angemessen modelliert als auch auf neuen Daten gut generalisiert.
Die Herausforderung besteht darin, ein Modell zu finden, das das richtige Maß an Komplexität hat, um sowohl das Bias als auch die Varianz zu minimieren und somit die bestmögliche Generalisierungsfähigkeit zu erreichen.

Entscheidungsbaum und Random Forest: Der Hauptunterschied darin besteht, dass ein Entscheidungsbaum ein einzelnes Modell ist, während ein Random Forest aus einer Sammlung von Entscheidungsbäumen besteht, die unabhängig voneinander trainiert werden und dann ihre Vorhersagen kombinieren, um robustere und leistungsstärkere Vorhersagen zu treffen.

Question 7

Q

VI.7 Wie funktionieren neuronale Netze und was ist Deep Learning?

Answer

A

Neuronale Netze: Modelle in der Informatik, die darauf abzielen, bestimmte Aspekte des menschlichen Gehirns nachzubilden, um Aufgaben wie Mustererkennung, Entscheidungsfindung und Sprachverarbeitung durchzuführen.
Das neuronale Netz besteht aus drei Schichten: Eingabe, Verarbeitung, Ausgabe und ist mit Knoten (Neuronen) verbunden.
Neuronale Netze werden beim sogenannten maschinellen Lernen eingesetzt und eignen sich besonders für jene Aufgaben, die zu komplex für ein eindeutiges Regelwerk sind, bei denen aber viele Trainingsdaten zur Verfügung stehen.
Zu Beginn des Trainings stehen alle Schwellenwerte und Gewichte auf Zufallswerten. Während des Trainings passt ein Algorithmus schrittweise Schwellenwerte und Gewichte an die Daten an, mit denen das Netz trainiert wird, siehe auch Optimierung. Das Training wird beendet, wenn das Netz für alle Beispiele aus den Trainingsdaten eine möglichst korrekte Ausgabe erzeugt.

Deep Learning: Bestimmte Methode des maschinellen Lernens, bei der Zwischenschritte (sogenannte „hidden layers“) zwischen Eingabe- und Ausgabeschicht platziert werden. Dadurch bildet sich umfangreiche innere Struktur, weshalb das Modell auch „tiefes neuronales Netz“ genannt wird.
Deep Learning erfordert umfangreiches Training mit großen Datenmengen und hoher Rechenleistung. Backpropagation ist der Schlüsselmechanismus, durch den ein neuronales Netz lernt. Dabei wird der Fehler aus der Ausgabe des Netzes berechnet und dann rückwärts durch das Netzwerk geführt, um die Gewichte zu aktualisieren.
Deep Learning hat eine breite Palette von Anwendungen, darunter:

Autonomes Fahren: Hier erkennen und interpretieren neuronale Netze sensorische Daten, um Entscheidungen in Echtzeit zu treffen.
Gesundheitswesen: Von der Analyse medizinischer Bilder bis zur Vorhersage von Krankheitsverläufen
Persönliche Assistenten: Verbesserung der natürlichen Sprachverarbeitung für Assistenten wie Siri, Alexa und andere
Empfehlungssysteme: Verbesserung der Personalisierung und Effizienz von Empfehlungen in E-Commerce und Streaming-Diensten

Question 8

Q

VI.8 Was passiert beim Clustering? Nennen Sie Anwendungsbereiche in dem Clustering verwendet wird.

Answer

A

Clustering von Daten ist ein Verfahren des unüberwachten Lernens in der Datenanalyse, bei dem eine Gruppe von Objekten so in Untergruppen (Cluster) eingeteilt wird, dass Objekte innerhalb eines Clusters einander ähnlicher sind als Objekte in verschiedenen Clustern. Dies geschieht in der Regel durch die Definition eines Ähnlichkeitsmaßes und die Anwendung eines Clustering-Algorithmus.

Prozess des Clusterings
Auswahl der Merkmale: Bestimmung der relevanten Merkmale (Variablen), die zur Beschreibung der Datenobjekte herangezogen werden.

Vorbereitung der Daten: Dazu gehören die Bereinigung der Daten, die Normalisierung der Merkmale und die Eliminierung von Stoppwörtern oder irrelevanten Daten.

Wahl des Ähnlichkeitsmaßes: Festlegung, wie die Ähnlichkeit zwischen den Objekten gemessen wird, z.B. durch euklidische Distanz, Kosinusähnlichkeit oder Jaccard-Index.

Auswahl des Clustering-Algorithmus: Einsatz von Algorithmen wie k-Means, hierarchisches Clustering, DBSCAN oder spektrales Clustering.

Ausführung des Algorithmus: Der Algorithmus ordnet die Daten basierend auf dem Ähnlichkeitsmaß in Cluster ein.

Analyse der Cluster: Bewertung und Interpretation der gebildeten Cluster, um Einsichten zu gewinnen oder Entscheidungen zu treffen.

Anwendungsbereiche
Kunden-Segmentierung: Identifikation von Kundenclustern in Marketing und Vertrieb zur gezielten Ansprache und Angebotsgestaltung.

Bilderkennung: Clustering von Bildern nach Ähnlichkeiten, zum Beispiel zur Gruppierung von Fotos nach ähnlichen Szenen oder Motiven.
Soziale Netzwerkanalyse: Erkennung von Gemeinschaften oder Gruppen in sozialen Netzwerken auf Basis von Interaktionen oder gemeinsamen Interessen.

Anomalieerkennung: Identifikation von Ausreißern oder ungewöhnlichen Datenpunkten, die nicht zu vorherrschenden Clustern gehören, oft relevant in der Überwachung von Netzwerksicherheit oder Betrugserkennung.

Question 9

Q

VI.9 Erklären Sie die ROC-Kurve und ihre Anwendung

Answer

A

= Streudiagramm der wahren Positivrate (TPR) und der falschen Positivrate (FPR).
Die Qualität eines bestimmten Klassifikators mit bestimmten Parameterwerten in einem bestimmten Datensatz kann als Punkt im ROC-Diagramm dargestellt werden. Eine ROC-Kurve entsteht durch Variieren der Parameter.
Die ROC-Kurve stellt die TPR (True Positive Rate) gegen die FPR (False Positive Rate) dar, während der Schwellenwert des Klassifikators von 0 bis 1 variiert.
Anwendungsbereiche

Modellvergleich: ROC-Kurven werden verwendet, um mehrere Klassifikationsmodelle zu vergleichen. Modelle mit Kurven, die näher an der oberen linken Ecke liegen, oder die eine größere AUC haben, werden als überlegen betrachtet.

Auswahl von Schwellenwerten: Sie helfen bei der Auswahl eines geeigneten Schwellenwertes für die Klassifizierung, um ein optimales Gleichgewicht zwischen Sensitivität und Spezifität zu erreichen, basierend auf den Anforderungen der spezifischen Anwendung.

Bewertung der Klassifikationsleistung: Insbesondere in medizinischen, finanziellen und sozialen Anwendungen, wo die Kosten für falsch positive und falsch negative Entscheidungen stark variieren können, bietet die ROC-Kurve wertvolle Einblicke in die Leistungsfähigkeit eines Modells.

Question 10

Q

VI.10 Wie unterscheiden sich Regression und Klassifikation voneinander? Was passiert bei der Klassifikation, was bei der Regression? Was ist der KNN? Was passiert bei der linearen Regression?

Answer

A

Beide sind überwachte Lernmethoden im Bereich des maschinellen Lernens, die sich jedoch in der Art der Vorhersage, die sie machen, unterscheiden.

Regression
- Ziel: Vorhersage einer kontinuierlichen oder quantitativen Ausgabe. Ein Regressionsmodell kann verwendet werden, um den Preis eines Hauses basierend auf verschiedenen Merkmalen wie Größe, Lage und Anzahl der Zimmer vorherzusagen.

Ausgabe: Numerischer Wert, der Größe oder Grad einer bestimmten Eigenschaft darstellt
Bei der Regression lernt das Modell, die Beziehung zwischen den Eingabefeatures und einem kontinuierlichen Ausgabewert zu modellieren. Dies erfolgt durch Minimierung der Abweichungen zwischen den vorhergesagten und den tatsächlichen Werten in den Trainingsdaten, typischerweise durch Minimierung einer Kostenfunktion wie der mittleren quadratischen Fehler.

Klassifikation
- Ziel: Vorhersage einer kategorischen Ausgabe. Ein Klassifikationsmodell könnte zum Beispiel genutzt werden, um zu bestimmen, ob eine E-Mail Spam ist oder nicht (zwei Klassen) oder welche Art von Tier auf einem Bild abgebildet ist (mehrere Klassen).

Ausgabe: Eine Klasse oder Kategorie aus einem vordefinierten Set von Klassen
Bei der Klassifikation wird das Modell auf einem Datensatz trainiert, der Beispiele mit Eingabefeatures und bekannten Klassenlabels enthält. Das Modell lernt, Muster in den Daten zu erkennen, die es nutzen kann, um die Klasse neuer Beispiele vorherzusagen.

KNN
KNN (K-nächste Nachbarn) ist ein einfaches, aber mächtiges maschinelles Lernverfahren, das sowohl für Klassifikation als auch für Regression verwendet werden kann. Es macht Vorhersagen für neue Datenpunkte, indem es die K (eine vordefinierte Zahl) nächstgelegenen Punkte im Trainingsdatensatz betrachtet.

Klassifikation mit KNN: Das Modell wählt die am häufigsten vorkommende Klasse unter den K nächstgelegenen Nachbarn als Vorhersage für den neuen Punkt.
Regression mit KNN: Das Modell berechnet den Durchschnitt oder Median der Zielwerte der K nächstgelegenen Nachbarn, um den Wert für den neuen Punkt vorherzusagen.

Lineare Regression
Die lineare Regression ist eine Methode zur Modellierung der Beziehung zwischen einer skalaren abhängigen Variablen 푦 und einer oder mehreren unabhängigen Variablen 푋.
Der Ansatz besteht darin, eine lineare Gleichung zu finden, die die folgende Form hat:
푦 = 훽0 + 훽1푋1 + 훽2푋2 + … + 훽푛푋푛 + 휖
β0, β1, … sind die zu schätzenden Koeffizienten, ϵ ist der Fehlerterm.
Das Ziel der linearen Regression ist es, die Koeffizienten 훽 so zu wählen, dass der quadratische Fehler zwischen den durch das Modell vorhergesagten Werten und den tatsächlichen Datenwerten minimiert wird. Dies geschieht häufig mithilfe der Methode der kleinsten Quadrate.

VI​ - DATA SCIENCE FOR SECURITY Flashcards

(10 cards)

VI - DATA SCIENCE FOR SECURITY Flashcards