Fehler
Python
Feature Importance
Data Science
Begriffe
100

Was ist Richtigkeit? (In Datenqualität)

Fehler der Datenerhebung kennen

100

Was ist Sklearn?

Sklearn ist eine Standard-Python-Bibliothek für Machine learning, die mit einer großen Auswahl an ML-Modellen und Methoden für Training, Optimierung und Evaluation arbeitet.

100

Was kann durch das hinterfragen einer "Feature Importance" erreicht werden?

Vereinfachung eines Modells
■ besseres Verstehen was ein Modell macht
■ bessere Laufzeit-Performance
■ mehr Training (effizienter)
■ Konzentration auf wichtige Variablen

100

Was ist eine "Data Pipeline"?

Als Data Pipeline wird der automatische Transfer von Daten aus einer Quelle in ein Ziel betitelt.

100

Was ist die Kovarianz?

Die Kovarianz gibt Auskunft über den Zusammenhang von zwei metrischen Variablen. Dabei ist es wichtig, zu beachten, dass die Kovarianz ein nichtstandardisiertes Zusammenhangsmaß darstellt und damit nur begrenzt vergleichbar ist.

200

Wie gehen wir mit fehlenden Werten um?

● Data Inputation
auffüllen mit Werten die Sinn ergeben z. B. Mittelwerte, Beobachtungen aus anderen

● Entfernen der betroffenen Datenpunkte
●Ändern der Fragestellung um unabhängig von fehlenden Werten zu sein

200

Was ist Pandas?


Pandas ist eine Python-Bibliothek, welche smarte Datenauswahl, -transformation, kombination und cleaning bietet. Die Hauptelemente sind Series und DataFrames

200

Was ist die "Feature Permutation"?

Bei der Feature Permutation wird durch neu Verteilung der Datenpunkte einer Spalte in einem Datenset der Einfluss auf das gesamt Ergebniss Überprüft. So kann die Feature Importance für diese Variable festgellt werden.

200

Was ist der "Gradient Descent"?

Das Gradientenabstiegsverfahren ist ein Verfahren, um bei einer Funktion das Minimum oder das Maximum zu finden. Wir benötigen diesen Iterativen Algorithmus zum Optimieren in "Machine Learning".

200

Was ist der Korrelationskoeffizient?

Die Korrelationskoeffizienten entspricht der Kovarianz, bei der die Variablen vorher Standardisiert wurden. Das heißt der Korrelationskoeffizienten gibt einen standartisierten (und damit vergleichbaren) Wert über den Zusammenhang von zwei metrischen Variablen.

300

Was ist typische Datenfehler ?


 ?

● Irrelevante Daten
○ Beispiel: Auswertung von Deutsche
● Außreißer
○ Einzelfallbetrachtung
○z. B. Alter 1200 Jahre bei einer Person
● Dubletten
○ Kombination verschiedener Quellen
○ Mehrfacherfassung, ....
● Datentyp Konversionen
● Typos
● Kategorische Variabeln
○ z. B. Female, fem., F, f

300

Was sind die 4 Haupteigenschaften von Python?


objektorientiert, dynamisch getypt, interpretiert, höhere Programmiersprache

300

Was sind Vorteile des "Feature Drop"?

● Genauester Algorithmus
● hohe Laufzeit

300

Was ist so gut an einem "Random Forrest" Modell ?

Es ist ein robuster Algorithmus!
D.h. ->
○ Sowohl Klassifikation als auch Regressionen
○ Robust gegen Overfitting
○ Robust gegen Normierung der Features

300

Was ist die Receiver operating characteristic (ROC-Kurve)?

Die ROC Kurve ist eine Art von illustriertem Plot, der die diagnostische Fähigkeit des Klassifikators bei Variation der Unterscheidungsschwelle anzeigt. In dem Graphen werden die "True positive rate" und die "false positive rate" miteinander auf "X" und "Y Achse" verglichen.

400

Was ist ein ɑ-Fehler? 

Was ist ein β-Fehler?


Ein ɑ-Fehler ist, wenn ...

Eigentlicher Wert : Richtig
Geschätzter Wert : Falsch 



Ein β-Fehler ist, wenn ...

Eigentlicher Wert : Falsch
Geschätzter Wert : Richtig

400

Was ist der Unterschied zwischen einem, Compiler und einem Interpreter?

Der Compiler compiled den Source Code zu Object Code, welcher vom executor zu Output übersetzt wird. Der Interpreter übersetzt Source Code direkt in Output.

400

Was sind Vorteile der "Feature Permutation"?

● vertretbare Laufzeit
● Anwendbar auf alle Algorithmen
● Überschätzen korrelierter Features

400

Was ist "CRISP DM" ?

"Cross-industry standard process for data mining"

Der klassische Prozess der Daten Untersuchung:
- Business Understanding
- Data Understanding
- Data Preparation
- Modeling
- Evaluation
- Deployment

400

Was ist Cross Validation?

Testen und trainieren auf vielen verschiedenen Stichproben des selben Datensatzes. Streuung der Schätzungen geben Hinweis über Genauigkeit des gewählten Maßes.

500

Nenne vier Indizien, bei denen wir überlegen sollten das Feature aus dem Modell zu entfernen.

- keine Varianz -> keine Information

- hohe Korrelation -> mehrfach selbe Information

- geringe Feature Importance
-> keine Aussagekraft für Zielvariable

- schlechte Datenqualität
-> zusätzliche Unsicherheit für das Modell

500

Wie lautet das "Gesetz der großen Zahlen" ?

Je öfter wir ein Zufallsexperiment wiederholen desto wahrscheinlicher nähert sich, für stochastische Prozesse, die beobachtete der erwarteten Verteilung an. 


500

Was ist die "Feature Drop" Methode?

Beim Feature Drop werden einzelne Features (Spalten eines Datensets) gelöscht und ein neues Model, mit weniger Spalten, trainiert. Danach kann das Ergebnis des Modells mit dem Vanilla Model verglichen werden. So kann die Feature Importance für dieses Feature festgellt werden.

500

Was ist der "Gini-Index"? 

Was ist der "Gini - Gain"? 

Was ist die "Gini - Impurity"

Stellt die Ungleichverteilung in einem Datensatz da.
(0.5 steht für eine Gleichverteilung) 


Beschreibt den Informationsgewinn.

Formel
Gini(vor) - Gini(nach) = Gini(gain) 


Wahrscheinlichkeit für zufälliges ziehen und klassifizieren. Vergleicht zufällige Auswahl mit der Gesamtverteilung.

Formel :
p(Apfel) (1 - p(Apfel)) + p(Banane) (1 - p(Banane))

500

Was ist eine "Confusion Matrix" ?

Eine "Confusion Matrix" sammelt die ɑ-Fehler, β-Fehler und die Treffer ("True, negative" und "True, positive") in einer 2 x 2 Matrix.