Business Intelligence III

Fach Fach

Klasse 11

Autor Wimmer96

Veröffentlicht am 06.11.2018

Schlagwörter

Business Intelligence

Zusammenfassung

Das Thema des Business intelligence (BI) erfährt vor allem in der derzeitigen Zeit einen regelrechten Hype unter den Unternehmen. Diese Referate sollen einen allgemeinen Überblick über diese Themen geben.

Methods

Classification
• Lernen von alten Daten, klassifizieren von neuen
• Output Variable ist kategorisch (nominal oder ordinal)
Classification versus clustering
Objekte sind von einem oder mehrerer Merkmale charakterisiert.

Beurteilungsmethoden für Klassifizierung:
• Vorhersagen Genauigkeit (Hit-Rate
• Schnelligkeit (Modellbau; Vorhersage)
• Robustheit
• Skalierbarkeit
• Interpretierbarkeit (Transparenz, leicht zu verstehen)
Bei der Klassifizierung ist die meistgenutzte Genauigkeitsschätzung die ‚Confusion Matrix‘

Estimation Methodologies
Simple split (oder holdout- oder test sample Schätzung)
• Splitted die Daten in ein Trainingssatz (ca. 70%) und einen Testsatz.
• Für ANN, werden die Daten in 3 Sätze geteilt: Training (60%), Prüfung (20%) und Test (20%) Nachteile:
Bei Problemen bei denen wir einen mageren Datensatz haben ist es eventuell nicht möglich ein Teil des Datensatzes nur zum Testen zu verschwenden’.
Da es ein einziges Test und Trainingsexperiment ist kann die Fehlerrate irreführend sein, wenn wir einen ‚unglücklichen‘ Split vornehmen.
k- Fold Cross Validation (rotation estimation)

Die Daten werden in k eigene Sätze geteilt.

Jeder Satz wird zum Testen genutzt während der Rest zum Trainieren genutzt wird.
Das Experiment wird k-mal ausgeführt die Testergebnisse werden für die tatsächlich geschätzte Vorhersagengenauigkeit aggregiert.
Weitere Schätz-Methodologien

‘Leave-one-out’ ist der degenerierte Fall der ‘k- fold Cross Validation’ bei dem k nach der Anzahl an Experimenten gewählt wird.

Bootstrapping (fold=Pferch):

ROC (Receiver operating characteristic) Kurve:

Von einem Datensatz mit N Beispielen (mit Austausch) werden N ausgewählt und als Traingssatz genutzt
Die verbleibenden werden zum Testen genutzt
Der Wert verändert sich wahrscheinlich von Pferch zu Pferch Der Prozess wird für eine bestimmte Anzahl an Pferchen (K) durchgeführt.

Kreiert, indem die TPR (true positive rate) gegen die FPR (false positive rate) dargestellt wird, bei verschieden eingestellten Schwellen. (Bestimmtheit=TNR)
Illustriert die Performanz eines binären Klassifizierers während die Diskriminationsschwelle y(x) variiert wird.

Clustering (Segmentierung)
• Genutzt zur automatischen Identifizierung von natürlichen Gruppierungen von Dingen.
• Lernt die Cluster aus alten Daten und weist dann neue Belegstellen zu.
• Keine Output Variable Außerdem genutzt für:
• Identifizieren von natürlichen Gruppierungen an Kunden
• Bieten von Charakterisierung, Definition und Beschreibung von Einwohnern

• Verringern der Größe und Komplexität von Problemen für andere DM Methoden
Analysis methods
Agglomerative Clustering (Aufhäufendes Clustering)
• Wir starten mit allen Probeeinheiten in n Clustern der Grüße 1
• Bei jedem Schritt des Algorithmus wird das Paar des Clusters mit dem geringsten Abstand kombiniert in einen einzelnen Cluster.
• Der Algorithmus stoppt, wenn alle Probeeinheiten in einen einzigen Cluster der Grüße n kombiniert wurden.
Divisive Clustering (Polarisierendes Clustering):
• Wir starten mit allen Probeeinheiten in einem einzigen Cluster der Größe n.
• Bei jedem Schritt des Algorithmus werden Cluster aufgeteilt in ein Paar an Tochterclustern, die ausgewählt werden indem die Distanz maximiert wird.
• Der Algorithmus stoppt, wenn die Probeeinheiten in n Cluster der Größe 1 geteilt wurden. Aber, wie viele Cluster?
keine wirklich optimale Art das zu berechnen, oft werden Heuristiken genutzt z.B.:
Anzahl an Clustern = (n/2)^1/2 (n: Anzahl an Datenpunkten), AIC und BIC oder Euklidische Distanz

Distanzmaße
Die meisten Cluster Analyse Methoden involvieren Distanzmaße, um die Nähe zu bestimmen. Definition: O1 und O2 sind 2 Objekte aller möglichen. Die Distanz (Verschiedenheit) zwischen beiden ist eine reale Zahl gegeben durch d(O1,O2)
Eigenschaften von Distanzmaßen:
• d(A,B) = d(B,A) Symmetrie
• d(A,A) = 0 Konsistenz von ‘Selbst-Gleichheit‘
• d(A,B) = 0 if A= B Positivität (Separation)
• d(A,B) =< d(A,C) + d(B,C) Triangulare Ungleichheit
Algorithmus:
• Jede Beobachtung wird genau einem Cluster zugewiesen.
• Als Ungleichheitsmaß wird die Euklidische Distanz genutzt.
• K-means minimiert die Streuung der Punkte innerhalb der Cluster
• K: Vorbestimmte Anzahl an Clustern
Schritt 0: Bestimme den Wert von k
Schritt 1: Generiere zufällig k Punkte, die anfangs als Clustermitten dienen.
Schritt 2: Weise jedem Punkt die nächste Clustermitte zu.
Schritt 3: Berechne neue Clustermitten

Schritt 2 und 3 werden solange wiederholt, bis ein Konvergenzkriterium erfüllt ist (normal: Zuweisung von Punkten zu Clustern wird stabil)

Nearest neighbor classifiers
Idee: Wenn es wie eine Ente läuft und so quakt, dann ist es wahrscheinlich eine. Braucht 3 Inputs:

  1. Satz an gespeicherten Proben
  2. Ein Distanzmaß
  3. Der Wert von k, Anzahl an nächsten Nachbarn. Um einen unbekannten Datenpunkt einzuordnen
  4. Berechne den Abstand zu anderen Trainings Datenpunkten (z.B. Euklidisches Maß)
  5. Identifiziere den k nächsten Nachbar
  6. Nutze Klassenbeschreibungen des nächsten Nachbars, um die Klassenbeschreibung des nächsten Nachbarn zu bestimmen.

Optionen um die Klasse aus der Liste der nächsten Nachbarn zu bestimmen:
• Mach einen Mehrheitsbeschluss an Klassenbeschreibungen der k-nächsten Nachbarn
• Gewichte die Stimmen nach deren Distanz (z.B. w=1/d2) Wählen des Wertes von k:
• Wenn k zu klein ist, reagiert es sensitive auf Störpunkte
• Wenn k zu groß ist, kann die Nachbarschaft Punkte anderer Klassen beinhalten Skalierungsfragen: Attribute müssen evt. Skaliert werden, um zu verhindern, dass Distanzmaße von einem Attribut dominiert werden.
Probleme der Euklidischen Distanz:
• Bei Daten hoher Dimension kommen ‘falsche Ergebnisse’ raus
• Kann der Intuition widersprechende Ergebnisse produzieren.
Normalisieren des Vektors auf Einheitslängen.
‚Nachteile‘ k-nearest neighbor
k- Nearest neighbor classifier ist ein bequemer Lerner
• Erstellt nicht explizit ein Modell
• Anders als gierige Lerner wie Entscheidungsbäume oder Regelbasierte Systeme
• Klassifizieren von unbekannten Proben relativ teuer.
k- Nearest neighbor classifier ist ein lokasles Modell vs globalen von linearen Klassifizierern.