Business Intelligence II

Fach Fach

Klasse 10

Autor Wimmer96

Veröffentlicht am 06.11.2018

Schlagwörter

Business Intelligence

Zusammenfassung

Das Thema des Business intelligence (BI) erfährt vor allem in der derzeitigen Zeit einen regelrechten Hype unter den Unternehmen. Diese Referate sollen einen allgemeinen Überblick über diese Themen geben.

OLTP vs. OLAP
OLTP (online transaction processing)
• System, das hauptsächlich für das Erfassen und Speichern der Daten im Tagesgeschäft verantwortlich ist (ERP, CRM, SCM, POS…)
• Hauptfokus ist auf der Effizienz der Routine Aufgaben OLAP (online analytic processing)
• System, um effektiv und effizient ad hoc Analysen von organisierten Daten anzubieten.
• Hauptfokus auf Effektivität

OLAP
Online analytical processing (OLAP):
Vom Endnutzer ausgeführte Datenaktivität, um das Online System abzufragen und Analysen durchzuführen.
Aktivitäten:
• Abfragen generieren, Ad hoc Reports abfragen, durchführen statistischer und andere Analysen, entwickeln von Multimedia basierenden Anwendungen
• Anstatt mit MySQL selbst die Abfragen auszuführen => ohne eigene Programmierung Operations:
• Slice – Teilmenge eines multidimensionalen Array’s
• Dice – ein ‘slice’ an mehr als 2 Dimensionen
• Drill Down/Up – Navigieren von den zusammengefassten zu sehr detaillierten Datenlevels.
• Roll Up – Kalkulieren aller Daten Verbindungen für eine oder mehr Dimensionen (ᴫ=px-C)
• Pivot – genutzt um die dimensionale Orientierung z.B. eines Reports zu ändern. Variations:
Weitere Varianten eines OLAP Systems
• Multidimensionales OLAP (MOLAP)
OLAP implementiert durch eine spezialisierte multidimensionale Datenbank der Transaktionen in multidimensionale Sichten zusammenfasst.

• Relationale OLAP (ROLAP)
Implementierung auf eine OLAP Datenbank auf (on top) einer existierenden relationalen Datenbank

Data Mining
Einführung
Concepts and Definitions
Warum Data Mining?
• Intensiverer Wettbewerb auf gloablem Maße
• Anerkennung des Wertes in Datenquellen
• Zugang von Qualitätsdaten für Kunden, Käufer, Transaktionen, Web, etc.
• Konsolidierung und Integration von Datenrepositorien in DW
• Das exponentielle Wachstum in Datenabwicklung und Speichermöglichkeiten (und Kostenreduzierung)
• Bewegung Richtung Umwandlung von Informationsmittel in nicht physische Form
Definition:

Der nicht-triviale Prozess des Identifizierens von validen, neuen, potentiell nützlichen und verständlichen Mustern in den gespeicherten Daten der strukturierten Datenbanken.

  • Fayyad et al., (1996)
    Andere Namen: Wissens Gewinnung, Muster Analyse, Info ernten…

Charakteristika/Ziele:
• Datenquelle für DM ist oft ein konsolidiertes DW (nicht immer)
• Daten sind die kritischste Zutat für DM, die evt softe oder unstrukturierte Daten enthalten.
o Strukturiert => relationelle DB
o unstrukturiert =>meist Texte, häufig semi-strukturiert (bspw. Header einer Mail)
• Der ‘Miner’ ist oft ein Endnutzer.
• Möglichkeiten der Werkzeuge von DM und deren leichte Benutzung sind essenziell.
Data:

• Sammlung an Fakten, gewöhnlich erhalten als Ergebnis von Erfahrungen, Beobachtungen oder Experimenten.
• Bestehen z.B. aus Nummern, Wörtern und Bildern
• Kleinstes Level an Zerstreuung (von dem Info und Wissen abgeleitet werden)
Es ist möglich die Daten komplett zu analysieren indem die Daten zusammengefasst werden – die Rohdaten sind oftmals nicht nötig.

DM extrahiert Muster aus Daten:
Typen
• Assoziierungen (wenn/dann-Regeln)
• Sequentiell (oder Zeitreihen) Beziehungen (Zeitliche Assoziation, Sequenz und Assoziation oft zusammengefasst als ein Muster)
• Vorhersagen(konkreter Wert)
o Versucht Muster zu Formen, die es erlauben, das nächste Event zu vorhersagen.
o Abhängig von der Natur der Vorhersage können wir zwischen Klassifizierung (bezieht sich auf ein Klassenkennung) und Regressionen (bezieht sich auf eine reale Nummer) unterscheiden.
• Cluster (Segmentierung): Gruppe von Datenobjekten mit ähnlich zu den Datenpunkten im gleichen Cluster und unähnlich zu den Punkten in anderen Clustern
Assoziierungen:
• Formal: Finden von interessanten Korrelationen über große Reihen und Datenposten. Assoziierungsregeln zeigen Merkmalswerte Bedingungen, die oft zusammen in einem gegebenen Datensatz auftreten.
• Informal: “If – Then” Beziehungen.

• Beispiel: Im Supermarkt werden Daten gesammelt beim Barcode scannen. Jede Aufzeichnung beinhaltet alle Produkte, die zusammen gekauft werden, um herauszufinden, ob bestimmte Kunden eine bestimmte Produktzusammenstellung haben. Aus den erkannten Mustern können z.B. Kunden segmentiert und so gezielte Werbung gemacht werden.

Clustering:
• Cluster: Sammlung von Datenobjekten. Ähnlich (oder zugehörig) zu einem anderen innerhalb der gleichen Gruppe, aber nicht zu anderen.
• Cluster Analyse: Finden von Ähnlichkeiten zwischen Daten gemäß den Charakteristika, die in den Daten gefunden wurden und gruppieren von ähnlichen Datenobjekten in Cluster.
Supervised vs. unsupervised Learning
• Supervised learning:
Klassifizierung wird als ‚supervised learning‘ von Beispielen gesehen.
Supervision: Die Daten (Beobachtungen, Messwerte…) sind mit vordefinierten Klassen beschrieben. Testdaten werden anschließend ebenfalls in diese Klassen eingeordnet. Korrekte Daten sind also gegeben.
• Unsupervised learning (clustering)
Klassenbeschreibung der Daten sind nicht bekannt. Aufgabe ist es die Existenz von Klassen oder Clustern in den Daten herauszufinden. Das Modell bietet während dem Training nicht die korrekten Ergebnisse

Andere Aufgaben von DM sind Zeitreihen-Vorhersagen oder Visualisierungen.

Typen von DM

  1. Hypothesen getriebenes DM
  2. Entdeckungsgetriebenes DM

Applications
CRM
• Maximieren der Returns von Marketing Kampagnen.
• Verbessern der Kundenbindung
• Maximieren des Kundenwertes
• Identifizieren und Behandeln der Kunden mit dem höchsten Wert
Banking & Andere Finanzanwendungen
• Automatisieren des Kreditbewerbungs Prozesses
• FInden von illegalen Transaktionen
• Maximieren des Kundenwertes
• Optimieren der Geldreserven mit Vorhersagen
Verkauf und Logistik
• Optimieren der Lagermenge an verschiedenen Standorten
• Verbessern des Ladenlayouts und der Bewerbung von Angeboten
• Optimieren der Logistik durch das Vorhersagen von saisonalen Effekten
• Minimieren von Verlusten durch limitierte Haltbarkeit.
Produktion und Wartung
• Vorhersagen/Verhindern von maschinellen Fehlern
• Identifizieren von Anomalien im Produktionssystem um die Produktionskapazität zu optimieren.
• Entdecken neuer Muster um die Produktqualität zu verbessern.
Makler und Wertpapierhändler
• Vorhersagen von Änderungen des sicheren Anleihen Preises
• Vorhersagen der Richtung von Aktien Fluktuation
• Beurteilungs des Effekts von Events auf Marktbewegungen
• Identifizieren und Verhindern von illegalen Aktivitäten beim Handeln
Versicherung
• Vorhersage von Forderungen für bessere Unternehmensplanung
• Bestimmen optimaler Zinsplanungen
• Optimieren des Marketings auf spezifische Kunden
• Identifizieren und Verhindern von illegalen Forderungsaktivitäten

Process
• Festhalten von optimalen Vorgehensweisen
• Systematischer Weg DM Projekte durchzuführen
• Verschieden Gruppen haben verschiedene Versionen (z.B. CRISP-DM (Cross-Industry Standard Process for DM); SEMMA (Sample, Explore, Modify, Model andAssess); KDD (Knowledge, Discovery in Database)
Der DM-Prozess muss zuverlässig und wiederholbar sein für Arbeiter mit wenigen BI Kenntnissen.

1: Was ist mein Problem?
2: Aufbau der Daten um Zwecke zu erfüllen

Kein Blackbox Verfahren, es muss klar sein was man erhalten will und was für Daten man dafür braucht.