Woxikon / Referate / Informatik / 11.Klasse / Business Intelligence VI

Business Intelligence VI

Text Mining
Konzepte:
Text Mining (TM)
• Semi-automatischer Prozess des Extrahierens von Wissen aus unstrukturierten Datenquellen
• Vorteile besonders bei Text-reichen Datenumgebungen (z.B.: Recht (Richtersprüche), akademische Forschung (Suche nach Artikeln), Finance (vierteljährliche Reporte), Technology (Patentordner)…)
Data Mining vs. Text Mining
• Suchen beide nach neuen und nützlichen Mustern
• Beides sind semi-automatische Prozesse
• Unterschiede in der Natur der Daten
o Strukturierte (Datenbanken) vs unstrukturierte Daten (Word Dokumente, PDF Dateien, XML Daten….)
• Text Mining – Zuerst werden die Daten strukturiert, dann werden sie analysiert (mine) Application Area: Information Extraktion, Themen tracking, Zusammenfassung, Kategorisierung, Clustering, Konzept Verbindung, Fragen Beantwortung

Natural Language Processing (NLP)
Was ist ‘Verstehen’?
• Der Mensch versteht, aber der Computer?

• Natürliche Sprache ist vage und oft Inhalts bezogen
• Wirkliches Verstehen braucht extensives Wissen des Themas
Können/Werden Computer je die natürliche Sprache so verstehen wie wir?
Herausforderungen:
• ‘Part-of-speech’ tagging (Was für Satz/Wortarten sind da?)
• Text Segmentierung
• Wortsinn Vereindeutung
• Syntax Mehrdeutigkeit
• Unvollkommener oder irregulärer Input
• Sprechakt
Traum derAnhänger künstlicher Intelligenz:
Algorithmen die fähig sind, automatisch zu lesen und das Wissen aus dem Text zu erhalten WordNet
• Eine im Labor von Hand kodierte Datenbank an Englischen Wörtern, deren Definitionen, Synonyme und verschiedene semantische Beziehungen zwischen Sätzen an Synonymen
• Hauptressource für NLP
• Braucht komplette Automatisierung zur Vervollständigung
Sentiment Analyse
Technik, die genutzt wird, um positive und negative Meinungen zu einem spezifischen Produkt oder Service aufzuspüren.

Aufgaben Kategorien:
• Informations Abfrage
• Informations Extraktion
• Fragen Beantwortung
• Automatische Zusammenfassung
• Generierung und Verstehen von natürlicher Sprache
• Maschinelle Übersetzung
• Lesen und Sprechen von ausländischer Sprache
• Spracherkennung
• Textprüfung
• Optische Buchstaben Erkennung
Anwendungen:
• Marketing: Besseres CRM
• Sicherheit: ECHELON, OASIS, Entdeckung von Täuschungen
• Medizin und Biologie: Literatur basierte Genidentifikation
• Akademisch: Forschungs-Leistungsgruppen Analyse

Process:

Schritt 1: Aufbauen des Korpus
• Sammeln aller relevanten unstrukturierten Daten
• Digitalisieren und Standardisieren der Sammlung (alles in ASCII)
Schritt 2: Erstellen der Term-by-Document Matrix (TDM)
• Stop words, include words Synonyms, Homonyme, Stemming
• Was ist die Beste Repräsentierung der Indizes (Werten in Zellen)?
o Reihenzählung: Binäre Äufigkeiten; Log Häufigkeiten
o Inverse Dokumentenhäufigkeit
• TDM ist eine spärliche Matrix. Wie können wir die Dimensionalität der TDM reduzieren?
o Manuell durch einen Experte
o Eliminieren der Begriffe mit wenigen Ereignissen in wenigen Dokumenten
o Tranformieren der Matrix durch eine singuläre Wert Dekomposition (SVD)
Schritt 3: Extrahieren von Mustern/Wissen
• Klassifizierung (Text Kategorisierung)
• Clustering (Natürliche Gruppen von Text)
o Verbessern der Suchrückrufs und –präzision
o Verbreiten/Sammeln
o Frage spezifisches Clustering
• Assoziierung
• Trend Analyse

Datenanalyse
Pearson CorrelationCoefficient:
Misst die lineare Korrelation (Abhängigkeit) zwischen 2 Variablen
Hypothesen Test:

• Ergebnisse sind statistisch signifikant, wenn es als so unwahrscheinlich vorhergesagt wird, dass das Ergebnis nur aus Zufall zustande kam (nach einer festgesetzten Schwellenwahrscheinlichkeit, dem Signifikanzlevel)
• H0: assoziiert mit einer Theorie, die es zu widersprechen gilt.
• HA: assoziiert mit einer Theorie die geprüft werden soll
• P-Wert: Gibt die Wahrscheinlichkeit an, angenommen die Null Hypothese ist korrekt, ein Ergebnis zu beobachten, dass zumindest so Extrem ist wie die Test-Statistik.
t-Test für den Pearson Correlation Coefficient:

R2: Misst den Anteil der erklärten Varianz.

OLS-Schätzung:

Homoskedastie: Der Fehlerterm hat die selbe Varianz in jeder Beobachtung
Keine Autokorrelation: Fehler sind nicht korreliert zwischen den Beobachtungen
Keine lineare Abhängigkeit (Multikollinearität): Regressoren müssen alle linear unabhängig sein.

Durbin-Watson Test: Feststellung von Autokorrelation in den Residuen Test

Referate und fertige Hausaufgaben

Business Intelligence VI

Mehr Referate

Kurvendiskussion einer ganzrationalen Funktion

Das Skalarprodukt zweier Vektoren und seine Eigenschaften

Die Geschichte der Integralrechnung

Dreaming of Equality

Konstruktivismus