Business Intelligence VI
Text Mining
Konzepte:
Text Mining (TM)
• Semi-automatischer Prozess des Extrahierens von Wissen aus unstrukturierten Datenquellen
• Vorteile besonders bei Text-reichen Datenumgebungen (z.B.: Recht (Richtersprüche), akademische Forschung (Suche nach Artikeln), Finance (vierteljährliche Reporte), Technology (Patentordner)…)
Data Mining vs. Text Mining
• Suchen beide nach neuen und nützlichen Mustern
• Beides sind semi-automatische Prozesse
• Unterschiede in der Natur der Daten
o Strukturierte (Datenbanken) vs unstrukturierte Daten (Word Dokumente, PDF Dateien, XML Daten….)
• Text Mining – Zuerst werden die Daten strukturiert, dann werden sie analysiert (mine) Application Area: Information Extraktion, Themen tracking, Zusammenfassung, Kategorisierung, Clustering, Konzept Verbindung, Fragen Beantwortung
Natural Language Processing (NLP)
Was ist ‘Verstehen’?
• Der Mensch versteht, aber der Computer?
• Natürliche Sprache ist vage und oft Inhalts bezogen
• Wirkliches Verstehen braucht extensives Wissen des Themas
Können/Werden Computer je die natürliche Sprache so verstehen wie wir?
Herausforderungen:
• ‘Part-of-speech’ tagging (Was für Satz/Wortarten sind da?)
• Text Segmentierung
• Wortsinn Vereindeutung
• Syntax Mehrdeutigkeit
• Unvollkommener oder irregulärer Input
• Sprechakt
Traum derAnhänger künstlicher Intelligenz:
Algorithmen die fähig sind, automatisch zu lesen und das Wissen aus dem Text zu erhalten WordNet
• Eine im Labor von Hand kodierte Datenbank an Englischen Wörtern, deren Definitionen, Synonyme und verschiedene semantische Beziehungen zwischen Sätzen an Synonymen
• Hauptressource für NLP
• Braucht komplette Automatisierung zur Vervollständigung
Sentiment Analyse
Technik, die genutzt wird, um positive und negative Meinungen zu einem spezifischen Produkt oder Service aufzuspüren.
Aufgaben Kategorien:
• Informations Abfrage
• Informations Extraktion
• Fragen Beantwortung
• Automatische Zusammenfassung
• Generierung und Verstehen von natürlicher Sprache
• Maschinelle Übersetzung
• Lesen und Sprechen von ausländischer Sprache
• Spracherkennung
• Textprüfung
• Optische Buchstaben Erkennung
Anwendungen:
• Marketing: Besseres CRM
• Sicherheit: ECHELON, OASIS, Entdeckung von Täuschungen
• Medizin und Biologie: Literatur basierte Genidentifikation
• Akademisch: Forschungs-Leistungsgruppen Analyse
Process:
Schritt 1: Aufbauen des Korpus
• Sammeln aller relevanten unstrukturierten Daten
• Digitalisieren und Standardisieren der Sammlung (alles in ASCII)
Schritt 2: Erstellen der Term-by-Document Matrix (TDM)
• Stop words, include words Synonyms, Homonyme, Stemming
• Was ist die Beste Repräsentierung der Indizes (Werten in Zellen)?
o Reihenzählung: Binäre Äufigkeiten; Log Häufigkeiten
o Inverse Dokumentenhäufigkeit
• TDM ist eine spärliche Matrix. Wie können wir die Dimensionalität der TDM reduzieren?
o Manuell durch einen Experte
o Eliminieren der Begriffe mit wenigen Ereignissen in wenigen Dokumenten
o Tranformieren der Matrix durch eine singuläre Wert Dekomposition (SVD)
Schritt 3: Extrahieren von Mustern/Wissen
• Klassifizierung (Text Kategorisierung)
• Clustering (Natürliche Gruppen von Text)
o Verbessern der Suchrückrufs und –präzision
o Verbreiten/Sammeln
o Frage spezifisches Clustering
• Assoziierung
• Trend Analyse
Datenanalyse
Pearson CorrelationCoefficient:
Misst die lineare Korrelation (Abhängigkeit) zwischen 2 Variablen
Hypothesen Test:
• Ergebnisse sind statistisch signifikant, wenn es als so unwahrscheinlich vorhergesagt wird, dass das Ergebnis nur aus Zufall zustande kam (nach einer festgesetzten Schwellenwahrscheinlichkeit, dem Signifikanzlevel)
• H0: assoziiert mit einer Theorie, die es zu widersprechen gilt.
• HA: assoziiert mit einer Theorie die geprüft werden soll
• P-Wert: Gibt die Wahrscheinlichkeit an, angenommen die Null Hypothese ist korrekt, ein Ergebnis zu beobachten, dass zumindest so Extrem ist wie die Test-Statistik.
t-Test für den Pearson Correlation Coefficient:
R2: Misst den Anteil der erklärten Varianz.
OLS-Schätzung:
- Homoskedastie: Der Fehlerterm hat die selbe Varianz in jeder Beobachtung
- Keine Autokorrelation: Fehler sind nicht korreliert zwischen den Beobachtungen
- Keine lineare Abhängigkeit (Multikollinearität): Regressoren müssen alle linear unabhängig sein.
Durbin-Watson Test: Feststellung von Autokorrelation in den Residuen Test