Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Intro
Information Overload
Migliaia di documenti vengono prodotti ogni
giorno:
80% testuali
20% numerici
neri@synthema.it
2
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Intro
Information Overload
Internet/Intranet, DB, ...
HTML, XML, PDF, Word, TXT, …
Inglese, Francese, Tedesco, Italiano,
Arabo, Cinese, Russo…
neri@synthema.it
3
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Intro
Information Overload
Brevetti, Pubblicazioni scientifiche
E-mail
WEB
Telefonate
Stampa
Percezione e Conoscenza della
realtà che ci circonda
neri@synthema.it
4
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Che cosa è il Text Mining
Insieme di tecniche linguistico-matematiche per

Analizzare fonti testuali
Strutturare e classificare automaticamente il
contenuto


Trovare l’informazione nascosta
Supporto nel
Processo Decisionale
neri@synthema.it
5
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Che cosa non è il Text Mining

Non è analisi puntuale di un testo, ma
analisi quantitativa e qualitativa di un
insieme esteso di testi.

Non è una metodologia di archiviazione
di testi in argomenti predefiniti, noti a
priori. Non è routing dell’informazione.
neri@synthema.it
6
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Informazione
come Supporto nel
Processo Decisionale
Text Mining per

Ottenere una visione di insieme degli argomenti

Accedere all’informazione su base tematica

Trovare l’informazione nascosta
Trovare l’informazione
d’interesse
neri@synthema.it
7
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Come gestire migliaia di documenti?
Banche
dati
Database
Internet
neri@synthema.it
8
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Come gestire migliaia di documenti?
Innovazione online
Back-end
Banche
dati
Modelli
Dizionari
Grammatiche
SEARCHBOX+TWIDEXPERT
(Analisi linguistica, statistica)
STALKER/OML server
Front-end
Ufficio1
Internet
Search engine
Banca dati
Intranet
Ufficio3
Clustering engine
Ufficio2
neri@synthema.it
9
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Architettura (STALKER)
Banche
dati
SearchBox
Crawler
Lexical
plugin
TWID
plugin
Modelli
Dizionari
Grammatiche
TWIDExpert
TWIDExpert
Internet
Stalker server
Reverse
indexes
Search engine
Banca dati
neri@synthema.it
Clustering engine
10
Intro
Text Mining
STALKER/OM
L
Analisi dati
Analisi risultati
Il processo produttivo
Back-end

Scelta e preparazione dei dati

Analisi dei dati e storage
Front-end

Ricerca e Analisi dei risultati
Monitoraggio, consultazione e
approfondimento
neri@synthema.it
11
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Scelta e Preparazione dati (BackEnd)

Scelta:

Preparazione:
neri@synthema.it
12
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Preparazione dei Dati (BackEnd)
(brevetti, pubblicazioni, e-mail, …)
Analisi Lessicale per
Distinguere “ciò che è detto” da
“come viene detto”
trovare convergenze nel significato
cogliere l’informazione da classificare
neri@synthema.it
13
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Preparazione dei Dati (BackEnd)
(Analisi lessicale)
Analisi Morfo-sintattica e/o
Terminologica
rimuovere Ambiguità
Analisi Logica
Analisi Semantica
trovare Sinonimi
espandere Acronimi
raggruppare Varianti Grafiche
estrarre Espressioni Composte
neri@synthema.it
Identicazione
automatica
dei descrittori
per ciascun
documento
14
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Preparazione dei Dati (BackEnd)
(Analisi lessicale - Morfo-sintattica)
DETTI
DETTO: nome, masc. plur.
DETTARE: verbo, ind. pres. 2a pers. sing.
DARE: verbo, ind. pass. rem. 1a pers. sing.
DIRE: verbo, part. pass. masc. plur.
TRATTO
TRATTO, TRATTARE
Analisi Grammaticale riduce le ambiguità
Lemma
invio, inviati, invia  inviare [verb]
capi stazione  capo stazione [noun]
15
neri@synthema.it
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Preparazione dei Dati (BackEnd)
(Analisi lessicale - Morfo-sintattica)
neri@synthema.it
16
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Preparazione dei Dati (BackEnd)
(Analisi lessicale - Semantica)
( $, dollaro, biglietto verde, … )
trovare Sinonimi
espandere Acronimi
( ANP  Autorità Nazionale
Palestinese )
( visto, veduto )
raggruppare Varianti Grafiche
estrarre Espressioni Composte ( carta di credito,
Ministro degli Esteri )
trovare convergenza nel significato
neri@synthema.it
17
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Preparazione dei Dati (BackEnd)
Identificazione della
lingua
Lemmatizer/
Parsing, lemmatizzazione
Teminology detector
Mono-lingual
Dictionaries,
Grammars
Estrazione terminologica
Multilingual Teminology
Allineamento multilingua
matcher
Multi-lingual
Dictionaries
Indicizzazione terminologica
Ricerca e clustering
Indexer
Documents DB
non solo lemmi,
ma soprattutto
neri@synthema.itterminologie
18
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Preparazione dei Dati (BackEnd)
(Analisi lessicale - Morfo-statistica)
Analisi Morfologica + pattern matching
(n+base(n)  credit card, fuel cell, … )
( base(n)+prep+n+prep+n  arma di distruzione di massa, ... )
Analisi Statistica
• Soglia di Frequenza
• Soglia di Significatività
(n > 1, 1 = f(SW-MW,nTot,…) )
( log((1/n) * (nTot/nDoc) * f(POS)*...) > 2 )
Trovare l’informazione rilevante
neri@synthema.it
19
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Preparazione dei Dati (BackEnd)
guanto[NOUN]
paraffina [NOUN]
guanto di paraffina [NOUN]
rilevare [VERB]
traccia[NOUN]
polvere[NOUN]
polvere da sparo[NOUN]
non solo lemmi, ma terminologie
neri@synthema.it
20
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Analisi Statistica
Identificazione della
lingua
Lemmatizer/
Parsing, lemmatizzazione
Teminology detector
Mono-lingual
Dictionaries,
Grammars
Estrazione terminologica
Multilingual Teminology
Allineamento multilingua
matcher
Multi-lingual
Dictionaries
Indicizzazione terminologica
Ricerca e clustering
Indexer
Documents DB
neri@synthema.it
21
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Analisi Statistica
neri@synthema.it
22
Intro
Text Mining
STALKER/O
ML
Analisi dati
Analisi risultati
Ricerca e Classificazione
Ricerca per chiavi
ed accesso puntuale
Raggruppamento in
classi affini per contenuto
Concatenazione fra
classi correlate
neri@synthema.it
23
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Analisi dei risultati
Mappe
Liste ordinate
neri@synthema.it
24
Intro
Text Mining
STALKER/OML
Analisi dati
Analisi risultati
Scoperta di risultati inaspettati
Consultare documenti per tema
Trovare relazioni nascoste
neri@synthema.it
25
Intro
Text Mining
STALKER/OML
Analisi dati
New
I nuovi sviluppi: motore di ricerca in
linguaggio naturale multilingua
neri@synthema.it
26
Intro
Text Mining
STALKER/OML
Analisi dati
New
I nuovi sviluppi: document analyser
neri@synthema.it
27
Intro
Text Mining
STALKER/OML
Analisi dati
Info
Indirizzi utili
Trovare l’informazione
neri@synthema.it
http://www.synthema.it/textmining
http:// www.spi-rit.net
neri@synthema.it
28