Text Mining STALKER/OML Analisi dati Analisi risultati Intro Information Overload Migliaia di documenti vengono prodotti ogni giorno: 80% testuali 20% numerici neri@synthema.it 2 Text Mining STALKER/OML Analisi dati Analisi risultati Intro Information Overload Internet/Intranet, DB, ... HTML, XML, PDF, Word, TXT, … Inglese, Francese, Tedesco, Italiano, Arabo, Cinese, Russo… neri@synthema.it 3 Text Mining STALKER/OML Analisi dati Analisi risultati Intro Information Overload Brevetti, Pubblicazioni scientifiche E-mail WEB Telefonate Stampa Percezione e Conoscenza della realtà che ci circonda neri@synthema.it 4 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Che cosa è il Text Mining Insieme di tecniche linguistico-matematiche per Analizzare fonti testuali Strutturare e classificare automaticamente il contenuto Trovare l’informazione nascosta Supporto nel Processo Decisionale neri@synthema.it 5 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Che cosa non è il Text Mining Non è analisi puntuale di un testo, ma analisi quantitativa e qualitativa di un insieme esteso di testi. Non è una metodologia di archiviazione di testi in argomenti predefiniti, noti a priori. Non è routing dell’informazione. neri@synthema.it 6 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Informazione come Supporto nel Processo Decisionale Text Mining per Ottenere una visione di insieme degli argomenti Accedere all’informazione su base tematica Trovare l’informazione nascosta Trovare l’informazione d’interesse neri@synthema.it 7 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Come gestire migliaia di documenti? Banche dati Database Internet neri@synthema.it 8 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Come gestire migliaia di documenti? Innovazione online Back-end Banche dati Modelli Dizionari Grammatiche SEARCHBOX+TWIDEXPERT (Analisi linguistica, statistica) STALKER/OML server Front-end Ufficio1 Internet Search engine Banca dati Intranet Ufficio3 Clustering engine Ufficio2 neri@synthema.it 9 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Architettura (STALKER) Banche dati SearchBox Crawler Lexical plugin TWID plugin Modelli Dizionari Grammatiche TWIDExpert TWIDExpert Internet Stalker server Reverse indexes Search engine Banca dati neri@synthema.it Clustering engine 10 Intro Text Mining STALKER/OM L Analisi dati Analisi risultati Il processo produttivo Back-end Scelta e preparazione dei dati Analisi dei dati e storage Front-end Ricerca e Analisi dei risultati Monitoraggio, consultazione e approfondimento neri@synthema.it 11 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Scelta e Preparazione dati (BackEnd) Scelta: Preparazione: neri@synthema.it 12 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (brevetti, pubblicazioni, e-mail, …) Analisi Lessicale per Distinguere “ciò che è detto” da “come viene detto” trovare convergenze nel significato cogliere l’informazione da classificare neri@synthema.it 13 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (Analisi lessicale) Analisi Morfo-sintattica e/o Terminologica rimuovere Ambiguità Analisi Logica Analisi Semantica trovare Sinonimi espandere Acronimi raggruppare Varianti Grafiche estrarre Espressioni Composte neri@synthema.it Identicazione automatica dei descrittori per ciascun documento 14 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (Analisi lessicale - Morfo-sintattica) DETTI DETTO: nome, masc. plur. DETTARE: verbo, ind. pres. 2a pers. sing. DARE: verbo, ind. pass. rem. 1a pers. sing. DIRE: verbo, part. pass. masc. plur. TRATTO TRATTO, TRATTARE Analisi Grammaticale riduce le ambiguità Lemma invio, inviati, invia inviare [verb] capi stazione capo stazione [noun] 15 neri@synthema.it Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (Analisi lessicale - Morfo-sintattica) neri@synthema.it 16 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (Analisi lessicale - Semantica) ( $, dollaro, biglietto verde, … ) trovare Sinonimi espandere Acronimi ( ANP Autorità Nazionale Palestinese ) ( visto, veduto ) raggruppare Varianti Grafiche estrarre Espressioni Composte ( carta di credito, Ministro degli Esteri ) trovare convergenza nel significato neri@synthema.it 17 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) Identificazione della lingua Lemmatizer/ Parsing, lemmatizzazione Teminology detector Mono-lingual Dictionaries, Grammars Estrazione terminologica Multilingual Teminology Allineamento multilingua matcher Multi-lingual Dictionaries Indicizzazione terminologica Ricerca e clustering Indexer Documents DB non solo lemmi, ma soprattutto neri@synthema.itterminologie 18 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) (Analisi lessicale - Morfo-statistica) Analisi Morfologica + pattern matching (n+base(n) credit card, fuel cell, … ) ( base(n)+prep+n+prep+n arma di distruzione di massa, ... ) Analisi Statistica • Soglia di Frequenza • Soglia di Significatività (n > 1, 1 = f(SW-MW,nTot,…) ) ( log((1/n) * (nTot/nDoc) * f(POS)*...) > 2 ) Trovare l’informazione rilevante neri@synthema.it 19 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Preparazione dei Dati (BackEnd) guanto[NOUN] paraffina [NOUN] guanto di paraffina [NOUN] rilevare [VERB] traccia[NOUN] polvere[NOUN] polvere da sparo[NOUN] non solo lemmi, ma terminologie neri@synthema.it 20 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Analisi Statistica Identificazione della lingua Lemmatizer/ Parsing, lemmatizzazione Teminology detector Mono-lingual Dictionaries, Grammars Estrazione terminologica Multilingual Teminology Allineamento multilingua matcher Multi-lingual Dictionaries Indicizzazione terminologica Ricerca e clustering Indexer Documents DB neri@synthema.it 21 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Analisi Statistica neri@synthema.it 22 Intro Text Mining STALKER/O ML Analisi dati Analisi risultati Ricerca e Classificazione Ricerca per chiavi ed accesso puntuale Raggruppamento in classi affini per contenuto Concatenazione fra classi correlate neri@synthema.it 23 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Analisi dei risultati Mappe Liste ordinate neri@synthema.it 24 Intro Text Mining STALKER/OML Analisi dati Analisi risultati Scoperta di risultati inaspettati Consultare documenti per tema Trovare relazioni nascoste neri@synthema.it 25 Intro Text Mining STALKER/OML Analisi dati New I nuovi sviluppi: motore di ricerca in linguaggio naturale multilingua neri@synthema.it 26 Intro Text Mining STALKER/OML Analisi dati New I nuovi sviluppi: document analyser neri@synthema.it 27 Intro Text Mining STALKER/OML Analisi dati Info Indirizzi utili Trovare l’informazione neri@synthema.it http://www.synthema.it/textmining http:// www.spi-rit.net neri@synthema.it 28