WEB INTELLIGENCE

Anno accademico 2019/2020 Programmi anni precedenti
Titolo corso in inglese WEB INTELLIGENCE
Codice insegnamento CT0428 (AF:248845 AR:136527)
Modalità In presenza
Crediti formativi universitari 6
Livello laurea Laurea
Settore scientifico disciplinare INF/01
Periodo I Semestre
Anno corso 3
Sede VENEZIA
Spazio Moodle Link allo spazio del corso
Inquadramento dell'insegnamento nel percorso del corso di studio
Questo corso fa parte delle attività caratterizanti del Corso di laurea in Informatica.
L'obiettivo dell'insegnamento è di dare allo studente le conoscenze necessarie per la comprensione e l'uso delle tecniche sia di analisi supervisionata (classificazione e regressione) sia non supervisionata (clustering e raccomandazione), considerando anche dati web (es., documenti di testo, grafo del web).
Il corso prevede l'uso di librerie software di data mining tramite il linguaggio di programmazione python.
Risultati di apprendimento attesi
Il corso illustra le tecniche base impiegate per condurre analisi descrittive e predittive, principalmente su data originati in contesto Web.

Gli studenti raggiungeranno i seguenti risultati di apprendimento:

Conoscenza e comprensione: i) comprensione dei concetti base di learning non supervisionato; ii) comprensione dei concetti base di learning supervisionato; iii) comprensione dei concetti base di mining di contenuti web;

Capacità di applicare conoscenza e comprensione: i) capacità di applicare tecniche di learning supervisionato e non supervisionato; ii) capacità di usare strumenti software per l'analisi dei dati (ad esempio, scikit-learn).

Capacità di giudizio: i) capacità di scegliere lo strumento di analisi più adeguato al problema dato e di valutarne la bontà.

Abilità comunicative: i) saper esporre i risultati sperimentali di una analisi comparativa tra differenti strumenti di analisi.
Prerequisiti
Aver raggiunto gli obiettivi formativi (anche senza aver superato l'esame finale) dei corsi di "Programmazione E Laboratorio", "Probabilità e Statistica", "Algebra Lineare".
Contenuti
- Knowledge Discovery in Databases
- Similarity search in text:
- Text processing: tokenization, stemming, lemmatization, stopwords
- Similarity functions: Jaccard, Euclidean, Cosine
- Advanced Similarity approximations: k-shingles, Locality-Sensitive Hashing, Sim-Hashing
- Web Mining - Recommender systems:
- Content-based, Collaborative Filtering, user-based and item-based
- Dimensionality Reduction:
- Distance measures, curse of dimensionality, PCA
- Clustering:
- k-means, k-medoids, Hierarchical, DB-Scan
- Intrinsic and extrinsic Evaluation
- Classification and Regression:
- k-NN, Naive Bayes, Decision Trees
- Bias and Variance, overfitting and underfitting
- Ensemble methods: Bagging, Boosting, Random Forests
- Random Forests for feature selection, outlier detection
- Imbalanced data
- Evaluation: accuracy measures, cross-validation
- Web Mining - Document Ranking:
- Classification and regression for document ranking
Testi di riferimento
Note del docente. Estratti forniti durante il corso.

- Data Mining Concepts and Techniques Third Edition. Jiawei Han, Micheline Kamber Jian Pei. Morgan Kaufmann/Elsevier. Third Edition. 2012.
- Web Data Mining 2nd edition. Liu. Springer. 2011.
Modalità di verifica dell'apprendimento
La verifica dell'apprendimento avviene tramite una prova scritta e l'implementazione di un progetto.

La prova scritta consiste in domande di carattere teorico e brevi esercizi di carattere pratico. La prova scritta misura le conoscenze teoriche acquisite dallo studente.

Il progetto richiede di svolgere uno studio comparativo di diversi metodi di analisi applicati ad uno specifico dataset o problema.
Lo studente deve scegliere e motivare le soluzioni secondo lui più opportune e consegnare una relazione che verrà discussa con il docente.
Il progetto verifica la capacità dello studente di applicare le conoscenze teoriche in un reale caso di studio.
Metodi didattici
Lezioni teoriche accompagnate da numerose esercitazioni pratiche.
Materiale didattico curato del docente verrà distribuito durante il corso tramite la piattaforma Moodle. Durente il corso verrà usato il linguaggio di programmazione python e la libreria scikit-learn. Gli studenti sono incoraggiati a portare il loro laptop durante le lezioni.
Lingua di insegnamento
Italiano
Modalità di esame
scritto e orale
Programma definitivo.
Data ultima modifica programma
26/08/2019