DATA AND WEB MINING

Anno accademico: 2024/2025 Programmi anni precedenti

Titolo corso in inglese: DATA AND WEB MINING

Codice insegnamento: CT0509 (AF:379678 AR:216894)

Lingua di insegnamento: Italiano

Modalità: In presenza

Crediti formativi universitari: 6

Livello laurea: Laurea

Settore scientifico disciplinare: ING-INF/05

Periodo: I Semestre

Anno corso: 3

Sede: VENEZIA

Spazio Moodle: Link allo spazio del corso

Inquadramento dell'insegnamento nel percorso del corso di studio

Questo corso fa parte delle attività caratterizanti del Corso di laurea in Informatica.
L'obiettivo dell'insegnamento è di dare allo studente le conoscenze necessarie per la comprensione e l'uso delle tecniche sia di analisi supervisionata (classificazione e regressione) sia non supervisionata (clustering e raccomandazione),
con particolare interesse per dati web (es., documenti di testo, grafo del web).
Il corso prevede l'uso di librerie software di data mining tramite il linguaggio di programmazione Python.

Risultati di apprendimento attesi

Il corso illustra le tecniche base impiegate per condurre analisi descrittive e predittive,
principalmente su data originati in contesto Web.

Gli studenti raggiungeranno i seguenti risultati di apprendimento:

i) Conoscenza e comprensione: comprensione dei concetti base di learning supervisionato e non supervisionato; comprensione dei concetti base delle tecniche mining di contenuti web.

ii) Capacità di applicare conoscenza e comprensione: capacità di applicare tecniche di learning supervisionato e non supervisionato; capacità di usare strumenti software per l'analisi dei dati (ad esempio, scikit-learn).

iii) Capacità di giudizio: capacità di scegliere lo strumento di analisi più adeguato al problema dato e di valutarne la bontà.

iv) Abilità comunicative: saper esporre in maniera chiara e corretta i risultati sperimentali di una analisi comparativa tra differenti strumenti di analisi.

v) Capacità di apprendimento: saper utilizzare in autonomia nuove tecniche e strumenti.

Prerequisiti

Aver raggiunto gli obiettivi formativi (anche senza aver superato l'esame finale) dei corsi di "Programmazione E Laboratorio", "Probabilità e Statistica", "Algebra Lineare".

Contenuti

- Knowledge Discovery in Databases
- Data pre-processing:
- Ordinal and Categorical Variables
- Classification and Regression:
- k-NN, Decision Trees
- Bias and Variance, overfitting and underfitting
- Ensemble methods: Bagging, Boosting, Random Forests
- Random Forests for feature selection, outlier detection
- Imbalanced data
- Evaluation: accuracy measures, cross-validation
- Clustering:
- k-means, k-medoids, Hierarchical, DB-Scan
- Distance measures, curse of dimensionality
- Intrinsic and extrinsic Evaluation
- Introduction to Artificial Neural Networks

Testi di riferimento

Note del docente. Estratti forniti durante il corso.
- Introduction to Data Mining (Global Edition), Tan, Steinbach, Karpatne, Kumar. Pearson. 2020.

Modalità di verifica dell'apprendimento

La verifica dell'apprendimento avviene tramite una prova scritta e la discussione orale di un progetto.

La prova scritta consiste in domande di carattere teorico e brevi esercizi di carattere pratico. La prova scritta valuta il raggiungimento dei risultati di apprendimento i) ii) e iii).

Il progetto richiede di svolgere uno studio comparativo di diversi metodi di analisi applicati ad uno specifico dataset, o l'implementazione di un algoritmo di data mining.
Lo studente deve scegliere e motivare le soluzioni secondo lui più opportune e consegnare una relazione che verrà discussa con il docente.
Il progetto valuta il raggiungimento dei risultati di apprendimento iii) iv) e v).

La gradazione del voto è data da 70% prova scritta e 30% prova orale.

Modalità di esame

scritto e orale

Graduazione dei voti

La gradazione del voto è data da 70% prova scritta e 30% prova orale.

28-30L: Conoscenza approfondita dei metodi, e capacità di scegliere quello più adeguato ad un problema dato. Capacità di analisi e valutazione. Capacità di adottare nuovi strumenti.
23-27: Buona conoscenza dei metodi, capacità di applicare gli strumenti software visti durante il corso, buona capacità di analisi e di esposizione.
18-22: Sufficiente conoscenza dei metodi, sufficiente capacità di usare gli strumenti software visti durante il corso.

Metodi didattici

Lezioni teoriche accompagnate da numerose esercitazioni pratiche.
Materiale didattico curato del docente verrà distribuito durante il corso tramite la piattaforma Moodle. Durente il corso verrà usato il linguaggio di programmazione python e la libreria scikit-learn. Gli studenti sono incoraggiati a portare il loro laptop durante le lezioni.

Programma definitivo.

Data ultima modifica programma: 28/03/2025

Tipologia	Nome	Fornitore (Dominio)	Descrizione	Durata	Informativa
Necessario	_pk_id[*]	unive/WAI	*	30 giorni	Informativa
Necessario	_pk_ses[*]	unive/WAI	*	1 giorno	Informativa
Necessario	_pk_ref[*]	unive/WAI	*	6 mesi	Informativa
Necessario	_gsas	unive/google	Memorizza le preferenze dell'utente	3 mesi	Informativa
Necessario	_opensaml_req_cookie%	unive	Gestione autenticazione e SingleSignOn (shibboleth)	sessione	Informativa
Necessario	_shibsession[], _shibsstate[]	Unive.it (www.unive.it)	Mantiene i dati di sessione del SingleSignOn	Sessione	Informativa
Necessario	PHPSESSID	Unive.it (www.unive.it)	Identificatore univoco dell'utente per gli applicativi del sito	Sessione	Informativa
Necessario	cookie[*]	Unive.it (www.unive.it)	Memorizza le preferenze dell'utente sui cookie	1 mese	Informativa
Necessario	cookie	idp.unive.it	Memorizza le preferenze dell'utente sui cookie	1 mese	Informativa
Necessario	fe_typo_user	Unive.it (www.unive.it)	Identificatore univoco dell'utente per l'area riservata del sito	sessione	Informativa
Necessario	JSESSIONID	Unive.it (www.unive.it)	Utilizzato per creare le sessioni in area riservata	sessione	Informativa
Necessario	ADMCMD_prev	Unive.it (www.unive.it)	Utilizzato per la gestione degli accessi al cms typo3	sessione	Informativa
Necessario	unive.it	Unive.it (www.unive.it)	servono a registrare le preferenze sui cookies	6 mesi	Informativa
Necessario	noiframe	Unive.it (www.unive.it)	servono a registrare le preferenze sui cookies	6 mesi	Informativa
Google - Youtube	__Secure-1PAPISID	Google (google.com)	Utilizzato per finalità di targeting per costruire un profilo degli interessi dei visitatori del sito web al fine di mostrare pubblicità Google pertinente e personalizzata.	1 mese	Informativa
Google - Youtube	CONSENT	Google (google.com)	Utilizzato da google per memorizzare le preferenze dell'utente	17 anni	Informativa
Facebook - Pixel	Socialpix	Unive.it (www.unive.it)	Servono a registrare le preferenze sui cookiesc	6 mesi	Informativa Università Ca' Foscari
Facebook - Pixel	_fbp	Unive.it (www.unive.it)	Traccia gli utenti per il retargeting pubblicitario su Facebook	3 mesi	Informativa facebook