LEARNING WITH MASSIVE DATA

Anno accademico: 2025/2026 Programmi anni precedenti

Titolo corso in inglese: LEARNING WITH MASSIVE DATA

Codice insegnamento: CM0622 (AF:576772 AR:323779)

Lingua di insegnamento: Inglese

Modalità: In presenza

Crediti formativi universitari: 6 su 12 di ALGORITHMS AND LEARNING OVER MASSIVE DATA

Livello laurea: Laurea magistrale (DM270)

Settore scientifico disciplinare: ING-INF/05

Periodo: II Semestre

Anno corso: 1

Sede: VENEZIA

Spazio Moodle: Link allo spazio del corso

Inquadramento dell'insegnamento nel percorso del corso di studio

L'obiettivo dell'insegnamento è di dare allo studente le conoscenze necessarie per la progettazione e lo sviluppo di algoritmi di analisi di grandi volumi di dati in ambienti altamente paralleli (multi-core) e distribuiti (cluster).
Si approfondiranno in particolare gli aspetti relativi alla scalabilità e alla performance del software, investigando diversi ambienti di sviluppo e acquisendo padronanza di algoritmi paralleli di data analysis e machine learning.
Alcuni casi di studio verranno scelti tra temi quali data mining, web search, e graph mining.

Risultati di apprendimento attesi

Il corso illustra le tecniche impiegate per risolvere problemi di analisi su grandi volumi di dati con algoritmi paralleli.
Gli studenti acquisiscono conoscenze sulle architetture di calcolo parallelo, sui paradigmi e sugli ambienti di programmazione parallela, e sulla progettazione di algoritmi per dataset massivi.

Gli studenti raggiungeranno i seguenti risultati di apprendimento:

i) Conoscenza e comprensione: comprensione dei concetti base del multi-threading e del calcolo distribuito; comprensione dei costi di un programma di analisi di dataset massivi parallelo e non (cache, memory) e loro modellazione; comprensione dei pattern di progettazione di algoritmi per dataset massivi.

ii) Capacità di applicare conoscenza e comprensione: capacità di progettare e sviluppare algoritmi per dataset massivi; capacità di stimare e misurare la performance di un algoritmo parallelo; capacità di sviluppare algoritmi per dataset massivi tramite l'uso dei pattern di programmazione parallela.

iii) Capacità di giudizio: capacità di analizzare e confrontare differenti metodi o algoritmi e di scegliere la più appropriata ad un dato problema sulla base di un modello di costo

iv) Abilità comunicative: saper esporre in maniera chiara e corretta i risultati sperimentali di una analisi comparativa tra differenti soluzioni e algoritmi.

v) Capacità di apprendimento: saper utilizzare in autonomia nuove tecniche e strumenti.

Prerequisiti

Lo studente deve possedere una buona conoscenza di architettura degli elaboratori, algoritmi, programmazione C/C++/Python, sistemi operativi. Un breve tutorial C++ per ha già conoscenze di Python è disponibile alla pagina https://runestone.academy/ns/books/published/cpp4python/index.html .

Contenuti

- Cache-Aware and cache-oblivious Algorithms
- Thread Parallelism
- Large-scale parallelism
- Learning to Rank
- Graph Mining and Link Analysis

Testi di riferimento

Note del docente.

Schmidt, Álvaro Gonzalez-Martinez, Hund, Schlarb. Parallel Programming, Concepts and Practice. Morgan Kaufmann. 2018

Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman. Mining of Massive Datasets 3rd Edition. Cambridge University Press 2020.

Modalità di verifica dell'apprendimento

La verifica dell'apprendimento avviene tramite una prova scritta e la discussione orale di due assignments laboratoriali.

La prova scritta consiste in domande di carattere teorico e brevi esercizi di carattere pratico. La prova scritta valuta il raggiungimento dei risultati di apprendimento i) ii) e iii).

Ciascun assignments richiede di sviluppare un algoritmo per uno specifico problema di analysis di dataset massivi. Lo studente deve scegliere e motivare la soluzione secondo lui più opportuna e consegnare un report che verrà discusso con il docente.
Gli assignments valutano il raggiungimento dei risultati di apprendimento iii) iv) e v).

La gradazione del voto è data da 70% prova scritta e 30% assignments.

Modalità di esame

scritto e orale

Il/la docente ha il dovere di vigilare affinché siano rispettate le regole di autenticità e originalità delle prove d'esame. Di conseguenza, nei casi in cui vi sia il sospetto di un comportamento irregolare, l'esame può prevedere un ulteriore approfondimento, contestuale alla prova d'esame, che potrà essere realizzato anche in modalità differente rispetto alle modalità sopra riportate.

Graduazione dei voti

La gradazione del voto è data da 70% prova scritta e 30% assignments.

28-30L: Conoscenza approfondita dei metodi, ottima analisi e valutazione. Capacità di adottare nuovi strumenti software.
23-27: Buona padronanza dei temi trattati a lezione, buona chiarezza espositiva e buona capacità di applicazione ai casi di studio.
18-22: Sufficiente conoscenza dei temi trattati a lezione, scarsa padronanza della terminologia e sufficiente capacità di applicazione ai casi di studio.

Metodi didattici

Lezioni teoriche e casi di studio.

Programma definitivo.

Data ultima modifica programma: 28/03/2025

Tipologia	Nome	Fornitore (Dominio)	Descrizione	Durata	Informativa
Necessario	_pk_id[*]	unive/WAI	*	30 giorni	Informativa
Necessario	_pk_ses[*]	unive/WAI	*	1 giorno	Informativa
Necessario	_pk_ref[*]	unive/WAI	*	6 mesi	Informativa
Necessario	_gsas	unive/google	Memorizza le preferenze dell'utente	3 mesi	Informativa
Necessario	_opensaml_req_cookie%	unive	Gestione autenticazione e SingleSignOn (shibboleth)	sessione	Informativa
Necessario	_shibsession[], _shibsstate[]	Unive.it (www.unive.it)	Mantiene i dati di sessione del SingleSignOn	Sessione	Informativa
Necessario	PHPSESSID	Unive.it (www.unive.it)	Identificatore univoco dell'utente per gli applicativi del sito	Sessione	Informativa
Necessario	cookie[*]	Unive.it (www.unive.it)	Memorizza le preferenze dell'utente sui cookie	1 mese	Informativa
Necessario	cookie	idp.unive.it	Memorizza le preferenze dell'utente sui cookie	1 mese	Informativa
Necessario	fe_typo_user	Unive.it (www.unive.it)	Identificatore univoco dell'utente per l'area riservata del sito	sessione	Informativa
Necessario	JSESSIONID	Unive.it (www.unive.it)	Utilizzato per creare le sessioni in area riservata	sessione	Informativa
Necessario	ADMCMD_prev	Unive.it (www.unive.it)	Utilizzato per la gestione degli accessi al cms typo3	sessione	Informativa
Necessario	unive.it	Unive.it (www.unive.it)	servono a registrare le preferenze sui cookies	6 mesi	Informativa
Necessario	noiframe	Unive.it (www.unive.it)	servono a registrare le preferenze sui cookies	6 mesi	Informativa
Google - Youtube	__Secure-1PAPISID	Google (google.com)	Utilizzato per finalità di targeting per costruire un profilo degli interessi dei visitatori del sito web al fine di mostrare pubblicità Google pertinente e personalizzata.	1 mese	Informativa
Google - Youtube	CONSENT	Google (google.com)	Utilizzato da google per memorizzare le preferenze dell'utente	17 anni	Informativa
Facebook - Pixel	Socialpix	Unive.it (www.unive.it)	Servono a registrare le preferenze sui cookiesc	6 mesi	Informativa Università Ca' Foscari
Facebook - Pixel	_fbp	Unive.it (www.unive.it)	Traccia gli utenti per il retargeting pubblicitario su Facebook	3 mesi	Informativa facebook