DATA WRANGLING AND VISUALISATION

Anno accademico
2026/2027 Programmi anni precedenti
Titolo corso in inglese
DATA WRANGLING AND VISUALISATION
Codice insegnamento
CT0661 (AF:521670 AR:301172)
Lingua di insegnamento
Inglese
Modalità
In presenza
Crediti formativi universitari
6
Livello laurea
Laurea
Settore scientifico disciplinare
SECS-S/01
Periodo
I Semestre
Anno corso
3
Sede
VENEZIA
L’insegnamento, parte delle attività a scelta per il curriculum ‘Data Science’ in Informatica, fornisce gli strumenti fondamentali per la gestione, manipolazione, visualizzazione e comunicazione di dati caratterizzati da vari gradi di complessità. Il corso mira a sviluppare competenze pratiche per affrontare sfide analitiche in ambito tecnologico, scientifico, biomedico ed economico. Attraverso questo percorso, lo studente acquisirà le basi metodologiche e operative necessarie per l’utilizzo di strumenti avanzati di Data Science.
La frequenza e la partecipazione alle attività formative proposte dal corso e lo studio individuale consentiranno agli studenti di:
1. (conoscenza e comprensione)
-- conoscere e comprendere i principali metodi per la gestione, manipolazione, visualizzazione e comunicazione di dati, con particolare attenzione al concetto di carico cognitivo e ai principi della percezione visiva;
2. (capacità di applicare conoscenza e comprensione)
-- descrivere e visualizzare dati caratterizzati da diversi gradi di complessità, scegliendo le metodologie più appropriate per trasformare i dati in narrazioni strutturate (storytelling);
-- utilizzare software statistici per la manipolazione, la sintesi e la rappresentazione grafica dei dati, gestendo l'intero processo dal dato grezzo al risultato finale;
3. (capacità di giudizio)
-- interpretare criticamente le analisi e le visualizzazioni prodotte, valutandone la coerenza, l'etica e l'efficacia comunicativa, e giustificando le scelte metodologiche e di design effettuate.
Conoscenze di base di calcolo delle probabilità a livello del corso di "Probabilità e Statistica" (https://www.unive.it/data/insegnamento/608540 ) e concetti fondamentali di programmazione strutturata.
1) Preparazione e trasformazione dei dati
- Il paradigma dei "Dati ordinati": principi di struttura e organizzazione dei dati.
- Trasformazione dei dati: operazioni relazionali, unione di dataset e flussi di elaborazione.
- Pulizia e qualità dei dati: valutazione della coerenza e gestione delle informazioni mancanti.
- Elaborazione delle stringhe: manipolazione del testo ed espressioni regolari.
- Gestione dei dati temporali: lavorare con date e orari.

2) Visualizzazione dei dati
- Principi di visualizzazione: fondamenti teorici e carico cognitivo.
- Attributi preattentivi: uso efficace di forme, colori e posizionamento spaziale.
- La "grammatica della grafica": un quadro teorico per la costruzione delle rappresentazioni visive.
- Design di grafici e annotazioni: modelli di progettazione per la chiarezza (rapporto dati-inchiostro).
- Integrità visiva: identificare ed evitare grafici fuorvianti.

3) Narrazione dei dati
- Strutturare una narrazione con i dati: dall'analisi grezza alla creazione di un filo conduttore efficace.
- Comunicare numeri e statistiche: rendere i dati accessibili a diverse tipologie di pubblico.
- Comunicazione del rischio: distinguere e presentare rischi assoluti e relativi.
- Giornalismo dei dati: buone pratiche, etica e casi di studio nella comunicazione pubblica.
K. Healy (2026). Data Visualization: A Practical Introduction. Princeton University Press, 2nd edition. https://socviz.co/
R. A. Irizarry (2025). Introduction to Data Science. Data Wrangling and Visualization with R, 2nd edition. Chapman & Hall. https://rafalab.dfci.harvard.edu/dsbook-part-1/
E. R. Tufte (2001). The Visual Display of Quantitative Information. Graphics Press
H. Wickham and G. Grolemund (2023). R for data science. O’Reilly Media, 2nd edition. https://r4ds.hadley.nz
L’esame si articola in due fasi:
1) Prova pratica al computer: agli studenti verrà fornito un dataset da analizzare utilizzando il software R. La prova copre l’intero ciclo di analisi: dalla manipolazione dei dati (data wrangling) alla creazione di visualizzazioni efficaci, fino alla sintesi dei risultati in una breve narrazione basata sui dati (storytelling).
2) Colloquio orale: i candidati che avranno superato la prova pratica sosterranno un colloquio volto a verificare l'originalità del lavoro svolto e la consapevolezza critica delle scelte metodologiche e comunicative effettuate.

La valutazione finale terrà conto della correttezza del codice, della qualità della visualizzazione e della capacità del candidato di esporre e giustificare le proprie scelte analitiche in modo autonomo.
scritto e orale

Il/la docente ha il dovere di vigilare affinché siano rispettate le regole di autenticità e originalità delle prove d'esame. Di conseguenza, nei casi in cui vi sia il sospetto di un comportamento irregolare, l'esame può prevedere un ulteriore approfondimento, contestuale alla prova d'esame, che potrà essere realizzato anche in modalità differente rispetto alle modalità sopra riportate.

Il risultato all'esame è valutato:
- sufficiente (18-22 punti), se lo studente dimostra una sufficiente conoscenza e comprensione dei metodi del corso, è in grado di applicarli e interpretarli adeguatamente e utilizza la terminologia tecnica correttamente;
- discreta (23-25 punti), se lo studente mostra una buona conoscenza e comprensione dei metodi del corso, li applica e interpreta in modo convincente e usa la terminologia tecnica con discreta accuratezza;
- buona (26-28 punti), se lo studente possiede una solida conoscenza e comprensione dei metodi del corso, li applica e interpreta in maniera del tutto convincente e impiega la terminologia tecnica in modo accurato;
- ottima (29-30 punti), se lo studente dimostra un'eccellente conoscenza e comprensione dei metodi del corso, li applica e interpreta in modo brillante e utilizza la terminologia tecnica con estrema accuratezza.

La lode è riservata agli studenti che, oltre ad aver ottenuto un risultato ottimo, dimostrano un impegno eccezionale nella svolgimento delle prove del corso, apportando contributi o spunti originali.
Lezioni teoriche frontali e interattive, integrate da esercitazioni pratiche, discussioni di casi studio e sessioni in laboratorio informatico. Il materiale didattico a cura del docente sarà reso disponibile durante il corso sulla piattaforma Moodle. Il software statistico utilizzato è R (www.r-project.org).

Questo insegnamento tratta argomenti connessi alla macroarea "Capitale umano, salute, educazione" e concorre alla realizzazione dei relativi obiettivi ONU dell'Agenda 2030 per lo Sviluppo Sostenibile

Programma definitivo.
Data ultima modifica programma: 09/04/2026