ANALISI PREDITTIVA

Anno accademico 2019/2020 Programmi anni precedenti
Titolo corso in inglese PREDICTIVE ANALYTICS
Codice insegnamento CT0429 (AF:248866 AR:136544)
Modalità Convenzionale
Crediti formativi universitari 6
Livello laurea Laurea
Settore scientifico disciplinare SECS-S/01
Periodo I Semestre
Anno corso 3
Sede VENEZIA
Inquadramento dell'insegnamento nel percorso del corso di studio
Questo corso fa parte delle attività educative interdisciplinari del curriculum Data Science del Corso di laurea in Informatica. Il corso è progettato per fornire una panoramica di diversi strumenti disponibili per la modellazione predittiva, a livello intermedio.
Questa vista copre i concetti principali nei modelli lineari e nei modelli lineari generalizzati, e più superficialmente l'approccio basato sulla regressione non parametrica. L'attenzione è rivolta a fornire le principali informazioni sulle basi statistiche / matematiche dei modelli e sulla dimostrazione dell'effettiva implementazione dei metodi attraverso l'uso di software statistici. Questo risultato è ottenuto da una miscela di teoria e codice riproducibile. Vengono anche presentati esempi di dati reali e casi di studio.
Risultati di apprendimento attesi
* Competenze generali

Identificare le tecniche di analisi dei dati più appropriate per ogni problema e sapere come applicare le tecniche per l'analisi, la progettazione e la soluzione dei problemi.
Applicare tecniche di elaborazione dati a dati reali anche di grande dimensione
Essere in grado di generare nuove idee e anticipare nuove situazioni, nei contesti dell'analisi dei dati e del processo decisionale.

* Competenze specifiche

Utilizzare la conoscenza avanzata dell'algebra lineare per la sua applicazione nei metodi di analisi dei dati.
Applicare la conoscenza della programmazione e dei database su cui basare l'insegnamento di tecnologie e metodi avanzati per il trattamento dei dati.
Utilizzare i risultati classici di inferenza e regressione come base per metodi avanzati di predizione e classificazione.
Identificare e selezionare gli strumenti software appropriati per il trattamento dei dati.
Identificare correttamente il tipo di problema statistico corrispondente a determinati obiettivi e dati, così come le metodologie più appropriate da applicare agli obiettivi e ai dati.
Conoscere come progettare specifici sistemi di elaborazione dati per un tipo di problema statistico (classificazione, stima, previsione, ecc.)
Prerequisiti
Si assume che gli studenti abbiano raggiunto gli obiettivi formativi dei corsi
Calcolo 1
Calcolo 2
Algebra
Probabilità e Statistica
Analisi dei dati
anche senza avere necessariamente superato l’esame.
Contenuti
1. Introduzione
1.1 Panoramica del corso
1.2 Che cos'è la modellazione predittiva ?
1.3 Notazione generale e background

2. Modelli lineari I: modello lineare multiplo
2.1 Formulazione del modello e minimi quadrati
2.2 Presupposti del modello
2.3 Inferenza per i parametri del modello
2.4 Previsione
2.5 ANOVA
2.6 Modello adatto

3. Modelli lineari II: selezione del modello, estensioni e diagnostica
3.1 Selezione del modello
3.2 Uso di predittori qualitativi
3.3 Relazioni non lineari
3.4 Diagnostica del modello
3.5 Tecniche di riduzione delle dimensioni

4. Modelli lineari III: shrinkage e big data
4.1 Shrinkage
4.2 Considerazioni sui big data

5. Modelli lineari generalizzati
5.1 Formulazione e stima del modello
5.2 Inferenza per i parametri del modello
5.3 Previsione
5.4 Devianza
5.5 Selezione del modello
5.6 Diagnostica del modello
5.7 Shrinkage

6. Stima non parametrica
6.1 Stima della densità
6.2 Stima della regressione


Il programma è soggetto a piccole modifiche a causa dello sviluppo del corso e / o del calendario accademico.
Testi di riferimento
Julian J. Faraway, 2014. Linear Models with R Second Edition, Chapman and Hall/CRC
Julian J. Faraway, 2016. Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric Regression Models, Second Edition Chapman and Hall/CRC
James, Gareth, Daniela Witten, Trevor Hastie, and Robert Tibshirani. 2013. An Introduction to Statistical Learning. Springer
Modalità di verifica dell'apprendimento
La verifica dell'apprendimento avviene tramite una prova scritta. La prova presenta quattro esercizi scelti in modo da misurare
1. le conoscenze della teoria degli argomenti del corso,
2. la capacità di applicare la teoria per risolvere problemi reali.
Il punteggio massimo per ogni esercizio è 8 punti. Il punteggio finale è dato dalla somma dei punteggi dei quattro esercizi. Un punteggio complessivo che supera 30 punti corrisponde alla lode. Durante l’esame scritto *non* è ammesso l’uso di libri, appunti o supporti elettronici.
Metodi didattici
Le lezioni consistono in un misto di teoria (descrizione dei metodi) e pratica (implementazione e uso pratico dei metodi). L'implementazione dei metodi è fatta con il linguaggio statistico R.
Gli studenti sono incoraggiati a portare il proprio laptop e a provare il codice durante alcune parti delle lezioni.
Lingua di insegnamento
Italiano
Modalità di esame
scritto
Programma definitivo.
Data ultima modifica programma
15/04/2019