IMAGE AND VIDEO UNDERSTANDING

Anno accademico
2025/2026 Programmi anni precedenti
Titolo corso in inglese
IMAGE AND VIDEO UNDERSTANDING
Codice insegnamento
CM0524 (AF:576777 AR:323783)
Lingua di insegnamento
Inglese
Modalità
In presenza
Crediti formativi universitari
6
Livello laurea
Laurea magistrale (DM270)
Settore scientifico disciplinare
INF/01
Periodo
II Semestre
Anno corso
1
Sede
VENEZIA
Il corso si propone di fornire una introduzione ai principi, alle tecniche e alle principali applicazioni nell'ambito dell'analisi e comprensione automatica di immagini e video.
1. Conoscenza e comprensione
1.1. acquisire i modelli principali e gli algoritmi di analisi di immagini e video

2. Capacità di applicare conoscenza e comprensione
2.1. saper applicare i modelli studiati a problemi reali
2.2. sapere valutare criticamente le prestazioni ed il comportamento di un modello applicato ad un problema concreto

3. Capacità di giudizio
3.1. sapere comprendere quali caratteristiche dei vari modelli studiati meglio si adattano ad un problema dato
3.2. saper valutare criticamente le caratteristiche teoriche dei modelli proposti;
Familiarità con i concetti fondamentali dell'analisi matematica, dell'algebra lineare e della statistica. La conoscenza del linguaggio Python e della libreria PyTorch sono consigliate.
Neural Network Models for Images and Video:
- Artificial Neural Networks (training, tricks, optimizers)
- Convolutional Neural Networks
- Transformer Architectures
- Graph Neural Networks

Image Analysis:
- Classification
- Segmentation
- Object Detection

Video Understanding:
- Video Classification
- Video Object Segmentation
- Object Tracking

Human-Centered Computer Vision:
- Person detection
- Face detection
- Pose Estimation
- Person Re-Identification
- Trajectory Forecasting
- Action Recognition
- Group Detection

Generative AI:
- Auto Encoders & Variational Autoencoders
- GANS
- Diffusion Models

Advanced Topics (tentative):
- Active Learning
- Anomaly Detection
- Multimodal Deep Learning
- Implicit Representation
- Scene Understanding
- R. Szeliski, Computer Vision: Algorithms and Applications. Springer.

- D. Forsyth and J. Ponce. Computer Vision: A modern Approach. Pearson.

- I. Goodfellow, Y. Bengio and A. Courville. Deep Learning. MIT Press
L'esame consiste in una prova orale (70% del voto finale) e nella discussione di un progetto (30% del voto finale) concordato preventivamente con il docente.
orale
A. punteggi nella fascia 18-22 verranno attribuiti in presenza di:
- sufficiente conoscenza e capacità di strutturare il progetto;
- limitata capacità di motivare le scelte implementative;
- sufficienti abilità comunicative, specie in relazione all'utilizzo del linguaggio specifico che attiene ai temi del corso;

B. punteggi nella fascia 23-26 verranno attribuiti in presenza di:
- discreta conoscenza e capacità di strutturare il progetto;
- discreta capacità di raccogliere e/o interpretare i dati, proponendo soluzioni implementative efficaci;
- discrete abilità comunicative, specie in relazione all'utilizzo del linguaggio specifico che attiene ai temi del corso;

C. punteggi nella fascia 27-30 verranno attribuiti in presenza di:
- buona o ottima conoscenza e capacità di strutturare il progetto;
- buona o ottima capacità di raccogliere e/o interpretare i dati, proponendo soluzioni implementative innovative;
- abilità comunicative pienamente appropriate, specie in relazione all'utilizzo del linguaggio specifico che attiene ai temi del corso.

D. la lode verrà attribuita in presenza di conoscenza e capacità di comprensione applicata in riferimento al programma, capacità di giudizio e abilità comunicative, eccellenti.
Presentazione powerpoint e lavagna.
Per favorire uno studio "attivo" degli argomenti trattati, lo studente sviluppera un semplice progetto, concordato con il docente, che sara poi oggetto di discussione in sede di esame.
Programma definitivo.
Data ultima modifica programma: 08/06/2025