INFORMATION RETRIEVAL AND WEB SEARCH

Anno accademico
2025/2026 Programmi anni precedenti
Titolo corso in inglese
INFORMATION RETRIEVAL AND WEB SEARCH
Codice insegnamento
CM0473 (AF:576828 AR:323815)
Lingua di insegnamento
Inglese
Modalità
In presenza
Crediti formativi universitari
6
Livello laurea
Laurea magistrale (DM270)
Settore scientifico disciplinare
INF/01
Periodo
II Semestre
Anno corso
1
Sede
VENEZIA
Spazio Moodle
Link allo spazio del corso
Il corso è obbligatorio all'interno del curriculum Artificial Intelligence and Data Engineering (AIDE), e introduce lo studente ai temi che riguardano l'Information Retrieval e il Web Search.
Il campo dell’Information Retrieval (IR) è notevolmente cambiato negli ultimi anni, con l'espansione del Web (World Wide Web), la nascita dei motori di ricerca Web, e l'avvento dei cloud per memorizzare dati e computare in maniera distribuita.
Durante l'ultimo decennio, l'ottimizzazione continua dell’efficienza e dell’efficacia del recupero delle informazioni ha portato i motori di ricerca web a raggiungere nuovi livelli di qualità. Il campo dell'IR è così passato da essere una disciplina prevalentemente accademica, a costituire la base degli strumenti preferiti da moltitudini di persone per accedere giornalmente alle informazioni di interesse. Il corso si propone di presentare i fondamenti scientifici di questo settore, e alcune problematiche pratiche.
Saranno inoltre presentati tecniche e algoritmi che ricadono nei campi dell'apprendimento automatico applicato a problemi di mining dei testi e di ordinamento dei risultati dei motori di ricerca, e dell'analisi della rete Web. In questo ambito verranno affrontati i recenti sviluppi legati all'AI generativa e ai Large Language Models (LLM), fino alla loro applicazione per la moderna Neural IR, dove i modelli neurali LLM sono utilizzati per il ranking e il retrieval.
Conoscenza e comprensione:

- Conoscere e comprendere i modelli di retrieval, e i metodi e gli indici per processare le query
- Conoscere e comprendere le componenti di un motore di ricerca, e le tecniche e gli algoritmi per ottenere il giusto compromesso tra efficienza e efficacia del retrieval
- Conoscere e comprendere i metodi di analisi delle reti, incluso la rete Web
- Conoscere ambienti e librerie per lo sviluppo di software su larga scala, in grado di gestire ed elaborare di grandi moli di dati
- Conoscere ambienti di programmazione e algoritmi per l’Intelligenza Artificiale
- Conoscere e comprendere i metodi di apprendimento automatico per classificare e raggruppare testi, e per ordinare i risultati del retrieval
- Conoscere i potenziali risvolti etici, sociali e legali legati al trattamento sicuro delle informazioni

Capacità di applicare conoscenza e comprensione:

- Capacità di realizzare algoritmi per indicizzare e comprimere i testi e processare le query
- Capacità di scegliere e valutare i metodi di apprendimento automatico per classificare e raggruppare testi, e per ordinare i risultati del retrieval
- Capacità di individuare strumenti per l'analisi delle reti, incluso la rete Web
- Capacità di usare tecniche di programmazione avanzata negli ambiti del calcolo ad alte prestazioni, e algoritmi per gestire elevate moli di dati
- Capacità di verificare i requisiti funzionali e non funzionali di un sistema informatico di apprendimento automatico
- Capacità di di accedere alla letteratura scientifica per individuare potenziali soluzioni a problemi con metodi innovativi allo stato dell'arte
- Capacità di studiare la letteratura scientifica per individuare potenziali soluzioni a problemi con metodi innovativi allo stato dell'arte.
Strutture dati e algoritmi, concetti base di algebra lineare e teoria della probabilità.
Conoscenze e competenze di Machine Learning
Modelli base di IR
Rappresentazione vettoriale dei testi
Tecniche based di tokenizzazione
Indicizzazione e retrieval nello spazio vettoriale
Valutazione dei sistemi di IR
Neural IR
Web Search: Crawling, algoritmi basati sui link
Scalabilità dei sistemi di IR
- Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze. Introduction to Information Retrieval. Cambridge University Press. 2008: https://nlp.stanford.edu/IR-book/
- Nicola Tonellotto. Neural IR. 2022: https://arxiv.org/pdf/2207.13443.pdf
- Jimmy Lin, Rodrigo Nogueira, and Andrew Yates. Pretrained Transformers for Text Ranking: BERT and Beyond. 2021: https://arxiv.org/pdf/2010.06467.pdf
- Note del docente e articoli scientifici.
L'esame è diviso in due parti. La prima parte è scritta, e contribuisce al 60% del voto finale. Essa mira a testare con domande aperte le conoscenze e la capacità di applicare e valutare soluzioni in contesti applicativi dell'information retrieval moderna. La valutazione della prima parte dell'esame è formulata secondo questo schema: (1) conoscenza e capacità di applicare la conoscenza nelle risposte fornite (range 40%), (2) dettaglio e completezza delle risposte (range 40%), (3) capacità di esposizione (range 20%). Dopo l'esame scritto, seguirà un breve esame orale per discutere ulteriormente alcune delle risposte e confermare la comprensione dell'argomento trattato.

La seconda parte dell'esame, che contribuisce al 40% del vosto finale, riguarda la lettura critica e la presentazione pubblica di articoli scientifici sugli argomenti del corso. La prova mira a valutare la capacità analitica e il grado di comprensione del testo (range 60%), oltre alla sintesi e alla capacità di comunicazione (range 40%).
La seconda parte dell'esame può essere anche sostenuta sviluppando un progetto software la cui relazione scritta sarà discussa oralmente. In questo caso, il progetto verrà valutato secondo lo schema segunete: capacità analitica del candidato nell'affrontare il progetto (range 20%), efficienza del progetto software (50 %), completezza del report e dell'analizi sperimentale, oltre alla capacità di comunicazione (range 30%).
scritto e orale

Il/la docente ha il dovere di vigilare affinché siano rispettate le regole di autenticità e originalità delle prove d'esame. Di conseguenza, nei casi in cui vi sia il sospetto di un comportamento irregolare, l'esame può prevedere un ulteriore approfondimento, contestuale alla prova d'esame, che potrà essere realizzato anche in modalità differente rispetto alle modalità sopra riportate.

Griglia di valutazione:
28-30L: padronanza degli argomenti trattati a lezione, ottima padronanza della terminologia tecnica e ottime competenze acquisite.
26-27: buona conoscenza degli argomenti trattati a lezione, buone competenze e familiarità con la terminologia tecnica.
24-25: conoscenza non sempre approfondita degli argomenti trattati a lezione, discrete comptenze e uso non sempre corretto della terminologia tecnica.
22-23: conoscenza spesso superficiale degli argomenti trattati a lezione, competenze acquisite sufficienti, carenze sul piano della terminologia tecnica.
18-21: conoscenza a tratti lacunosa degli argomenti trattati a lezione, competenze appena sufficienti e teminologia tecnica carente.
Lezioni teoriche ed esercizi.
Programma definitivo.
Data ultima modifica programma: 27/02/2026