INFORMATION RETRIEVAL AND WEB SEARCH
- Anno accademico
- 2025/2026 Programmi anni precedenti
- Titolo corso in inglese
- INFORMATION RETRIEVAL AND WEB SEARCH
- Codice insegnamento
- CM0473 (AF:576828 AR:323815)
- Lingua di insegnamento
- Inglese
- Modalità
- In presenza
- Crediti formativi universitari
- 6
- Livello laurea
- Laurea magistrale (DM270)
- Settore scientifico disciplinare
- INF/01
- Periodo
- II Semestre
- Anno corso
- 1
- Sede
- VENEZIA
- Spazio Moodle
- Link allo spazio del corso
Inquadramento dell'insegnamento nel percorso del corso di studio
Il campo dell’Information Retrieval (IR) è notevolmente cambiato negli ultimi anni, con l'espansione del Web (World Wide Web), la nascita dei motori di ricerca Web, e l'avvento dei cloud per memorizzare dati e computare in maniera distribuita.
Durante l'ultimo decennio, l'ottimizzazione continua dell’efficienza e dell’efficacia del recupero delle informazioni ha portato i motori di ricerca web a raggiungere nuovi livelli di qualità. Il campo dell'IR è così passato da essere una disciplina prevalentemente accademica, a costituire la base degli strumenti preferiti da moltitudini di persone per accedere giornalmente alle informazioni di interesse. Il corso si propone di presentare i fondamenti scientifici di questo settore, e alcune problematiche pratiche.
Saranno inoltre presentati tecniche e algoritmi che ricadono nei campi dell'apprendimento automatico applicato a problemi di mining dei testi e di ordinamento dei risultati dei motori di ricerca, e dell'analisi della rete Web. In questo ambito verranno affrontati i recenti sviluppi legati all'AI generativa e ai Large Language Models (LLM), fino alla loro applicazione per la moderna Neural IR, dove i modelli neurali LLM sono utilizzati per il ranking e il retrieval.
Risultati di apprendimento attesi
- Conoscere e comprendere i modelli di retrieval, e i metodi e gli indici per processare le query
- Conoscere e comprendere le componenti di un motore di ricerca, e le tecniche e gli algoritmi per ottenere il giusto compromesso tra efficienza e efficacia del retrieval
- Conoscere e comprendere i metodi di analisi delle reti, incluso la rete Web
- Conoscere ambienti e librerie per lo sviluppo di software su larga scala, in grado di gestire ed elaborare di grandi moli di dati
- Conoscere ambienti di programmazione e algoritmi per l’Intelligenza Artificiale
- Conoscere e comprendere i metodi di apprendimento automatico per classificare e raggruppare testi, e per ordinare i risultati del retrieval
- Conoscere i potenziali risvolti etici, sociali e legali legati al trattamento sicuro delle informazioni
Capacità di applicare conoscenza e comprensione:
- Capacità di realizzare algoritmi per indicizzare e comprimere i testi e processare le query
- Capacità di scegliere e valutare i metodi di apprendimento automatico per classificare e raggruppare testi, e per ordinare i risultati del retrieval
- Capacità di individuare strumenti per l'analisi delle reti, incluso la rete Web
- Capacità di usare tecniche di programmazione avanzata negli ambiti del calcolo ad alte prestazioni, e algoritmi per gestire elevate moli di dati
- Capacità di verificare i requisiti funzionali e non funzionali di un sistema informatico di apprendimento automatico
- Capacità di di accedere alla letteratura scientifica per individuare potenziali soluzioni a problemi con metodi innovativi allo stato dell'arte
- Capacità di studiare la letteratura scientifica per individuare potenziali soluzioni a problemi con metodi innovativi allo stato dell'arte.
Prerequisiti
Conoscenze e competenze di Machine Learning
Contenuti
Rappresentazione vettoriale dei testi
Tecniche based di tokenizzazione
Indicizzazione e retrieval nello spazio vettoriale
Valutazione dei sistemi di IR
Neural IR
Web Search: Crawling, algoritmi basati sui link
Scalabilità dei sistemi di IR
Testi di riferimento
- Nicola Tonellotto. Neural IR. 2022: https://arxiv.org/pdf/2207.13443.pdf
- Jimmy Lin, Rodrigo Nogueira, and Andrew Yates. Pretrained Transformers for Text Ranking: BERT and Beyond. 2021: https://arxiv.org/pdf/2010.06467.pdf
- Note del docente e articoli scientifici.
Modalità di verifica dell'apprendimento
La seconda parte dell'esame, che contribuisce al 40% del vosto finale, riguarda la lettura critica e la presentazione pubblica di articoli scientifici sugli argomenti del corso. La prova mira a valutare la capacità analitica e il grado di comprensione del testo (range 60%), oltre alla sintesi e alla capacità di comunicazione (range 40%).
La seconda parte dell'esame può essere anche sostenuta sviluppando un progetto software la cui relazione scritta sarà discussa oralmente. In questo caso, il progetto verrà valutato secondo lo schema segunete: capacità analitica del candidato nell'affrontare il progetto (range 20%), efficienza del progetto software (50 %), completezza del report e dell'analizi sperimentale, oltre alla capacità di comunicazione (range 30%).
Modalità di esame
Il/la docente ha il dovere di vigilare affinché siano rispettate le regole di autenticità e originalità delle prove d'esame. Di conseguenza, nei casi in cui vi sia il sospetto di un comportamento irregolare, l'esame può prevedere un ulteriore approfondimento, contestuale alla prova d'esame, che potrà essere realizzato anche in modalità differente rispetto alle modalità sopra riportate.
Graduazione dei voti
28-30L: padronanza degli argomenti trattati a lezione, ottima padronanza della terminologia tecnica e ottime competenze acquisite.
26-27: buona conoscenza degli argomenti trattati a lezione, buone competenze e familiarità con la terminologia tecnica.
24-25: conoscenza non sempre approfondita degli argomenti trattati a lezione, discrete comptenze e uso non sempre corretto della terminologia tecnica.
22-23: conoscenza spesso superficiale degli argomenti trattati a lezione, competenze acquisite sufficienti, carenze sul piano della terminologia tecnica.
18-21: conoscenza a tratti lacunosa degli argomenti trattati a lezione, competenze appena sufficienti e teminologia tecnica carente.