Data Mining and Information Retrieval

La ricerca condotta dal laboratorio mira allo sviluppo di nuovi modelli, algoritmi e strutture dati per l'estrazione e la rappresentazione della conoscenza e per la gestione efficiente dell'informazione. Tra i principali temi di ricerca:

  • Data and Web Mining;
  • Explainable AI;
  • Mobility Data Science;
  • Distributed and Parallel Data-Intensive Algorithms;
  • Compressed Data Structures for Strings and Graphs.
Gruppo di ricerca

Collaboratori

  • Francesco Busolin (Dottorando)
  • Federico Marcuzzi (Dottorando)
  • Alberto Veneri (Dottorando)

Sito web: https://sites.google.com/unive.it/dmir

Collaborazioni

Pubblicazioni

  • Claudio Lucchese, Franco Maria Nardini, Salvatore Orlando, Raffaele Perego, Nicola Tonellotto, Rossano Venturini: QuickScorer: A Fast Algorithm to Rank Documents with Additive Ensembles of Regression Trees. SIGIR 2015: 73-82. (Best Paper) (ACM Notable Article)
  • Travis Gagie, Gonzalo Navarro, and Nicola Prezza. Fully functional suffix trees and optimal text searching in BWT-runs bounded space. Journal of the ACM (JACM). 2020 Jan 15;67(1):1-54. https://doi.org/10.1145/3375890
  • B. Brandoli, A. Raffaetà, M. Simeoni, P. Adibi, F. K. Bappee, F. Pranovi, G. Rovinelli, E. Russo, C. Silvestri, A. Soares, S. Matwin. From multiple aspect trajectories to predictive analysis: a case study on fishing vessels in the Northern Adriatic sea. GeoInformatica, pp. 1--29, March 2022
  • Stefano Calzavara, Claudio Lucchese, Gabriele Tolomei, Seyum Assefa Abebe, Salvatore Orlando: Treant: training evasion-aware decision trees. Data Min. Knowl. Discov. 34(5): 1390-1420 (2020)
  • Seyum Assefa Abebe, Claudio Lucchese, Salvatore Orlando: EiFFFeL: Enforcing Fairness in Forests by Flipping Leaves. ACM SAC 2021
  • Giulio Ermanno Pibiri. and Rossano Venturini. "Techniques for Inverted Index Compression". ACM Computing Surveys. 53, 6, Article 125, 2021, 36 pages. https://doi.org/10.1145/3415148

Riconoscimenti

  • 2015 - Miglior Paper alla conferenza ACM SIGIR su "Research & Development on Information Retrieval"

Progetti di ricerca

REGINDEX - Compressed Indexes for Regular Languages with Applications to Computational Pan-genomics

Il progetto di ricerca, finanziato dal programma Horizon Europe con un ERC starting grant, ha come obiettivo lo studio di metodi algoritmici efficienti per comprimere e organizzare grosse quantità di dati strutturati in modo da accelerare ricerche all'interno di essi. Ad alto livello, l'idea è molto simile al principio di funzionamento di un comune dizionario: è decisamente più facile cercare un termine in un dizionario piuttosto che in un libro perché il primo contiene termini ordinati alfabeticamente. Il progetto REGINDEX estende questa semplice idea a dati molto più complessi: grafi etichettati (o, equivalentemente, linguaggi regolari). Mentre le frasi in un libro sono formate da parole consecutive, in un grafo sono ammessi "salti" tra parole (anche molto distanti tra loro). Sebbene questo renda la ricerca di frasi molto più complicata, con il progetto si dimostrerà che l’idea dell’ordinamento continua a funzionare. Le tecniche sviluppate troveranno applicazioni immediate nella progettazione di algoritmi per cercare mutazioni all'interno di insiemi di genomi. Il genoma di due persone non è mai esattamente identico. Le differenze esistenti tra tutti i genomi umani possono in effetti essere modellate come un enorme grafo etichettato: un grafo pangenomico. A questo punto, la ricerca di una particolare mutazione corrisponde proprio alla ricerca di una "frase" (un cammino) all'interno di questo grafo.

MASTER - Multiple aspect trajectories representation and analysis

Multiple ASpects TrajEctoRy management and analysis - (2018-2022) è un progetto Marie Sklodowska-Curie RISE (Research and Innovation Staff Exchange), che coinvolge 10 partner internazionali e prevede il rafforzamento di un network tematico internazionale. Il progetto è motivato dal crescente numero di applicazioni, dalla telefonia ai social media, ai serivizi di sorveglianza terrestre, aerea e marittina, e dalla conseguente disponibilità di enormi quantità di dati spazio-temporali di oggetti in movimento. L'obiettivo è lo sviluppo di metodi per costruire, gestire e analizzare traiettorie olistiche, ovvero sequenze di punti spazio-temporali arricchite con informazioni semantiche provenienti da fonti di dati eterogenee, quali social media, Linked Open Data, basi di conoscenza. La disponibilità di traiettorie olistiche, nei vari contesti citati, permette, per esempio, l'individuazione e il monitoraggio delle diverse tipologie di flussi turistici, la definizione di itinerari personalizzati in base agli interessi dei turisti, l'acquisizione di conoscenza sui pattern di pesca per migliorare la tutela dell'ambiente, l'identificazione delle rotte dei migranti e il rilevamento della presenza di barche sospette.

Sito Web: http://www.master-project-h2020.eu/

Last update: 17/04/2024