Gestire i dati della ricerca 
Supporto ricerca SBA

Nell’impressionante quantità di dati che ogni secondo viene generata da uomini e  macchine, i dati della ricerca acquistano un valore particolare, legato alla possibilità di estrarre informazioni e alla loro riusabilità.
Dati della ricerca sono le informazioni in qualsiasi formato (digitale e/o cartaceo, numerico, descrittivo, audio o video), raccolte e utilizzate durante un’attività di ricerca, necessarie a validare i risultati raggiunti. A titolo di esempio (non esaustivo): numeri, file, risultati di esperimenti (positivi o negativi), osservazioni, fonti edite e inedite, riferimenti bibliografici, software e codici, testi, video, suoni, interviste.
A seconda del grado di elaborazione, si distinguono:

  1. raw o primary data: dati grezzi (note, immagini, video, sondaggi, interviste, file di computer)
  2. processed data: dati analizzati (rapporti, documenti, tabelle)
  3. shared data: dati condivisi
  4. published data: dati resi pubblici

La gestione dei dati è diventata un’attività imprescindibile per ogni ricercatore.

Research Data Management (RDM)

Gestire i dati della ricerca - o Research Data Management - significa organizzare il lavoro di raccolta e la conservazione dei dati per assicurare che siano adeguatamente preservati, rintracciabili e comprensibili anche a distanza di tempo o da parte di chi non ha partecipato alla ricerca.

In questo modo la conoscenza può circolare e favorire l’innovazione. Il Research Data Management è un’attività operativa che dev’essere supportata dalla governance (locale e nazionale) con l’adozione di policy che definiscono ruoli e attività a carico dell’istituzione e del ricercatore secondo le linee guida della Commissione europea.

Open data

Sempre più spesso i programmi di finanziamento della ricerca chiedono che i dati della ricerca siano resi disponibili per consentire una validazione delle pubblicazioni scientifiche.
Anche la Commissione Europea incoraggia a rendere aperti e disponibili i dati della ricerca secondo il principio “as open as possible, as closed as necessary” (Data management).

Seppur viene incoraggiata l’apertura, è necessario tenere chiusi i dati (anche temporaneamente) in alcuni casi:

  • protezione dei dati per motivi di sicurezza
  • tutela della privacy (dati sensibili)
  • possibile sfruttamento industriale o commerciale (brevetti)
  • altri motivi legittimi da giustificare

I dati sono resi open tramite:

  • l’archiviazione in open e trusted repositories;
  • l’archiviazione della documentazione necessaria alla comprensione degli strumenti e dei software utilizzati per generare ed elaborare i dati (read-me file) in modo da garantirne la  comprensione nel tempo e consentirne la decodificazione;
  • il cross-linking che lega i dati alle relative pubblicazioni scientifiche (tramite l’inserimento tra i metadati della pubblicazione del PID del dataset)

L’accesso aperto ai dati della ricerca scientifica:

  • favorisce il progresso della conoscenza
  • aumenta la riproducibilità delle ricerche
  • riduce le duplicazioni
  • incrementa la trasparenza

I dati in sé non sono opere dell’ingegno e non sono soggetti al diritto d’autore. Se non ci sono giustificati motivi per tenerli chiusi, i dati vanno resi pubblici, ri-utilizzati o ri-distribuiti senza restrizioni con licenze per il libero dominio o che prevedano l’obbligo di attribuzione (CC-BY o CC 0, o equivalenti).
Per maggiori informazioni consultate la sezione How do I license my research data? del portale OpenAIRE.

La rimozione di barriere legali e tecnologiche rende possibile acquisire, conservare, modificare e condividere moltissimi dati con un impatto positivo sulla conoscenza, sull’economia e sulla società.
Per ottenere questo risultato i dati della ricerca devono essere gestiti secondo i principi FAIR (Findable, Accessible, Interoperable, Reusable).

FAIR Data

L’applicazione dei principi FAIR prevede che i dati siano:

  1. Findable: rintracciabili grazie a identificatori persistenti unici (DOI) e metadati costruiti secondo standard internazionali (Dublin CoreDCC guide for Metadata standards ecc.).
  2. Accessible: dati e metadati devono poter essere accessibili dagli esseri umani e dalle macchine mediante il deposito in archivi o repository e l'uso di protocolli standard. Almeno i metadati devono essere disponibili anche quando i dati non sono open access. Accessibile non significa infatti “dato aperto” (possono essere previsti sistemi di autenticazione e autorizzazione).
  3. Interoperable: i dati dovrebbero essere salvati in formati non proprietari, non compressi, non criptati, con standard documentati, in grado di essere elaborati da sistemi operativi con linguaggi conformi ai principi FAIR.
  4. Reusable: per poter essere riusabili, i dati devono essere corredati da una licenza di utilizzo (CC-BY o CC0) e una documentazione con le informazioni relative alla loro formazione.

Per maggiori informazioni sui principi FAIR, con esempi e approfondimenti, e per autoverificare se i vostri dati sono FAIR, consultate i siti GO-FAIRFAIR assessment tool e FAIR Aware.

La compatibilità dei dati prodotti dalla ricerca con i principi FAIR è garantita dalla corretta elaborazione del Data Management Plan (DMP).

Data Management Plan

I progetti di ricerca finanziati da enti (pubblici e privati) che producono dati (aperti o chiusi) prevedono la redazione di un Data Management Plan (DMP), strumento operativo che descrive le modalità di gestione, valorizzazione e preservazione nel tempo dei dati durante e dopo la ricerca, le modalità di riuso e diffusione, le eventuali implicazioni etiche del progetto.

Il piano di gestione dei dati e dei fondi ricevuti:

  • è richiesto dagli enti finanziatori, tra cui la Commissione Europea (es. programma Horizon Europe) che prevede la sua consegna entro il 6° mese dal finanziamento
  • dev’essere elaborato in fase di progettazione della ricerca
  • è un living document che va modificato o integrato ogni volta che intervengano cambiamenti nella natura dei dati o nelle modalità di raccolta e gestione
  • va condiviso con tutti i ricercatori impegnati nella ricerca
  • deve essere sintetico e preciso

Il DMP è quindi uno strumento che serve per programmare e comunicare, dall’inizio dell’attività, la raccolta, conservazione, riuso e divulgazione dei dati, unitamente ai metadati associati. Quanto più i metadati saranno ricchi, tanto maggiore sarà la discoverability del dato. 

Il DMP è redatto dal principal investigator sotto forma di template (come quelli proposti da tool online DCC, Data Stewardship Wizard, easyDMP, Argos di OpenAiRE) e rappresenta l’intero ciclo di vita del dato assicurandone tracciabilità, disponibilità, autenticità, citabilità, conservazione appropriata, adesione a parametri legali chiari e l’adozione di misure di sicurezza adeguate, che ne assicurano e disciplinano gli usi successivi.

È opportuno consultare il comitato etico quando il progetto di ricerca prevede attività che prevedano la raccolta di dati personali, in termini di quantità (numero di informazioni personali raccolte) e qualità (dati personali che possono rivelare l’origine razziale ed etnica, l’orientamento sessuale, le opinioni politiche, le convinzioni religiose o filosofiche, o l’appartenenza sindacale di un individuo, o dati genetici e biometrici o relativi alla salute).
Il parere del comitato etico va a tutela dei ricercatori e dei partecipanti alle attività di ricerca.
Per maggiori informazioni si consiglia di consultare la pagina della Commissione etica di Ca’ Foscari, sezione Data Management Plan (DMP).

Dati e metadati

I dati acquistano ulteriore valore e significato se associati ai metadati.
La correlazione di dati e metadati crea infatti collegamenti (e opportunità) inaspettati (internet of things).
I metadati, per essere “machine readable”, devono però seguire schemi standard e sintassi predefiniti (Dublin Core…).
L’uso di metadati standardizzati e “ricchi” di informazioni consente di:

  • tracciare la pubblicazione e il set di dati grazie agli identificativi persistenti (DOI, handle, ISSN, ISBN, ORCID)
  • descrivere meglio i dati facilitandone la scoperta: i metadati contengono informazioni su titolo, creatore, abstract, parole chiavi
  • certificare l’integrità, la provenienza, la conservazione dei dati: i metadati forniscono informazioni su publisher, funder, formato, grandezza del file, piattaforma di conservazione, modalità di salvataggio
  • chiarire i diritti: i metadati forniscono informazioni sulle licenze cui sono associati i dati e sulle condizioni per il riuso.

Last update: 24/11/2022