European Open Science Cloud e il suo ruolo in Horizon Europe

Condividi su      
 A. Bracco    30-09-2020

Intervista a Giorgio Rossi di Angela Bracco

La European Open Science Cloud (EOSC) rappresenta l’internet dei dati scientifici accessibili online. Questo progetto è nato per rendere fruibili e interoperabili i dati prodotti dalle ricerche scientifiche dei ricercatori europei, e fornire gli strumenti software e le risorse di calcolo e archiviazione per il riuso anche interdisciplinare dei dati. Il progetto, di iniziativa della Commissione Europea per promuovere l'open science, è iniziato nel 2015 con l'obiettivo di impostarne l’implementazione entro il 2020 e di avviarne la costruzione effettiva nel quadro di Horizon Europe. Il rappresentante italiano nel governing board di EOSC, Giorgio Rossi, fisico di struttura della materia dell’Università degli Studi di Milano, è stato da me intervistato per rispondere ad alcune semplici domande sui risultati ottenuti e sulle prospettive.

Per prima cosa, puoi ricordarci molto brevemente gli ambiziosi obiettivi del progetto e come la ricerca in fisica contribuisce e si avvantaggia?

L’ambizione è quella di creare uno spazio di accesso e scambio dei dati della ricerca che ne permetta lo sfruttamento da parte di una platea più vasta che non quella di coloro che hanno generato i dati all'interno del loro progetto. L'idea è che il contenuto di informazione di un set di dati, se ben organizzato e descritto secondi i criteri FAIR (Findeable, Accessible, Interoperable and Reusable), eccede quanto sfruttato con l'analisi di chi ha prodotto i dati. Se altri ricercatori potranno accedere a tali data-sets e agli strumenti di analisi ci si possono attendere altre correlazioni, altre analisi e combinazioni con altri dati di diversa provenienza, con un forte potenziale di nuova conoscenza. Nella comunità degli astronomi e astrofisici è tradizione consolidata quella di archiviare dati osservativi che diventano oggetto di analisi o lavori di tesi in modo disgiunto dalla proposta iniziale di quell'osservazione, con grande beneficio per la scienza.

Tutto ciò funzionerà se ci sarà abbondanza di dati FAIR, tale da permetterne la scoperta e i possibili nessi con altri dati anche con metodi di intelligenza artificiale. L’opportunità per la fisica è quella di sviluppare metodi per la generazione automatica di dati FAIR, tale da non richiedere al ricercatore uno sforzo per la cura del dato, al di la del controllo di qualità e riproducibilità. Per fare ciò si dovranno implementare nuovo hardware e nuovi algoritmi di acquisizione che potranno essere di grande beneficio e potenziamento dei nostri laboratori.

Vi sono azioni particolari per favorire la multidisciplinarità?

L'interoperabilità è il concetto chiave. I dati FAIR dovranno essere suscettibili di analisi con strumenti software generati anche da comunità scientifiche diverse, rendendo possibile l'interdisciplinarità, quando è intrinseca alla complessità della domanda scientifica (clima, salute, energia, società...).

Vi sono azioni per facilitare l'accesso da parte delle infrastrutture di ricerca, soprattutto quelle di piccole dimensioni?

Le IR (Infrastrutture di Ricerca) sono un elemento chiave per lo sviluppo di EOSC in quanto possono garantire sia uno sforzo sostenibile per la generazione e cura dei dati FAIR, sia l'importantissimo controllo di qualità dei dati, che è operato de facto dalla comunità scientifica di riferimento di quella IR. Le IR piccole si allineeranno agli standard più robusti per quanto riguarda la gestione FAIR dei propri dati, e direttamente all’EOSC appena questa sarà operativa.

Ci si può ritenere soddisfatti dei risultati conclusivi?

Si è scelto di implementare EOSC nel quadro di una Partnership Strategica co-programmata di Horizon Europe. È uno strumento plausibile nel quale Stati Membri e Associati dell'UE intervengono in due modi: tramite un'istituzione mandataria nella associazione non-profit EOSC-AISBL che rappresenterà il volume di attività nazionali che confluiscono alla realizzazione di EOSC, e tramite membri istituzionali, Università, Enti di Ricerca, Infrastrutture di Ricerca, altri soggetti interessati a EOSC. L'istutizione mandataria italiana è ICDI (Italian Computing and Data Infrastructure) che riunisce le IR e gli EPR (Enti Pubblici di Ricerca) italiani, ed è stata uno dei quattro fondatori della EOSC-AISBL. Il secondo livello è quello dello "Steering Committee" che rapresenterà tutti gli Stati Membri e Associati, indipendentemente da una loro presenza nella EOSC-AISBL, e che vigilerà e darà orientamenti strategici per massimizzare l'impatto positivo di EOSC sullo Spazio Europeo della Ricerca. La Commissione Europea e EOSC-AISBL stipuleranno il contratto di Partnership (della durata del settennato di Horizon Europe) e lo Steering Committee sarà un elemento terzo e indipendente che dialogherà sia con la Partnership sia direttamente con la EOSC-AISBL.

Quale sarà il ruolo di EOSC in Horizon Europe e per le infrastrutture di ricerca (in fisica in particolare)?

Da un lato le IR si dovranno allinere alla produzione di dati FAIR come obbligo per chi godrà di finanziamenti nel programma quadro Horizon Europe. Lo sviluppo di EOSC potrà avere come conseguenza un aumento di traffico di dati e di domanda di risorse analitiche e di archiviazione alle quali le IR dovranno far fronte, mettendo in buona evidenza i costi aggiuntivi e monitorando la curva dei benefici per la propria comunità scientifica e per quella più ampia trans-disciplinare.

Qual è la domanda che ti faresti per mettere in luce altre caratteristiche di questo importantissimo progetto?

La domanda chiave a mio avviso è quella di prevedere una curva di crescita dell'attività di EOSC e della sua produttività. È necessario fare scenari a 5, 10 e 15 anni per prevedere le criticità nell'impianto generale delle nostre risorse di ricerca, dai laboratori alla rete di trasporto dei dati, alle memorie, alle risorse analitiche e di calcolo numerico. Tali previsioni dovranno essere aggiornate continuamente per controllare la sostenibilità di EOSC e il ritorno scientifico, che immagino differito nel tempo. Si tratta in conseguenza anche di valutare le risorse umane specializzate che saranno necessarie sia nella fase di costruzione, cioè nel quinquennio, sia nella fase di pieno dispiegamento dei servizi di EOSC che travalicheranno l'ambito della ricerca e dell'innovazione. La formazione specialistica di Data Scientists è un aspetto. L'altro è la formazione di Data Stewards che facilitino l'interfaccia fra ricercatori e operatori dell'innovazione e l'uso dei dati FAIR. Infine la alfabetizzazione generale all'utilizzo corretto dei dati della ricerca è una necessità che dovrà rapidamente permeare l’università (in tutte le discipline) e l'istruzione.

Per concludere voglio sottolineare che mi appare chiaro che EOSC sta lavorando nel migliore dei modi sullo scambio di informazione scientifica e accesso ai dati, che, avendo un ruolo centrale per il progresso, vanno facilitati e ben organizzati.


The European Open Science Cloud and its role in Horizon Europe

Interview to Giorgio Rossi by Angela Bracco

The European Open Science Cloud (EOSC) represents the internet of scientific data accessible online. This project was born to make the data produced by the scientific research of European scientists usable and interoperable, and to provide the software tools and computing and archiving resources for the reuse, including interdisciplinary data. The project, on the initiative of the European Commission to promote open science, started in 2015 with the aim of setting its implementation by 2020 and starting its actual construction within the framework of Horizon Europe. The Italian representative on the EOSC governing board, Giorgio Rossi, physicist at the University of Milan, expert in structure of matter, was interviewed by me to answer some simple questions about the achievements and the perspectives.

As a first point, could you remind us very briefly the ambitious objectives of the project and how the research in physics contributes and benefits from it?

The ambition is to create a space for access and exchange of research data that allows its exploitation by a wider audience than that of those who generated the data within their project. The idea is that the information content of a data set, if well organized and described according to FAIR (Findeable, Accessible, Interoperable and Reusable) criteria, exceeds what is exploited with the analysis of who produced the data. If other researchers will be able to access these data-sets and analysis tools, other correlations, other analyses and combinations with other data from different sources can be expected, with a strong potential for new knowledge. In the community of astronomers and astrophysicists, it is a consolidated tradition to archive observational data that are exploited in analysis or thesis work in a way that is different from the initial proposal of that observation, with great benefit for science.

All this will work if there is an abundance of FAIR data, such as to allow its discovery and possible links with other data even with artificial intelligence methods. The opportunity for physics is to develop methods for the automatic generation of FAIR data, such as not to require the researcher to make an effort to care for the data, beyond quality control and reproducibility. To do this, new hardware and new acquisition algorithms will have to be implemented which can be of great benefit and enhancement of our laboratories.

Are there any particular actions to foster multidisciplinarity?

Interoperability is the key concept. FAIR data must be susceptible to analysis with software tools also generated by different scientific communities, making interdisciplinarity possible, when it is intrinsic to the complexity of the scientific demand (climate, health, energy, society ...).

Are there any actions that facilitate access by research infrastructures, especially small ones?

RI (Research Infrastructures) are a key element for the development of EOSC as they can guarantee both a sustainable effort for the generation and care of FAIR data, and the very important data quality control, which is de facto operated by the scientific community of reference of that RI. The small RIs will align themselves with the most robust standards regarding the FAIR management of their data, and directly to the EOSC as soon as this is operational.

Can we be satisfied with the final results?

It was chosen to implement EOSC within the framework of a co-planned Strategic Partnership of Horizon Europe. It is a plausible tool in which the Member and Associated States of the EU intervene in two ways: through a mandated institution in the EOSC-AISBL not-for profit association which will represent the volume of national activities that flow into the creation of EOSC, and through institutional members, universities, Research Organizations, Research Infrastructures, other subjects interested in EOSC. The Italian mandatory institution is ICDI (Italian Computing and Data Infrastructure) which brings together the Italian RI and EPR (Enti Pubblici di Ricerca), and was one of the four founders of EOSC-AISBL. The second level is that of the "Steering Committee" which will represent all Member and Associated States, regardless of their presence in the EOSC-AISBL, and which will supervise and give strategic guidelines to maximize the positive impact of EOSC on the European Research Area. The European Commission and EOSC-AISBL will enter into the Partnership contract (with the duration of the seven-year period of Horizon Europe) and the Steering Committee will be a third and independent element that will dialogue both with the Partnership and directly with EOSC-AISBL.

What will be the role of EOSC in Horizon Europe and for research infrastructures (in physics in particular)?

On the one hand, the RIs will have to align with the production of FAIR data as an obligation for those who will benefit from funding in the Horizon Europe framework program. The development of EOSC may result in an increase in data traffic and in the demand for analytical and archiving resources that the RIs will have to face, highlighting the additional costs and monitoring the benefit curve for their scientific community and for the broader trans-disciplinary one.

What is the question you would ask yourself to highlight other characteristics of this very important project?

The key question in my opinion is to predict a growth curve for EOSC's activity and its productivity. It is necessary to make scenarios at 5, 10 and 15 years to predict the criticalities in the general system of our research resources, from the laboratories to the data transport network, to the memories, to the analytical and numerical computing resources. These forecasts will have to be updated continuously to check the sustainability of EOSC and the scientific return, which I imagine delayed over time. Consequently, it is also a question of evaluating the specialized human resources that will be needed both in the construction phase, that is, in the five-year period, and in the phase of full deployment of EOSC services that will go beyond the scope of research and innovation. The specialized training of Data Scientists is one aspect. The other is the training of Data Stewards that facilitate the interface between researchers and innovation operators and the use of FAIR data. Finally, general literacy in the correct use of research data is a necessity that must quickly permeate the University (in all disciplines) and Education.

To conclude, I want to underline that it is clear to me that EOSC is carrying out in the best possible way its work on the exchange of scientific information and access to data, which, having a central role in progress, has to be facilitated and well organized.