Infrastrutture digitali, finanziato dalla Alfred P. Sloan Foundation un progetto della Scuola Sant’Anna di Pisa per migliorare le capacità di compressione e di ricerca del Software Heritage Archive

Progettare nuove soluzioni algoritmiche per la compressione dei dati e sviluppare un motore di ricerca con caratteristiche uniche per migliorare l’accessibilità al Software Heritage Archive, il più grande archivio del mondo che consente la raccolta, la conservazione e l'accesso libero e perpetuo al codice sorgente di milioni di librerie software disponibili pubblicamente sul Web. Sono questi i due obiettivi principali del progetto biennale coordinato da Paolo Ferragina, professore ordinario di Informatica della Scuola Superiore Sant’Anna e dell’Università di Pisa, e finanziato dalla Alfred P. Sloan Foundation, ente filantropico statunitense tra i più importanti sostenitori della ricerca in ambito scientifico, tecnologico, ingegneristico, matematico ed economico.
“È una grande soddisfazione aver visto finanziato un progetto così sfidante e ambizioso, e poter dare il nostro apporto con due contributi di ricerca e sviluppo software che valorizzano le expertise della scuola algoritmica pisana: la compressione dati, volta a risparmiare l’enorme spazio di memorizzazione del Software Heritage Archive e a efficientare così la sostenibilità della sua infrastruttura digitale; e lo sviluppo di un motore di ricerca che individui efficientemente ed efficacemente nell’enorme mole di software disponibile nell’archivio quelle porzioni di codice che sono possibilmente diverse sintatticamente da un codice cercato ma quanto più equivalenti a esso dal punto di vista computazionale. L’incredibile dimensione e unicità dell’archivio daranno alle nostre soluzioni algoritmiche un impatto significativo, visto il ruolo cruciale che il software riveste oggi nella ricerca scientifica, e nei processi e prodotti industriali” dichiara Paolo Ferragina.
Il Software Heritage Archive, la più importante banca dati dei codici sorgenti
Il Software Heritage Archive (SWH) nasce nel 2016 da un’iniziativa no profit promossa da INRIA (istituto nazionale francese di ricerca in informatica), in collaborazione con l’UNESCO, e coordinata dal Prof. Roberto Di Cosmo. Attualmente, l’archivio conserva oltre 23 miliardi di file, provenienti da più di 350 milioni di progetti software disponibili pubblicamente sul Web, e creati da più di 85 milioni di programmatori. Un vero e proprio patrimonio immateriale dell’Informatica e un punto di accesso unico a una vasta base di conoscenza tecnologica, necessaria per sostenere la trasformazione digitale e l'innovazione, visto il ruolo cruciale che il software riveste oggi in varie attività scientifiche e industriali.
Perché è importante migliorare le capacità di compressione e di ricerca di SWH
Cosa significa conservare il codice sorgente dei software pubblicamente disponibili? Significa conoscere non solo la storia dell’Informatica e dei suoi prodotti software, ma anche entrare in contatto con un’enorme quantità di informazioni che vanno ben al di là del “codice sorgente” e che quindi possono dare un grande impulso all’innovazione e alle nuove frontiere tecnologiche. Non è un caso, infatti, che l’interesse per il codice sorgente stia crescendo anche nell’ambito dell’Intelligenza Artificiale, dove ricercatori e ingegneri stanno costruendo modelli pre-addestrati per la generazione e la sintesi di codice e per migliorare le prestazioni dei migliori Large Language Model (LLM), come GPT-4 di OpenAI o Gemini di Google, addestrandoli sia sul linguaggio naturale che sul codice sorgente dei software pubblicamente disponibili.
Sapersi muovere in questa gigantesca biblioteca virtuale con strumenti più efficienti ed efficaci è la sfida del progetto coordinato dalla Scuola Superiore Sant’Anna di Pisa: in questo scenario infatti, l'infrastruttura unica e completa rappresentata da SWH si rivela una grande opportunità per affrontare un ampio spettro di esigenze e applicazioni che vanno, per esempio, dallo sviluppo di codice supportato dall’IA e la sua “spiegabilità”, al rilevamento e tracciamento di parti di codice plagiate (per la protezione della proprietà intellettuale) o potenzialmente “dannose” (cybersecurity).
Le dichiarazioni
“Il professor Ferragina e il suo team della Scuola Superiore Sant'Anna di Pisa stanno introducendo tecniche all'avanguardia nel campo dell'intelligenza artificiale, della compressione dei dati e della progettazione di infrastrutture digitali per aggiornare e ampliare una delle più importanti raccolte di codici sorgente software al mondo. Il loro impegno contribuirà a garantire che gli oltre 23 miliardi di file custoditi dall'Archivio Software Heritage rimangano aperti e accessibili a tutti” dichiara Joshua M. Greenberg, direttore del programma, Alfred P. Sloan Foundation.
“Il progetto coinvolgerà giovani ricercatori e ricercatrici che potranno così approfondire le loro conoscenze e competenze nel campo della compressione dati e dello sviluppo di motori di ricerca di nuova generazione, e offrirà loro la possibilità di collaborare con gruppi di ricerca internazionali, svolgendo parte dei loro studi all’estero, entrando così in contatto con centri di ricerca e aziende di profilo internazionale. Una opportunità dunque di crescita personale, scientifica e professionale per tutti i nostri giovani talenti” conclude Ferragina.
“L’archivio costruito da Software Heritage ha l’ambizione di preservare e rendere facilmente accessibile la conoscenza tecnica, scientifica e collaborativa che si ritrova sempre di più racchiusa nel codice sorgente dei programmi che costituiscono l’indispensabile tessuto invisibile della trasformazione digitale. Negli ultimi venti anni, la quantità di codice originale è raddoppiata ogni due anni in media, creando una sfida significativa per la sostenibilità dell’archivio. Siamo quindi estremamente contenti di vedere l’esperienza e le competenze al miglior livello mondiale messe al servizio di questa missione dal Prof. Ferragina,” dichiara Roberto Di Cosmo, direttore scientifico del Software Heritage Archive.