Aziende, persone, luoghi: estrarre entità dagli atti

SemplicePA, attraverso l’estrazione di entità dai documenti, consente di organizzare la conoscenza contenuta negli atti amministrativi in modo che anche i non esperti del dominio della pubblica amministrazione possano accedervi.

SemplicePA consente di recuperare gli atti a partire da nomi, codici o indirizzi in esso contenuti. All’interno di ogni documento sono infatti individuate automaticamente diverse entità: persone, luoghi, aziende, organizzazioni, importi, date e indirizzi email ma anche elementi più specifici dei provvedimenti amministrativi come riferimenti legislativi e ad altri atti, partite iva, codici identificativi di gara e codici fiscali.

Come è possibile? Anzitutto il testo viene analizzato linguisticamente: sono definiti sostantivi, verbi ma anche proposizioni principali e secondarie. E poi si procede all’estrazione delle entità, dei termini di interesse. Questa estrazione avviene integrando due approcci, uno basato su “regole” e un altro su modelli di “machine learning”.

L’approccio a regole prevede l’applicazione di algoritmi che contengono precise istruzioni sulle caratteristiche che la porzione di testo deve avere perché venga estratto. Ad esempio una porzione di testo sarà estratta e classificata come partita iva se costituita da un codice di undici cifre che rispetta precisi parametri. Le istruzioni che consentono l’estrazione sono dette “espressioni regolari”.

L’altro approccio, invece, è stato sviluppato da ETI3 in collaborazione con il Dipartimento di Filologia, Letteratura e Linguistica dell’Università di Pisa. Consiste nell’applicazione di algoritmi di “Machine Learning” ovvero di “apprendimento automatico”, che procede attraverso una fase di addestramento.

In questa fase viene raccolto un certo numero di documenti (corpus di training) che contengono tutte le entità che si intendono estrarre. La presenza sul testo di un’entità, come un nome di persona, un indirizzo o il riferimento ad altri atti sarà quindi annotata. Queste annotazioni sono poi lette e apprese da un algoritmo, che cercherà di applicare questa conoscenza a documenti non annotati, per estrarre automaticamente nuove entità.

Infine, un modulo di “normalizzazione” si occupa di riportare le varie entità a una forma univoca standard per astrarre rispetto alle forme grafiche in cui una stessa entità viene citata all’interno dei vari documenti. In questo modo ottenere da una ricerca tutti i documenti che citano “Mario Rossi” anche se questo compare ad esempio come “Rossi Mario”.

Attualmente, recuperare un atto all’interno di un Albo Pretorio è possibile solo se si conoscono il suo oggetto, il suo numero identificativo o la data di pubblicazione. Solo chi sa con precisione quale documento sta cercando potrà quindi trovarlo. Con SemplicePA la conoscenza contenuta negli atti è a portata di tutti.