Come fa SemplicePA a classificare gli atti?

SemplicePA riesce a classificare gli atti grazie a un’ontologia verticalizzata sui domini della pubblica amministrazione, costruita in collaborazione con il Dipartimento di Letteratura e Linguistica dell’Università di Pisa.

SemplicePA classifica gli atti in diversi argomenti, rendendo possibile il loro recupero proprio a partire da questi. La piattaforma, infatti, individua ben 13 diversi argomenti, che ricalcano le competenze delle pubbliche amministrazioni.

Questa classificazione è resa possibile attraverso un’ontologia, contenenti vari termini associati ciascuno a uno o più argomenti o domini. I termini di dominio con uno stesso significato, invece, sono raggruppati in modo da permettere anche la restituzione di quei documenti che contengono sinonimi delle parole cercate. Ad esempio, i termini “appalto”, “bando di gara” e “aggiudicazione” sono termini di dominio relativi all’argomento “bando e contratti”. Per l’argomento “istruzione” invece, i termini “scuola primaria” e “scuola elementare” sono associati e riconosciuti come relativi a uno stesso concetto.

L’ontologia su cui si basa SemplicePA è costruita con un duplice metodo: bottom-up e top-down. Da un lato i termini di dominio sono individuati automaticamente, anche attraverso algoritmi di semantica distribuzionale, che sfrutta il contesto in cui i termini sono inseriti per dedurne significato e similarità. Dall’altro i termini sono stati classificati manualmente da parte di esperti di quel dominio.

Ma i documenti non sono associati a un solo argomento. SemplicePA infatti riesce ad associare i documenti a diversi ambiti, riscendo ad individuare le diverse sfumature di senso contenute al loro interno. Un bando di gara per la costruzione di un nuovo istituto scolastico, potrebbe quindi essere associato agli argomenti “bandi e contratti”, “edilizia” e “istruzione”. Ciò avviene grazie ad algoritmi di Topic Modelling basati su una particolare tecnica chiamata “Latent Dirichlet Allocation“. Questo algoritmo consente di individuare gli “argomenti latenti” dei documenti, in base alla probabilità con cui una certa parola compare associata a un certo argomento.

I testi, quindi, vengono classificati sia in base alla presenza dei termini dell’ontologia, sia in base agli argomenti estratti automaticamente sfruttando LDA, che permette di cogliere le diverse aree tematiche degli atti amministrativi.