Un progetto di nome Arianna

A.: Questa collaborazione è cresciuta ed ha portato ad alcune realizzazioni legimatiche. Chiedo a Pietro MERCATALI di descriverle nella forma di intervista-lezione.

PM: Il tuo sistema "Arianna" è il primo sistema informativo in Italia che si proponga di assistere il legislatore anche nella fase della redazione del provvedimento normativo, mettendo a disposizione una serie di banche dati e la possibilità di ricostruire attraverso i riferimenti normativi codificati la legislazione vigente e di simulare l'impatto delle nuove proposte di legge sulla legislazione esistente.

Ma vediamo il percorso seguito per lo sviluppo di sistemi d'aiuto alla redazione di testi normativi.

Probabilmente, se il computer potesse esprimere un desiderio, chiederebbe che a ogni simbolo o codice del linguaggio naturale corrispondesse un solo, ricorrente significato in modo da consentire il riconoscimento senza necessità di comprensione del contesto.

In realtà il linguaggio è un fenomeno sociale sottoposto ad evoluzione continua e incontrollabile, proprio per potersi adeguare alla varietà e mutevolezza dei contesti che deve rappresentare. Tale mutamento si può paragonare all'evoluzione delle norme che devono essere interpretate per adeguarle al mutare delle fattispecie concrete. Tale processo è, appunto, facilitato dalla flessibilità e adattabilità del linguaggio naturale al contesto.

Per il trattamento informatico dei testi legislativi, il nodo è dunque rappresentato dalla difficoltà di un completo ed esteso riconoscimento del linguaggio naturale da parte della macchina ed in particolare dal collegamento tra i segni linguistici (che il computer oggi può riconoscere, analizzare e, in buona parte, classificare e distinguere) e il loro mutevole significato in contesti linguistici e metalinguistici variabili.

In altre parole un linguaggio che ricorra a convenzioni morfologiche, sintattiche e (senza farci troppo affidamento) anche semantiche “meglio” definite di quelle del linguaggio comune. Si vuole comunque tenere chiaramente distinto il linguaggio normativo dai linguaggi artificiali (compresi quelli informatici) che usano simboli e sintassi diversi da quelli naturali e significati esclusivamente convenzionali, che non li mettono in grado di garantire una comunicazione erga omnes delle norme generali. Per un approfondimento dei rapporti tra linguaggio naturale, linguaggi controllati (o specialistici o settoriali) e linguaggi artificiali si rinvia a [Sartor, 1998].

Per questo l'analisi si sta sviluppando in due direzioni. Da una parte si tende a individuare e descrivere strutture e modelli ricorrenti di testi e contesti per ridurre, al loro interno, i diversi significati attribuibili a ciascun termine o locuzione, dall'altra a definire e promuovere l'utilizzo di un linguaggio naturale controllato (1) che, per i testi legislativi, può non solo facilitare l'impiego della macchina, ma anche introdurre maggior chiarezza e univocità della norma.

Proviamo a ipotizzare di esser riusciti a fornire alla macchina più modelli circa le finalità del legislatore o gli obiettivi dell'interprete. Si potrà poi chiedere un riscontro della rispondenza o meno del testo a uno o più di tali modelli, attraverso il riconoscimento delle strutture e del linguaggio che lo compongono. Si sarà, così, messo in grado il drafter di valutare se il testo progettato corrisponde all'indirizzo politico del legislatore e l'interprete di sintonizzare, se lo vuole, la sua interpretazione alle finalità della legge o di verificare l'assurdità cui tali finalità conducono nella creazione della norma concreta.

Una più chiara e avvincente illustrazione di un futuribile sistema informatico che ricomprenda il programma delineato si può leggere in [Lombardi Vallauri, 1995].

E' evidente che i risultati di un tale programma sarebbero quanto mai aleatori a causa delle difficoltà di formalizzare modelli teorici tendenti all'infinito nel numero, labili nei confini e che agiscono su piani diversi e di riconoscerli in un linguaggio naturale che, proprio per la loro molteplicità, non potrebbe essere (o divenire) in grado di esprimerli in modo controllato e univoco.(2)

Proviamo però a ipotizzare di fornire alla macchina dei modelli il più possibile dettagliati e univoci relativi a:

1. la struttura e l'organizzazione testuale dei provvedimenti legislativi (intestazione, partizioni con relativi identificatori, informazioni per l'identificazione di parti speciali del testo quali rubriche, novelle, allegati, rinvii, ecc.);

2. la struttura funzionale o sistematica del testo (organizzazione del testo secondo le funzioni – ad es. definitorie, sanzionatorie, transitorie, attuative, ecc. – svolte dalle singole disposizioni normative) con la relativa descrizione dei tipi di disposizioni che compongono la struttura;

3. l'organizzazione e la funzione del lessico.

Sarà poi possibile, attraverso confronti automatici (o comunque assistiti dalla macchina) con i modelli, riconoscere il tipo di testo e le sue caratteristiche e classificarlo come appartenente a uno o più di questi modelli (ad es.: è un regolamento perché la sua struttura corrisponde a quella di un regolamento o più semplicemente perché riporta nell'intestazione tale indicazione in modo univoco; è un testo con funzione di novellazione rispetto ad altri testi vigenti e così via).

Anche questo è un programma a tutt'oggi non implementato, ma la definizione e il riconoscimento degli elementi elencati (o di una parte di essi) e il loro inquadramento in modelli ha portato ad alcune applicazioni, ancora imperfette e limitate, che, però, hanno già prodotto alcuni primi risultati.

Testi normativi, modelli e comportamenti linguistici ricorrenti

Come abbiamo accennato la legistica o tecnica di redazione legislativa ha introdotto elementi univoci e ricorrenti nei testi normativi.

Tali regole hanno consentito di definire e descrivere modelli della struttura formale e funzionale dei testi normativi e hanno contribuito ad individuare e descrivere comportamenti linguistici ricorrenti all'interno di tali modelli.

Modello della struttura formale

Ad esempio la struttura formale è composta dall'articolato che contiene le disposizioni normative.

Alcune convenzioni grafiche e tipografiche, imposte appunto dalle regole di legistica, consentono d'individuare con precisione le singole partizioni che compongono il testo dell'articolato, fino a disegnare un modello che può essere rappresentato con la figura seguente.

Completano il modello altre convenzioni che regolano la successione e la numerazione delle partizioni (ad esempio: ogni partizione può contenere due o più delle partizioni inferiori, ad eccezione dell'articolo che può contenere un solo comma; l'intero documento normativo può essere composto di un solo articolo; la sezione si può usare solo come partizione del Capo, ma non da sola; gli articoli sono contrassegnati con un numero cardinale arabo e progressivo all'interno di tutto l'articolato; eccetera).

Modello della struttura funzionale

Le regole di tecnica legislativa propongono di strutturare il testo legislativo secondo una corretta successione delle disposizioni normative, in base alla loro funzione. Si suggerisce ad esempio di porre le disposizioni definitorie all'inizio del testo e quelle transitorie alla fine. Tale struttura non è però definita in modo completo e vincolante dalle regole della legistica. Inoltre nei testi normativi attuali la struttura funzionale non è, di solito, espressa in modo chiaro e sistematico, ma i suoi elementi essenziali sono comunque individuabili e descrivibili ed è possibile organizzarli in un modello.

Ad esempio il Manuale regionale offre una descrizione dalla quale si può ricavare un modello utile al trattamento informatico dei testi normativi.
Altri modelli della struttura funzionale e delle singole disposizioni sono stati definiti dagli studi di teoria normativa e d'intelligenza artificiale in campo giuridico. Per la descrizione di alcuni di questi modelli, finalizzata proprio al loro utilizzo in sistemi informatici, si rinvia agli studi di Biagioli, che approfondiscono particolarmente questo settore [Biagioli, 1997] e [Biagioli, 1999].

Comportamenti linguistici ricorrenti

Abbiamo detto della difficoltà di un completo ed esteso riconoscimento del linguaggio naturale da parte della macchina ed in particolare del collegamento tra i segni linguistici e il loro mutevole significato in contesti linguistici e metalinguistici variabili.

Le regole di tecnica legislativa consigliano o sconsigliano comportamenti linguistici che sono ricorrenti nei testi. Tali regole, assieme alla definizione dei modelli formali e funzionali, appena descritti riducono la varietà dei contesti in cui tali comportamenti si manifestano e facilitano l'attribuzione di un significato ricorrente ai codici linguistici. Si può quindi parlare di un linguaggio più controllato dei testi normativi rispetto a quello di altri testi.

Naturalmente l'individuazione del significato di tali comportamenti resta soggetta ad ampi margini d'approssimazione e il loro trattamento informatico non può che essere integrativo e non sostitutivo dell'intervento umano.

Software per il trattamento dei testi normativi

La definizione dei modelli descritti e le osservazioni sui comportamenti ricorrenti del linguaggio consentono d'incrementare basi di conoscenza di programmi che svolgono funzioni diverse per il trattamento dei testi normativi. Le funzioni che qui illustreremo si possono schematizzare nel modo seguente:

aiuto alla redazione dei testi;
controllo della correttezza dei testi;
archiviazione, reperimento e coordinamento dei testi.

Vediamo brevemente il funzionamento e le modalità d'impiego di tali programmi, in parte a livello di prototipi dimostrativi o sperimentali, in parte operativi.

Programmi d'aiuto alla redazione dei testi normativi

Chi usa un programma di videoscrittura evoluto, di quelli ormai diffusi in tutti gli ambienti dove si elaborano testi, sa che può richiamare modelli di documenti: se vuole scrivere una lettera aprirà un documento, dove sarà preimpostata la data, il destinatario, le formule di saluto, la firma, lo spazio per il postscriptum, ecc. Se sta scrivendo, non una lettera qualsiasi, ma una lettera commerciale, potrà richiamare un modello più specifico, oppure inserire nel modello generale formule, che il sistema mette a disposizione del tipo: "Un nostro incaricato la contatterà al più presto per esaminare con Lei i dettagli della nostra offerta", "Qualora avesse già provveduto al pagamento La preghiamo di cestinare questa nostra" e così via.

In altre parole il sistema mette a disposizione, in fase di generazione del testo, schemi da istanziare, via via più dettagliati, e informazioni utili alla definizione della struttura e dei contenuti del documento stesso.

Sulla base di quanto esposto nei paragrafi precedenti un programma d'aiuto alla redazione di testi normativi può mettere a disposizione uno o più modelli di documenti contenenti:

la struttura formale (l'articolazione con la suddivisione in sovrapartizioni e sottopartizioni) con tutti gli elementi che integrano tale struttura (intestazioni, rubriche, regole di punteggiatura, ecc.);
elementi sia della struttura funzionale dell'intero atto ( ad esempio secondo lo schema tracciato nel paragrafo … dalle regole di tecnica legislativa), sia della struttura delle singole disposizioni.

L'utente potrà richiamare uno o più di tali modelli utilizzandoli a vari livelli di dettaglio. Ad esempio nel redigere una prima versione potrà utilizzare il modello formale a livello d'articolo, escludendo le sottopartizioni (commi, lettere, numeri). In un successivo intervento potrà strutturare ogni singolo articolo in sottopartizioni e introdurre la strutturazione funzionale a conclusione del lavoro di stesura o, viceversa, potrà utilizzare la struttura funzionale per redigere e ordinare le singole disposizioni, in base ai loro contenuti, ed applicare successivamente la struttura formale.

Lo schema descritto si ispira ad un prototipo ideato e sperimentato da Carlo Biagioli presso l'Istituto per la documentazione giuridica del CNR [Biagioli 1996].

Si possono elencare alcune caratteristiche dalle quali dipende, in gran parte, l'efficienza di un tale sistema d'aiuto al drafting.

Flessibilità del modello o dei modelli inseriti nella base di conoscenza in modo da potersi adeguare alla molteplicità delle caratteristiche strutturali, funzionali e tematiche dei testi normativi, che, abbiamo detto, utilizzano quel veicolo estremamente mutevole e imprevedibile che è il linguaggio e sono al servizio di un legislatore e di un interprete che necessitano di elasticità e discrezionalità per la formazione e l'applicazione della norma.
Precisione nella definizione del modello da utilizzare affinché possa risultare una vera e propria guida in grado di agevolare il lavoro del drafter. Va da sé che conciliare flessibilità e precisione costituisce un punto cruciale nella realizzazione di tali sistemi. Ad esempio il software LEDA, adottato dal Ministero della Giustizia olandese, si basa su un set di regole di tecnica legislativa (quelle olandesi appunto) che sono corredate di veri e propri formulari di atti normativi e di singole disposizioni. I modelli risultanti sono quindi molto dettagliati e il sistema arriva anche a fornire all'utente alcune parti del testo già redatte. Tali modelli non saranno invece utilizzabili per testi che non rispondano a tutte le caratteristiche precisate in tali regole e si dovrà ricorrere a modelli più generali o una gestione modulare e integrata dei modelli come lo stesso LEDA consente di fare [Voermans, 1995] e [Kralingen, Voermans, 1998].
E' necessario che il modello normativo utilizzato sia dotato di autorevolezza sufficiente in modo che sia condiviso e ritenuto valido da tutti gli utenti del sistema. E' chiaro che tale autorevolezza è maggiormente garantita se il modello è derivato da quelle regole che il redattore è tenuto a seguire; può essere sufficientemente garantita, in diverse misure, da modelli che si basano su prassi consolidate, teorie normative condivise da gran parte della dottrina, ecc. (vedi ad esempio [Rescigno, 1996]). Si può comunque dire che a modelli "più autorevoli" potrà corrispondere maggiore precisione, a modelli "meno autorevoli" dovrà corrispondere maggior flessibilità.

Si deve ancora aggiungere che le caratteristiche qui elencate valgono per l'utilizzo dei modelli anche da parte dei programmi che svolgono le funzioni descritte nei punti successivi.

Programmi per la verifica dei testi normativi

Per fornire una prima rappresentazione approssimativa, ma efficace dei sistemi per la verifica dei testi normativi si può di nuovo ricorrere al paragone con i comuni sistemi di videoscrittura. In particolare con quelle procedure che li corredano per la segnalazione di errori ortografici, grammaticali e stilistici. Il loro funzionamento è analogo in quanto individuano probabili errori, e offrono suggerimenti per la correzione; spetta poi all'utente decidere se intervenire e se accogliere il suggerimento per la correzione.

I sistemi per la verifica dei testi normativi si basano però sull'individuazione automatica del modello di testo e cercano poi di segnalare quegli elementi che da tale modello si discostano. Si tratta quindi di una diversa utilizzazione dei modelli elaborati dalla legistica; non più per il "confezionamento" del testo, ma per un suo successivo trattamento.

Lexedit è un software, che serve a verificare la correttezza di un testo normativo rispetto alle regole di tecnica legislativa italiane. E’ stato realizzato da Carlo Biagioli e Pietro Mercatali, ricercatori presso l’Istituto per la documentazione giuridica del Consiglio nazionale delle ricerche con la collaborazione del Centro Toscano Informatica di Firenze. Per una descrizione delle funzioni che svolge e delle tecniche e metodologie che utilizza si rinvia alle informazioni contenute nel sito http://www.idg.fi.cnr.it

Vediamo qui, in particolare, alcune funzioni del sistema Lexedit,(3) che è in grado d'individuare la struttura formale dell'articolato normativo ed altri elementi del testo e controllarne la correttezza.

Altri programmi integrano la funzione di verifica con altre procedure, come fa LEDA, cui abbiamo già accennato. Il sistema NORMA, realizzato dal CIRFID e utilizzato dal Comune di Bologna per la stesura di regolamenti e delibere, oltre alle procedure per la redazione e il controllo, dispone di funzioni per la strutturazione dei testi normativi ai fini del consolidamento e dell'archiviazione in basi di dati [Palmirani e altri, 1998]. Il progetto SOLON curato dall'Università di Lovanio per conto del Ministero della Giustizia Fiammingo sta realizzando un sistema d'aiuto al drafting che comprenderà, tra l'altro, funzioni, per la generazione e la verifica dei testi normativi [Debaene e altri, 1999].

Le procedure di Lexedit integrano il programma di videoscrittura Word e sono eseguite attraverso comandi contenuti in un "barra strumenti" aggiuntiva dello stesso wordprocessing.

Il comando Controlli apre una finestra dove appaiono i tipi di verifiche che si possono eseguire. Il redattore può indicare se procedere a tutti i controlli o sceglierne alcuni. I controlli che si possono eseguire sono i seguenti:

numerazione e sequenza delle sovrapartizioni e degli articoli;
numerazione e sequenza di commi, lettere e numeri;
uso della punteggiatura "legislativa" (punto a capo alla fine di un comma, due punti prima dell'inizio di un'enumerazione, punto e virgola alla fine di una lettera e di un numero, ecc.);
scrittura dei riferimenti esterni ed interni. I riferimenti sono prima individuati automaticamente e poi il sistema facilita il controllo della loro correttezza formale.
parole o espressioni di dubbia correttezza.

Vediamo più in dettaglio quest'ultimo controllo che fornisce molteplici segnalazioni, tra loro eterogenee. Questa procedura individua infatti termini, locuzioni, costruzioni sintattiche, espressioni, simboli (il gergo informatico li definisce con un termine inelegante, ma unico ed efficace: stringhe), che sono:

sconsigliati dalle regole di tecnica legislativa;
sospetti in quanto spesso rilevano la presenza di scorrettezze, ambiguità, difficoltà interpretative o semplicemente di comprensione;
corretti e consigliabili, ma per il cui uso si ritiene opportuno mettere a disposizione del redattore informazioni e chiarimenti.

Una volta segnalata la "stringa sospetta" Lexedit mostra una finestra che contiene:

la stringa con tre righe di contesto;
uno o più termini od espressioni consigliabili per la sostituzione, quando questi siano proponibili;
una spiegazione della segnalazione con consigli per intervenire sul testo;
l'indicazione dell'articolo del Manuale con la regola interessata alla segnalazione ed il rinvio ad altre note e consigli. Un comando consente di collegarsi alla versione ipertestuale del Manuale (Iperinflex) e consultare le regole ed altre note e spiegazioni relative a quella segnalazione.

Ovviamente l'utente potrà attivare e disattivare la segnalazione di qualunque di queste categorie se riterrà di non appesantire eccessivamente il lavoro di revisione.

Quest'ultima procedura del programma non si appoggia ai modelli strutturali ricavati dalla regole di legistica. Sfrutta un dizionario di termini ed espressioni costruito dai produttori del sistema e che il redattore può incrementare. Cerca di utilizzare quei comportamenti ricorrenti del linguaggio e, in particolare del linguaggio normativo, di cui abbiamo parlato. E' chiaro che tali comportamenti sono individuati in base a criteri più o meno empirici e più o meno discrezionali, per molti versi assimilabili a quelli che il giurista segue nell'interpretazione dei testi. A ciò va aggiunto l'ulteriore limite che le "stringhe sospette" non utilizzano il contesto come fa il giurista quando interpreta le parole di un testo.

Per questo il programma prevede la massima flessibilità per l'attivazione e la disattivazione, l'inserimento e l'eliminazione di tali segnalazioni. Sarà il redattore a decidere, in base alla propria esperienza e sensibilità e al tipo di testi da verificare, quali segnalazioni utilizzare per avere maggiori probabilità di ottenere suggerimenti utili e non superflui o impertinenti.

Il programma fornisce inoltre schede riepilogative delle segnalazioni effettuate che comprendono anche indici e statistiche utili per una prima valutazione della leggibilità del testo per ogni comma, per ogni articolo e per tutto il provvedimento legislativo.

Infine il programma dispone di una procedura che aiuta il redattore a qualificare e marcare le disposizioni normative in base al modello di struttura funzionale ricavato dalle indicazioni del Manuale regionale di regole legistiche.

Archiviazione reperimento e coordinamento

Come abbiamo più volte detto i programmi illustrati per la scrittura e controllo dei testi normativi si fondano sulla descrizione della struttura del testo, servendosi di uno o più modelli predeterminati e sull'individuazione di altri elementi testuali. Tale descrizione si traduce in una marcatura o qualificazione del testo. Nei sistemi d'aiuto alla redazione tale marcatura avviene nel momento stesso in cui si scrive, richiamando parti ed elementi del modello dato. Nei sistemi per la verifica, questa avviene sul testo già redatto con il riconoscimento degli elementi strutturali (e di alcuni elementi linguistici) del testo stesso. La strutturazione del testo, esplicitata attraverso la marcatura, può offrire notevoli vantaggi per successivi trattamenti dell'informazione legislativa quali l'archiviazione, il reperimento, l'organizzazione ipertestuale dei documenti normativi sia in basi di dati, sia in rete, specie con l'affermarsi di codici di marcatura standard, compatibili con qualsiasi programma di trattamento testi, come quelli proposti dal linguaggio XML [Lupo, 1999]. Tali prospettive riguardano, però, più l'attività di divulgazione legislativa che non quella di redazione dei testi.

Qui ci si limita ad illustrare sommariamente una procedura che sfrutta tali marcature per agevolare il coordinamento tra testi legislativi, funzione che può avere utilizzi più strettamente collegati all'attività di drafting; si pensi alla necessità di collegare più progetti di legge o emendamenti tra loro connessi o di coordinare un nuovo progetto con le leggi vigenti per verificarne o evidenziarne le modifiche che esso vi apporta.

Abbiamo chiamato Nexus [Mercatali, 1999] un prototipo che permette di trasformare i riferimenti normativi espliciti in collegamenti ipertestuali per un'immediata consultazione della norma richiamata e, volendo, la lettura coordinata e sequenziale del testo richiamante e di quello richiamato. Per far ciò il sistema sfrutta il riconoscimento automatico, sia della struttura dell'articolato, sia dei formati delle citazioni, operato da Lexedit.

Il programma è progettato per la gestione e consultazione di domini normativi limitati; si integra con i sistemi di videoscrittura, in particolare con Word per Windows.

Vediamo brevemente le varie fasi che il programma segue per ottenere un "dominio normativo coordinato".

Il dominio normativo di Nexus è costituito da un insieme di file o documenti in formato Word per Windows memorizzati in una directory. A ogni documento corrisponde il testo completo di un singolo provvedimento normativo.

Il primo passo consiste nel normalizzare i nomi dei file. Per effettuare correttamente i collegamenti è necessario che ogni documento abbia un nome che rappresenti in modo univoco l'atto normativo che contiene.

Nexus utilizza poi la procedura di Lexedit per il riconoscimento e la marcatura automatica della struttura dell'articolato, in modo da ricostruire una vera e propria mappa dell'atto normativo.

Tale operazione fornisce le coordinate di ogni riferimento e di ogni partizione dell'atto, necessarie a creare in modo corretto e puntuale i legami ipertestuali.

Infatti se un riferimento A contenuto nella legge X rinvia all'articolo 3 della legge Y, grazie alla marcatura dell'articolato, il programma è in grado d'individuare dove si trova l'articolo 3 all'interno della legge Y.

Il sistema impiega un'altra procedura di Lexedit per il riconoscimento e la marcatura automatica dei riferimenti espliciti in tutto il dominio normativo considerato.

Una volta eseguite queste procedure il programma dispone di tutte le informazioni testuali necessarie a costruire automaticamente i link tra il testo richiamante e il testo richiamato. Per far ciò utilizza il comando di Word per la creazione di collegamenti ipertestuali.

Uno studio recente per la definizione e l’inquadramento sistematico dei riferimenti, finalizzato proprio al loro trattamento informatico si trova in [Sartor, 1996].

Attualmente NEXUS è in grado di collegare due testi normativi, ma non di ricostruire il testo risultante da tale collegamento, qualora esso richieda modifiche da apportare a uno dei due testi. La descrizione della funzione modificante del riferimento non è, infatti, incorporata nella sua citazione, ma semmai esplicitata dal contesto. La ricostruzione del testo coordinato sarà possibile se, da una parte si diffonderanno modelli di formulazione standard della funzione modificante del rinvio e dall'altra si riuscirà ad implementare un algoritmo in grado di ricondurre le varianti, usate di fatto, alla formulazione standard.(4)

Più complessa è la ricostruzione del testo vigente in presenza di quelle modifiche per le quali non esiste o non è proponibile un modello di formulazione standard ed ancor di più se il collegamento o la modifica non hanno alcun riscontro testuale.

Lo scopo di questa risposta non è, però, quello di analizzare sviluppi futuri dell'informatica per la produzione legislativa. Più semplicemente si è cercato di presentare alcune applicazioni, in parte d'immediato utilizzo, in parte in corso di sperimentazione, che si basano sì su studi d'intelligenza artificiale e di teoria della norma, ma che restano strumenti tecnici da perfezionare con la finalità pratica di aiutare il miglioramento della qualità della legislazione.

A.: A Pietro MERCATALI chiedo se è possibile trarre delle conclusioni, indicando i problemi aperti e le nuove mete di lavoro?

PM: Per migliorare il reperimento delle fonti normative in internet le istituzioni parlamentari e le pubbliche amministrazioni di molti paesi hanno avviato un processo di conversione dei loro "giacimenti" normativi in un formato standard che faciliti la ricerca e visualizzazione dei testi.

Cfr.: Marchetti A., Megale F., Seta E., Vitali F., Marcatura XML degli atti normativi italiani. I DTD di Norma in rete, in Informatica e diritto, 1, 2001, pp. 123-148.

Il linguaggio di marcatura XML sembra essere lo strumento che si sta affermando per raggiungere lo scopo. Tale linguaggio, infatti, coniugando la sua duplice natura di linguaggio di marcatura e di standard WEB, può costituire il terreno comune sia degli interventi "a monte", cioè sul drafting legislativo, sia di quelli "a valle" che concernono la pubblicazione dei testi e l'individuazione di strumenti per l'accesso all'informazione legislativa(5).

In Italia l'introduzione del linguaggio XML per il trattamento dei testi normativi è stata proposta e sperimentata dal progetto "Norme in rete", voluto dal Ministero per la Giustizia, finanziato dall'AIPA (Agenzia per l'informatica nella pubblica amministrazione) e sviluppato sotto la guida dell'Istituto di teoria e tecniche dell'informazione giuridica del CNR. Il progetto ha prodotto, tra l'altro, la DTD normativa, adottata come standard dall'AIPA per la pubblicazione in rete dei testi normativi italiani.

Per l'adozione di tale linguaggio come standard e, soprattutto, per la conversione dei testi normativi vigenti nel formato previsto dalla DTD è, a nostro avviso, necessaria l'interazione di due fattori.

1. Definizione e promozione di un linguaggio normativo "controllato"

La legistica o tecnica di redazione legislativa ha introdotto elementi univoci e ricorrenti nei testi normativi, per cui si può parlare di un linguaggio normativo più controllato rispetto a quello comune.

Tali regole sono applicate e rispettate nella redazione dei testi normativi d'emanazione statale e regionale a partire dalla fine degli anni ottanta. Certo, sfogliando i documenti normativi, non si può dire che tale applicazione sia stata, fino ad oggi, rigorosa ed uniforme da parte di tutti i produttori di norme. Tuttavia, alcune analisi su testi a campione hanno verificato una crescente diffusione e applicazione delle regole di tecnica legislativa;

A questo proposito si può citare la proposta contenuta nello studio di fattibilità "Informatizzazione del contenzioso in ambito pubblico" di estendere le regole di tecnica legislativa anche alla redazione dei contratti collettivi di lavoro pubblici (Studio preparato dagli Istituti CNUCE e IDG del CNR nell'ambito del Progetto "Processo del lavoro - ARAN", Contratto SIA17 03.SAC.26.1.99/A). Si possono citare anche le iniziative di formazione della Scuola superiore della pubblica amministrazione per diffondere la conoscenza delle regole di tecnica legislativa tra i segretari comunali.

La redazione di altri documenti normativi (quali i regolamenti degli enti locali, i contratti collettivi di lavoro, ecc.) non è vincolata al rispetto delle regole di tecnica legislativa. Si può però dire che, per prassi diffusa, si fa riferimento alle stesse regole di redazione, anche se la loro applicazione è rimessa alla sensibilità e alle conoscenze del redattore D'altra parte sono in corso molteplici iniziative (6) per l'adozione formale e vincolante delle regole di redazione statali/regionali da parte di tutti i soggetti che producono documenti normativi. Lo stesso progetto "Norme in rete" ha contribuito a promuovere tali iniziative per accelerare il processo di diffusione e recepimento di standard di scrittura normativa, evidenziando la loro utilità anche per il trattamento informatico, pur restando fermo che scopo principale di tali regole è quello di garantire maggior chiarezza e comprensibilità ai testi normativi

Parallelamente gli studi di teoria normativa, di linguistica giuridica e d'intelligenza artificiale giuridica hanno contribuito a definire modelli di strutture sintattiche e funzionali e comportamenti lessicali, morfologici e semantici peculiari del discorso normativo.

2. Utilizzo di strumenti per il riconoscimento del linguaggio naturale

E' intuitivo che la presenza di regole condivise consolida la definizione di modelli testuali che le indagini interdisciplinari appena ricordate stanno descrivendo con sempre maggior rigore e precisione. E' altrettanto evidente che tale modellizzazione agevola il riconoscimento automatico di strutture dei testi normativi e la relativa marcatura secondo gli standard XML. Tale marcatura sarà infatti difficilmente ottenibile dal redattore dei testi normativi in quanto estranea ai compiti e alle finalità della sua attività. Se attuati da altri operatori con interventi successivi potranno provocare una dilatazione, spesso insostenibile, nei tempi e costi di costruzione e gestione di basi di conoscenza normative strutturate secondo gli standard XML.

Proprio dalla prospettiva d'implementare uno strumento di parsing efficiente per il riconoscimento automatico degli elementi linguistici e strutturali dei testi normativi e la successiva marcatura e conversione di tali testi in formato XML, prende avvio il progetto che qui presentiamo. Il progetto ha però un obiettivo immediato, che possiamo definire recursivo: verificare e precisare, con analisi su un corpus normativo via via più esteso, come la prassi legislativa applichi e intepreti i modelli dedotti dalla regole di drafting legislativo e descritti dalle indagini teoriche appena ricordate.

Nell'analisi del testo tramite automi a stati finiti e finite state transducer è stata individuata la metodologia adeguata al riconoscimento e alla marcatura delle porzioni di testo rilevanti.

Per questo scopo il progetto si avvale di uno strumento tecnico flessibile e configurabile: il sistema di estrazione dell'informazione Sophia 2.1, che consente la formalizzazione di regole e modelli specifici (già definiti o in corso di definizione).

In particolare con il software suddetto si sta procedendo all'analisi e marcatura di un primo campione di testi normativi secondo le fasi seguenti:

normalizzazione del testo in ingresso, marcando adeguatamente tutte quelle strutture e quei segmenti testuali riconoscibili sulla base dei caratteri, ovvero senza ricorso a consultazione del lessico-dizionario;
analisi lessicale (categoria sintattica) e morfologica (tratti di flessione) del testo in ingresso;
disambiguazione della categoria sintattica delle parole (Part of Speech Tagging);
analisi sintattica parziale (denominata chunking), tesa ad identificare i gruppi sintattici minimi presenti nel testo in ingresso;
analisi semantica e identificazione delle strutture concettuali rilevanti nel testo d'ingresso.
conversione del documento analizzato dal formato Microsoftâ Word (o altro formato elettronico) in formato XML (secondo la DTD stabilita);

3. Le strutture normative oggetto d'analisi

La prima fase del progetto si è concentrata sull'identificazione e la formalizzazione di due strutture concettuali del testo normativo: la disposizione di modifica testuale esplicita o novella e la citazione del riferimento esplicito, che abbiamo ritenuto:

avere un elevato livello di formalizzazione, rigorosamente dettato dalle regole di drafting ed una funzione circoscritta sufficientemente definita dalla tecnica normativa;
svolgere un ruolo rilevante nell'organizzazione e coordinamento del testo e del sistema normativo, in quanto veicoli di nessi integrativi o modificativi di disposizioni normative all'interno di uno stesso testo o fra testi diversi.

La metodologia d'analisi adottata nel progetto, sia per le disposizioni di modifica, sia per le citazioni, è la seguente:

creazione di un modello vuoto con funzione di catalogo, sulla base di modelli prescrittivi già esistenti e definitori già formulati, per descrivere il microtesto da analizzare, e il suo rapporto all'interno dell'intera struttura testuale;
scelta del campione;
analisi sul campione, esame dei risultati e definizione di nuovi modelli descrittivi a partire dai risultati individuati;
ulteriore verifica dei modelli così ottenuti su un corpus più ampio e trasferimento dei modelli in un sistema di riconoscimento automatico del linguaggio.

3.1. La modifica testuale esplicita

G. Sartor, Riferimenti normativi e dinamica dei nessi normativi, in Il procedimento normativo regionale, Cedam, Padova, 1996, p. 256.

Le disposizioni di modifica, secondo Sartor, rientrano fra le principali tipologie di nessi normativi, classificate in base all'impatto del nesso normativo sulle norme interessate. Le modifiche (o modificazioni) distinte dall'altro grande ramo dei rinvii o riferimenti, sono nessi normativi caratterizzati dal fatto che la disposizione attiva incide sulla disposizione passiva, eliminandola, cambiandone il testo o cambiandone la portata normativa (pur lasciandone invariato il testo). Questa incidenza manca invece nel rinvio, in cui la disposizione attiva si avvale della disposizione passiva per completare il proprio significato, senza influire su quest'ultima.(7)

In relazione alla natura dell'impatto della modifica sulla disposizione passiva distinguiamo tra modifiche testuali, modifiche temporali (incidono sull'ambito temporale di applicabilità della disposizione passiva); modifiche materiali, (modificano il contenuto normativo della disposizione passiva senza incidere sul testo). Noi ci occupiamo solo delle prime, le modifiche esplicite testuali espresse con la struttura testuale che, tradizionalmente, i giuristi chiamano novelle.

Anzi è forse più corretto dire che la funzione della modifica normativa esplicita si esprime attraverso tre aspetti:

Inteso come ‘parte della disposizione che introduce la modifica’: esso contiene il dispositivo volto a precisare il rapporto (sostituzione o integrazione o abrogazione) tra la disposizione previgente e quella disposta dalla modifica testuale. L’alinea termina in genere con i due punti, seguiti dalla modifica testuale, messa fra virgolette.

la struttura della novella, che si compone di una parte introduttiva, detta alinea(8) e una parte che contiene la modifica testuale esplicita.
Le caratteristiche dell'atto normativo modificante e dell'atto modificato: indispensabili per poter successivamente ricostruire i nessi di modifica fra le diverse fonti normative (tipo, data, numero).
La citazione con cui si richiama il documento da modificare, che esprime il riferimento normativo (testuale esplicito anch'esso), elemento portante delle disposizioni di modifica.

In base ai tre aspetti indicati abbiamo cercato di definire e descrivere gli elementi qualificanti la disposizione di modifica. Tale descrizione, che riportiamo qui di seguito, è ricavata dalle regole di tecnica legislativa e dall'analisi di un campione di circa 100 disposizioni di modifica contenute in 8 provvedimenti normativi statali (le quattro leggi cd. Bassanini, e altri testi ad esse collegati) emanati tra il 1968 e il 1999

Tipo_di_atto_modificante: indica la tipologia (legge, decreto legge, d.p.r., decreto legislativo, ecc..) dell'atto normativo in cui è contenuta la modifica; serve a ricostruire velocemente i nessi fra le norme dal punto di vista dei rapporti fra le fonti nel caso delle modifiche ed è composta da:
- Nome dell'atto, Data, Numero: indicano gli estremi dell'atto normativo modificante, in modo da poterli identificare subito, sia nel formato di citazione esteso (con la data completa), sia nel formato contratto;

Posizione_novella: è la posizione, all'interno del testo modificante, in cui si trova la disposizione di modifica, in modo da identificare la formula di modifica con precisione, e anche di evidenziare subito a quale livello della struttura essa si presenti.
Oggetto_della_modifica: indica l'oggetto della modifica in senso stretto (ovvero se la modifica vada ad incidere sull'intera legge, oppure un articolo, un comma, una lettera, alcune parole). Questa annotazione è importante anche dal punto di vista della struttura, perché quando si va a modificare una partizione, l'effetto della modifica sarà anche sulla partizione di livello immediatamente superiore, in particolare per le aggiunte o le abrogazioni.

Tipo_di_atto_da_modificare, composto da:
- Nome dell'atto da modificare, Data_atto_da_modificare, Anno_atto_da_modificare; Numero_atto_da_modificare (Citazione): con questi quattro elementi si indicano le caratteristiche dell'atto normativo che si va a modificare, il tipo di atto e gli estremi del documento.

Azione: l'elemento descrive l'azione di modifica; in teoria dovrebbe assumere solo alcuni valori standard, a volte combinati fra loro: abrogazione, sostituzione, inserimento, aggiunta; ma può capitare che ci siano delle forme non previste (ad. es.: ricollocamento).

Espressione: è la forma linguistica con cui viene disposta la modifica, racchiusa fra le virgolette o altri eventuali segni ortografici (due punti, parentesi, ecc.), che delimitano le modifiche. L'espressione contiene l'enunciato che dispone l'azione, fino ai due punti che introducono il nuovo testo.
Il testo della modifica, che, in base alle regole di redazione, è racchiuso tra virgolette e preceduto da due punti.

Si sono inoltre individuati e definiti alcuni elementi testuali (preposizioni, avverbi, congiunzioni, ecc.) che fungono da connettori e qualificatori dei vari elementi della disposizione di modifica.

SCHEMA BASE

3.2. La citazione normativa

Abbiamo accennato al fatto che la citazione esprime il riferimento o rinvio normativo esplicito e che è elemento costitutivo della disposizione di modifica, ma è anche elemento indipendente con funzione di nesso che integra disposizioni diverse, pur non modificandone il testo. Una sua rigorosa formalizzazione è dunque indispensabile sia per il riconoscimento della modifica esplicita, sia per ogni attività di coordinamento automatico tra testi normativi.

Abbiamo individuato quali elementi costitutivi e distintivi della citazione normativa:

la Partizione che indica qualsiasi parte esplicitamente contrassegnata da una particolare espressione grafica in cui si suddivide l'atto (ad es. articolo, comma, lettera, capo, titolo, ecc.) con il relativo segno grafico di enumerazione (es. 3, c), ottavo, A, ecc.)
l'Atto (nome+data+numero)+ Per atto s'intende l'identificatore univoco dell'atto normativo richiamato, che di solito si esprime con il nome ufficiale dell'atto (es. legge, decreto-legge, decreto ministeriale, ecc.), la data di promulgazione o emanazione, il numero d'ordine assegnato all'atto.

Circa il nome sono opportune due osservazioni:

- il nome, per essere univoco, necessita spesso di alcune specificazioni da aggiungere a quello che è il nome proprio dell'atto; ad esempio per citare una legge regionale in un atto normativo statale, sarà necessario specificare il nome della Regione che ha prodotto la legge, oppure per citare un decreto ministeriale, si dovrà indicare il dicastero del ministro che l'ha emanato, pena una non univoca individuazione dell'atto citato;

- di solito quando si cita un atto normativo che è contenuto in un altro atto si cita con il nome del contenitore. Ad esempio un regolamento non si cita come tale, ma come Decreto del Presidente della Repubblica o Decreto del Ministro. Non sempre, però, questa regola è applicata (vedi, ad esempio, la citazione dei codici o dei testi unici).

Inoltre la citazione normativa può essere integrata con alcuni elementi che connettono le parti della citazione (in particolare preposizioni e punteggiatura). In base alle regole di tecnica legislativa (Manuale Rescigno) le partizioni dell'atto sono separate tra loro da virgole e una virgola separa la data dal numero dell'atto. In una delle forme di citazione abbreviata è previsto l'uso della preposizione tra il numero e l'anno.

E' poi prassi frequente l'uso della preposizione per connettere la citazione delle partizioni con quella dell'atto (ad es.: l'articolo 20 della legge…).

In base alla diversa scrittura dell'elemento Atto, abbiamo classificato i vari formati di citazione previsti dalle regole di redazione, in tre categorie, che abbiamo chiamato: normale, semplificata, non paradigmatica. Abbiamo anche descritto la struttura dell'elemento citazione che, per brevità, non illustriamo.

3.2.1. Modello di citazione normale

Tali informazioni riguardano i principali elementi che, come abbiamo visto, qualificano formalmente l’atto come normativo.

Innanzitutto la citazione deve essere univoca per individuare quello, e solo quello, specifico atto a cui si riferisce. Quasi sempre questa univocità si ottiene riportando tre informazioni:(9)

il nomen dell'atto (che indica la categoria a cui l'atto appartiene);

la data, che, di solito, è quella di promulgazione o di emanazione (il formato standard è: gg (in cifre)/mese (in lettere)/aaaa (in cifre);

il numero che identifica l'atto normativo (ha un massimo di quattro cifre).

A titolo d'esempio vediamo come si esprime il modello della citazione normale nel formalismo del sistema adottato.

Citazione_normale

[M-NOME-ATTO]+

DATE:vdata+

PUNCTX+

NUM-ATTO:vnum

{actionNEW(

vltipo:Riferimento:"Citazione_normale",

vlqualifica:qualifica_tipo_atto:alllist,

vltipo:tipo:alllist,

vlautorita:autorita:alllist,

vdata:data:all,

vnum:numero:all)}

Gli elementi che compongono la regola sopra indicata necessitano di alcuni approfondimenti.

In primo luogo bisogna notare che la regola suddetta è stata formalizzata prevedendo come obbligatori tutti gli elementi della citazione: il nome dell'atto (M-NOME-ATTO), la data (DATE), la virgola (PUNCTX) tra la data e il numero dell'atto e lo stesso numero dell'atto (NUM-ATTO). Abbiamo cioè scritto la regola Citazione_normale in modo da avere corrispondenza piena con le regole di tecnica legislativa.
Durante questa prima fase del progetto si è deciso di assegnare un’unica categoria semantica (NOME-ATTO) a tutte le tipologie di atti normativi. Ci sembra però opportuno porsi il problema di una categorizzazione semantica che tenga conto della diversa efficacia e provenienza delle fonti normative. Tale ulteriore categorizzazione può esser dettata dalla necessità di verifiche sostanziali nell’uso del riferimento da una fonte ad un’altra; ad esempio può una legge statale, e secondo quali modalità, citare una legge regionale? Oppure la distinzione tra fonti citate può consentire o facilitare trattamenti diversi per fonti diverse. Ad esempio il riconoscimento automatico di una fonte regionale, può agevolare la selezione nel Web del sito e del file che contiene la fonte?

3.2.2. Modello di citazione semplificata

Le regole di tecnica legislativa prevedono l'uso di citazioni abbreviate o semplificate nel corpo del testo dell'atto normativo: tuttavia le regole ne consentono l'uso solo dopo che, nel medesimo testo, è stata usata, almeno una volta, la medesima citazione in forma estesa.

Sono previsti due tipi di citazione semplificata che si possono formalizzare nel modo seguente:

Le parti in tondo sono variabili da istanziare, le parti in neretto corrispondono a valori.

Nome atto (esteso o abbreviato) + Numero atto/Anno emanazione-promulgazione (es.: l. 400/1988 o legge 400/1988);
Nome atto (esteso) + n. + Numero atto + del + Anno emanazione-promulgazione (es.: legge n. 400 del 1988).(10)

Nel linguaggio di Sophia le diverse forme di citazione semplificate suddette possono essere descritte dalla regola qui sotto riprodotta:

Citazione_abbreviata

[M-NOME-ATTO]+

AN-NUM-ATTO:vannumatto

{actionNEW(

vltipo:Riferimento:"Citazione_abbreviata",

vlqualifica:qualifica_tipo_atto:alllist,vltipo:tipo:alllist,

vlautorita:autorita:alllist,

vannumatto:numero_anno:all,

vltipo:rifBeg:start,

vannumatto:rifEnd:end

)}

3.2.3. Citazioni non paradigmatiche

La citazione di alcuni atti normativi, tra i quali i codici e la Costituzione, non segue il modello normale (nome atto+data+numero), ma, per prassi consolidata accolta dalle regole di redazione, è espressa con l'indicazione della partizione, seguita dal solo nome esteso dell'atto. In tali casi lo schema è dunque il seguente:

partizione+preposizione (facoltativa) + nome atto.

Esempi:

articolo 345 del codice civile;

articolo 345 codice di procedura civile;

articolo 3 della Costituzione.

Le regole del programma Sophia descrivono lo schema suddetto adoperando, accanto alle regole di formalizzazione della partizione, la semplice regola che riportiamo nella tabella seguente.

Citazionecodici

CODICI:vtipo

{actionNEW(

vtipo:atto:"Citazionecodici",

vtipo:tipo:all)}

I tre modelli appena descritti e tradotti nel formalismo del sistema d'information extraction, consentono di riconoscere le citazioni che possiamo chiamare benformate, in altri termini quelle scritte secondo le regole della tecnica legislativa.

Come sappiamo (cfr. par. 1) nei testi normativi le regole formali di scrittura della citazione non sono costantemente rispettate.

Per questo motivo, sulla base dei risultati dell'analisi in corso del corpus normativo selezionato, formalizzeremo regole per riconoscere quelli che possiamo definire formati irregolari di citazione.

3.2.4. Citazioni irregolari

E' però intuitivo che per le forme irregolari, di citazione, indeterminate per definizione, la formalizzazione presenta notevoli difficoltà, in quanto indeterminate per forma e per numero.

Non è quindi pensabile il riconoscimento automatico di qualsiasi forma di citazione. Si può poi considerare particolarmente difficoltoso il riconoscimento di quelle citazioni che non soddisfano nemmeno le condizioni minime di univocità del riferimento normativo, facendone venir meno la funzione specifica.

Rispetto a tali forme di citazione intendiamo procedere nel modo seguente:

cercare di definire le citazioni che contengono elementi che le rendono univoche (funzionalmente efficienti e benformate);
cercare di definire a priori una casistica di citazioni con "scostamento" minimo dal modello normale di citazione;
cercare di definire a posteriori (in base ad analisi a campione e rilevamenti statistici) citazioni irregolari ricorrenti con scostamenti più o meno ampi rispetto al modello normale.

Qui inizia una seconda fase dell'indagine, che dovrebbe portare all'estrazione di template diversi di citazioni irregolari o scorrette da verificare ed, eventualmente, riportare alla normalità.

Le prime analisi svolte su leggi emanate negli anni '90 e facenti parte del corpus normativo selezionato, confermano comunque che, grazie ai modelli di citazione regolare, appena descritti è possibile individuare ed estrarre oltre il 90% dei riferimenti normativi testuali espliciti.

I risultati dell'analisi saranno successivamente:

inseriti in un database al fine di produrre analisi di tipo statistico sulla qualità formale dei testi legislativi;
convertiti in files in formato XML, per consentire una ulteriore analisi dei risultati.

4. Prospettive

Abbiamo detto che l'indagine si propone di costruire modelli di strutture tipiche dei testi normativi e verificarne, con analisi testuali su un corpus-campione, la correttezza e l'utilità per l'implementazione di sistemi di parsing e information extraction; l'indagine vuole però essere propedeutica anche allo sviluppo di applicazioni che potranno riguardare:

l'integrabilità del motore linguistico di Sophia con il sistema Lexedit di correzione sintattica e stilistica dei testi normativi, sviluppato presso l'Istituto per la documentazione giuridica. Tale verifica potrà portare ad ipotesi di redesign del sistema stesso;
la possibilità di ottenere, sulla base del modello implementato di modifiche legislative, un applicativo in grado di automatizzare il meccanismo di hyperlinking tra testi normativi, favorendo così la creazione di una rete strutturata di riferimenti legislativi;
sulla base degli sviluppi paralleli del progetto "Accesso alle norme in rete" verrà valutata la possibilità di utilizzare Sophia 2.1 per automatizzare la conversione XML di giacimenti normativi esistenti (o in via di formazione) in quei casi in cui le strutture formali non siano sufficienti per una piena conversione, ma sia richiesta comprensione linguistica e semantica del testo.