SCRITTURA E COMPUTER

Cercando una stringa d'autore

Se lo «stile personale» di uno scrittore si riduce a una sequenza di parole punteggiatura e spazi riconoscibile da una macchina, dove va a finire la grande letteratura?
17 ottobre 2004
Errico Buonanno
Fonte: Il Manifesto

Presso la facoltà di Fisica de «La Sapienza», a Roma, al dottor Baronchelli può capitare di parlare di Manzoni. Può analizzare Gadda, fare confronti filologici tra Machiavelli e Bembo e, senza allontanarsi troppo dai suoi studi approfonditi sulla fisica della materia, condurre esperimenti sopra al Mastro Don Gesualdo e I Malavoglia. Per dirla con parole semplici, la facoltà ha avuto a che fare, di recente, con un programma di computer in grado di riconoscere un autore dal suo stile di scrittura. Può parer strano, certamente, un po' inquietante. Eppure anche un calcolatore, quando ha in memoria mezza pagina de La noia, capisce senza troppo sforzo che La ciociara è di Moravia: è un fatto. Dalle ricerche per la tesi a oggi, Andrea Baronchelli, fra l'altro, ha contribuito al perfezionamento dell'applicazione di una teoria che parte dagli studi di Claude Shannon, nel '48, passa per un lavoro russo degli anni `60 e ha di recente fatto passi in avanti nella sua utilizzazione proprio a «La Sapienza» con Benedetto, Caglioti e Loreto.

Di che cosa si tratti, è semplice: data una stringa, e vale a dire una sequenza di caratteri, di simboli - il dna, una raccolta di dati... - si vuol capire quale sia la sua entropia, fino a che punto sia insomma possibile comprimerla, riassumerla, «spremerne il succo» senza perdere l'informazione-base contenuta, che in questo modo potrà essere quantificata.
È una questione più che mai feconda, giacché se dal linguaggio della matematica, da quello fisico della natura, passassimo a occuparci del linguaggio più comune, tali problemi si rivelerebbero nella loro essenza pura e semplice di analisi della comunicazione, della struttura del discorso, o del più classico rapporto tra significante e significato. Quello che insomma si sta un po' cercando, è in fondo il cuore del messaggio, aldilà delle parole.

Come si stringe un testo
E dunque, fisici o linguisti, come si restringe un testo? Il metodo utilizzato dai comuni algoritmi di compressione, gli zipper usati dai pc, è quello di leggere tutta la sequenza di caratteri, come la leggeremmo noi, da sinistra a destra, e sostituire ogni elemento già incontrato in precedenza con una sorta di riferimento; immaginiamo che questo zipper trovi nel testo per la seconda volta la parola «casa» e, invece di ripeterla per esteso, la sostituisca con una freccetta che dica: «come sopra». E' così che la stringa si fa molto più compressa e, certo, un po' più analizzabile.

Fin qui, d'accordo, non siamo andati molto più avanti dell'esperienza di ogni giorno o delle già citate teorie dell'informazione. Il discorso può farsi, almeno per noi, più interessante nel momento in cui si sposti l'attenzione dall'informazione-base alla forma: poiché lo zipper si concentra sulle ripetizioni, è evidente che esso è in qualche modo in grado di segnalare l'affinità di due testi. Esso può per esempio riconoscere una lingua: se provassimo a unire un brano in inglese a uno in francese e comprimessimo il tutto, il risultato sarebbe di una certa «lunghezza». Ma se al contrario facessimo lo stesso con due brani nella stesso idioma, il programma, trovando più ripetizioni, darebbe una risposta molto più compressa. E non si creda che questa sia un'operazione oziosa giacché, con lo stesso identico modo di procedere, il nostro computer potrebbe trovare le similitudini tra due lingue differenti e costruire alberi filogenetici che segnalassero i differenti ceppi. Baronchelli mostra lo schema ottenuto prendendo come testo-base la Dichiarazione dei diritti dell'Uomo nelle sue varie traduzioni: il serbo unito al polacco nel ceppo slavo, l'uzbeco col turco nel ceppo altaico... e quanto al basco, è solo.

Si sarà oramai compreso come, passando all'analisi delle pagine di letteratura, il procedimento resti suppergiù il medesimo. Potremmo aver inserito nella memoria un brano di D'Annunzio, uno di Pirandello, uno di Svevo e uno di De Amicis. Prendendo dunque un'altra pagina di De Amicis, lo zipper darà il risultato più compresso quando questa sarà accostata al primo brano del suo autore. Non solo, ma inserendo un'opera di un personaggio assente dai campioni di partenza, potremmo stabilire a quale degli scritti-base essa assomigli. Così come abbiamo fatto per le lingue, si potrebbero costruire alberi letterari (basti sapere che Verga è diviso: con I Malavoglia e le Novelle è accomunato alla Deledda, con Tigre reale ed Eva sta con Fogazzaro) e, per chi vuole, trarne le conseguenze del caso. La Società Marlowaniana, con sede in Inghilterra, sostiene da anni che Marlowe e Shakespeare siano la stessa persona: recentemente ha scritto lettere di giubilo all'Università di Roma, giacché il programma, a loro dire, avrebbe confermato il tutto.

Il punto forse, però, è un altro: se è vero che tutti questi testi sono scritti nella stessa lingua, e se buon senso impone di non prendere pagine che trattino dello stesso argomento - altrimenti è evidente che la prova sarebbe inficiata dalla ripetizione di nomi di luoghi e personaggi: un po' troppo facile - su che cosa si basa il programma, per comprimere? Ovvero, se volessimo ora alzare il tiro, dove si nasconde esattamente il carattere peculiare di uno scrittore, la sua firma? La risposta è lampante: nello stile.
Facciamo un esempio. Prendendo in considerazione un campione di 32.768 caratteri de I Promessi Sposi (quel che si dice una «finestra») e utilizzando lo zipper LZ77, si ottiene un particolarissimo «dizionario» che comprende gli insiemi più frequenti trovati nel testo. Con essi il computer non intende naturalmente solo le parole di senso compiuto, ma anche congiunzioni e segni d'interpunzione. Ebbene, le «parole» più frequenti nello scritto manzoniano sono le seguenti: tre puntini seguiti dallo spazio (186 presenze); un punto, uno spazio, un trattino e uno spazio (101); punto e virgola, spazio, un «ma», uno spazio (96)... Sembrerebbero dati anonimi, eppure è proprio a partire da questo che il programma sa riconoscere un altro brano di Manzoni e affermare con certezza che non si tratta di Collodi. C'è da chiarire che la frequenza di punteggiatura incontrata nel campione de I Promessi Sposi non è un dato che si verifica con ogni altro romanzo, ma è pur vero che balza agli occhi come il fattore di riconoscibilità di un testo non sia affatto il contenuto, bensì l'organizzazione formale.

A prova di ciò, potremmo fare un altro esperimento. Con il metodo fin qui utilizzato il computer riconosce 81 autori su 87.

Un testo artificiale
Ma proviamo ora a proporre alla macchina non I Promessi Sposi per esteso, bensì un «testo artificiale» formato da un collage delle «parole» frequenti trovate dallo zipper e unite a caso. Lo strano super-Manzoni che ne esce fuori è il seguente (nota: ricordiamo che gli spazi, per il programma, sono caratteri come altri, e dunque non dobbiamo alterarli):

«I bisognoche pure aorna di crche la cosa giustiziaun sao dett lei scensarà un frattato dd'un ponate condolaratta».
Certo che minor fattore contenutistico di così...! Ebbene, confrontando ora questi «testi artificiali», pure accozzaglie di forma, il computer riesce a identificare 86 brani su 87, dimostrandoci fra l'altro che l'agognata firma dell'autore, il suo tratto distintivo, risiede - almeno per la macchina - molto più potentemente nella ripetizione di tali minime sequenze, piuttosto che in una pagina ben scritta.
Sia detto infatti per inciso che il procedimento qui illustrato funziona con la narrativa ma non con la poesia, o quantomeno quella più classica, giacché nella versificazione la struttura segue regole più nette e dunque, ai freddi occhi dello zipper, un sonetto di Dante e uno di Petrarca appaiono pressappoco identici.

Sapevamo già bene, d'altronde, che il linguaggio e il pensiero si basano in buona parte su questioni di meccanica, dunque non c'è ragione di scandalizzarci davanti a ciò che altro non è se non una forma di analisi di tali processi. Quel che ci sembra importante mettere in evidenza è semplicemente il fatto che l'italiano di uno scrittore si comporti, agli occhi del computer, esattamente come una lingua particolare, dotata di regole precise e dunque, per loro intima essenza, ripetitive. Possiamo dire davvero che Manzoni abbia trovato una propria, personalissima voce e, casomai, che uno zipper possa aiutarci in qualche modo a individuarne la grammatica.
Per chi teme qualche supremazia della macchina sulla critica, esiste d'altra parte ancora una speranza. Il metodo sviluppato a Roma è al momento quasi perfetto, giacché ha la pecca di attribuire sempre e comunque un brano a qualche autore, senza riuscire a capire se uno scritto non appartenga a nessuno dei nomi in memoria. Ciò significa che, sottoponendo alla macchina un pensierino qualunque, scritto da noi un istante prima, essa dirà che si tratta di un vero, proprio autentico Leopardi. La nostra intima soddisfazione verrà allora dallo scherzo riuscito o, sottilmente, dal sospetto presuntuoso che, in fondo in fondo, anche `sta volta un po' di ragione, il computer, ce l'abbia?

Articoli correlati

PeaceLink C.P. 2009 - 74100 Taranto (Italy) - CCP 13403746 - Sito realizzato con PhPeace 2.7.26 - Informativa sulla Privacy - Informativa sui cookies - Diritto di replica - Posta elettronica certificata (PEC)