ESB Forum
ISSN: 2283-303X

Indicizzazione semantica nell'era digitale

di Claudio Gnoli (in linea da dicembre 2002)

Testo dell'intervento presentato alla tavola rotonda sul Progetto di rinnovamento del Soggettario, organizzata a Roma il 17 ottobre 2002 dal GRIS e dalla Biblioteca nazionale centrale di Firenze, nell'ambito del 49esimo congresso nazionale dell'AIB (Bibliocom 2002)

Dal punto di vista teorico, è indubbio il valore di uno strumento di indicizzazione per soggetto rigoroso e coerente, rispetto alle applicazioni di information retrieval più brutali, basate sulla semplice corrispondenza tra parole cercate e parole presenti nei documenti. Ma nella pratica, possiamo sperare di applicare con successo un soggettario italiano all'indicizzazione di documenti digitali?

Per esprimere la mia opinione di fondo vorrei riferirmi, come ho già fatto altrove, a queste parole scritte già trent'anni fa da Brian Vickery, del "Classification research group":

"Vari meccanismi sono ora a nostra disposizione, come le schede perforate a selezione manuale ed a selezione meccanica. [...] I sistemi meccanici cambiano solamente il meccanismo di ricerca (cioè le operazioni materiali mediante le quali la ricerca viene effettuata), mentre non modificano i problemi di base dell'analisi a soggetto. La struttura di un campo specializzato, così come è definito dall'analisi a faccette, resta la stessa, e la stessa tabella di classificazione può essere adatta indifferentemente alla selezione meccanica ed al catalogo su schede."
(La classificazione a faccette / Brian Vickery. -- Roma : CNR, 1972.)

Nel contesto attuale, tuttavia, mi sembra che l'applicazione di un nuovo Soggettario ai documenti digitali si troverebbe a dover affrontare diversi problemi concreti: proverò quindi a considerarne brevemente qualcuno.

(1) Forse il problema principale è quello del costo dell'indicizzazione. Come ben sappiamo, la mole dei documenti digitali, sia ad accesso locale che sulla rete Internet, sta crescendo spaventosamente. Di fronte a questa situazione, sono state sviluppate diverse forme di indicizzazione meno sofisticate di quelle della biblioteconomia tradizionale, che possiamo elencare in ordine crescente di quantità di lavoro umano necessario a produrle:

la ricerca automatica per parole nel testo completo dei documenti, sia in archivi locali che nell'intero World Wide Web. Questa funzione non era ancora disponibile qualche decennio fa, mentre si sviluppava la teoria biblioteconomica classica della catalogazione, la quale perciò fa largamente affidamento sul concetto di accesso per intestazioni. È vero che gli indici automatici per parola, i cosiddetti motori di ricerca, risentono del tipico problema della decontestualizzazione (ad esempio, la ricerca di nomi propri risulta in genere più efficace perché essi sono rappresentati da parole rare; però incontro delle difficoltà nel momento in cui voglio usare la Rete per trovare qualche notizia di un gruppo di musicisti tradizionali liguri che si chiama semplicemente "il Gruppo"...). Tuttavia la forte competizione legata anche a risvolti commerciali ha stimolato grandi investimenti nello sviluppo di "motori" più raffinati, tra l'altro recuperando a questo scopo tecniche nate nel mondo della documentazione, come l'analisi di citazione: così, davanti all'efficenza straordinaria di strumenti come "Google", che scommetto molti di noi usano più spesso di qualsiasi enciclopedia, diventa ormai difficile conservare un atteggiamento snobistico da elitari detentori dei metodi di ricerca più raffinati...
le prime applicazioni concretamente apprezzabili di classificazione automatica, le quali si avvalgono di avanzate tecniche statistico-matematiche per analizzare la distribuzione e la frequenza delle parole nei documenti, le confrontano con schemi semantici analoghi a tesauri detti ontologie, ne estrapolano relazioni fra documenti affini e le visualizzano in strutture ad albero. Tali funzioni avanzate sono comparse negli ultimi due anni anche in alcuni indici e metaindici per parola di Internet, come "Vivisimo";
l'uso di parole chiave e descrizioni sintetiche del contenuto, che gli autori stessi dei documenti possono inserire entro appositi marcatori (ad es. in HTML keyword, description, lo stesso title): quando formulate con cura, queste informazioni potranno essere sfruttate efficacemente da indici sia automatici sia parzialmente manuali, come parole di importanza privilegiata rispetto a tutte le altre del documento; lo stesso può avvenire con parole interne al testo ma racchiuse da altri marcatori di titoli, di enfasi, di link ecc. (in HTML: h1, h2, h3, ..., strong, b, i, a, ecc.);
metadati attribuiti dagli autori dei documenti oppure da agenzie esterne nell'ambito di progetti di indicizzazione, di maggior valore quando riferiti a schemi standard: generali, come l'ormai affermato Dublin Core, o specifici per particolari aree di interesse, quali quella letteraria, archivistica, museale, geospaziale, ecc. Questi strumenti tra l'altro, grazie a sistemi di inclusione a scatole cinesi su più livelli, si propongono come compatibili (ovvero interoperabili) con schemi già esistenti, compresi descrizioni bibliografiche MARC, soggetti LCSH, classi DDC ecc.;
indici per argomenti di documenti selezionati, compilati da operatori umani, sia pur con l'ausilio di basi dati e interfacce automatizzate. Vengono chiamati in molti modi con varie sfumature (directory, subject gateway, hub, virtual reference desk...), ma sono tutti riconducili alla struttura dell'originaria "WWW virtual library" <http://vlib.org> avviata già ai primordi del Web dai suoi stessi ideatori, ovvero del popolarissimo e storico sito "Yahoo!". La scarsa precisione delle ricerche con gli indici automatici per parola viene qui superata, a spese del richiamo che è necessariamente basso trattandosi di documenti scelti e indicizzati a mano. Recentemente in questo campo ha dimostrato una sorprendente efficienza il modello di una rete distribuita di indicizzatori volontari, il cui prodotto "Open directory" <http://dmoz.org> è forse il migliore di questo genere ed è utilizzato grazie ad accordi commerciali da varie altre interfacce di ricerca tra le quali "Google directory" <http://directory.google.com>. La selettività, la coerenza e il rigore di questi strumenti variano molto a seconda dei casi; ma non mancano progetti che si propongono dichiaratamente di indicizzare solo materiale di qualità accademica, o che comunque evitano risvolti pubblicitari, come il recente "BBCi". Tutti questi indici sono in sostanza assimilabili a classificazioni, in quanto hanno una struttura gerarchica, rozzi accenni di faccettazione, e rinvii fra classi affini che si trovino in ramificazioni diverse della gerarchia (indicati per esempio in "Yahoo!" dal carattere @); si differenziano dalle classificazioni bibliografiche, oltre che per lo spirito pratico e non rigoroso con cui sono scelte le suddivisioni, perché di solito, in assenza di una notazione, le suddivisioni di un dato livello sono elencate in ordine alfabetico anziché sistematico. Non mancano però progetti che applicano a questo tipo di strumenti schemi di classificazione bibliografici -- di solito la Dewey e molto raramente altri (LCC, UDC) --, pur limitandosi generalmente a pochi livelli di suddivisione: un veterano è l'inglese "BUBL"; un ampio uso della DDC è inoltre stato attuato dal grande progetto americano "CORC" di OCLC, le cui schede sono però consultabili solo dalle istituzioni partecipanti.

Confrontata con questi strumenti, l'indicizzazione per soggetto si presenta chiaramente come un procedimento costoso, in termini sia di tempo necessario per indicizzare un singolo documento che di personale competente nell'uso di uno strumento specialistico. Applicata a documenti digitali, essa quindi si troverebbe inevitabilmente in competizione con strumenti meno raffinati ma già diffusi ed economici, e difficilmente riuscirebbe a coprire quantità di documenti altrettando grandi: appare se mai più probabile una sua applicazione a insiemi limitati di documenti specifici.

Tuttavia, la prospettiva dell'interoperabilità suggerisce un'alternativa: quella di allearsi ai "rivali", fornendo uno strumento più rigoroso che potrebbe affiancarsi ad altri per l'accesso agli stessi documenti. Un notevole esempio di questo approccio multiplo è offerto dal sottoprogetto di "CORC" dedicato all'applicazione della classificazione Dewey, denominato "Scorpion" <http://purl.oclc.org/scorpion/>. Anche l'indice per argomenti "Librarian's index to the Internet" <http://lii.org/advanced> offre tra le interfacce di ricerca una lista di soggetti LCSH. Inoltre, i termini preferiti e non preferiti raccolti dal Soggettario potrebbero essere sfruttati come un affidabile vocabolario di riferimento in singole fasi di processi di ricerca, o all'inverso di indicizzazione, applicati a testi in linguaggio naturale. Chiaramente quindi occorre assumere la prospettiva di una integrazione, piuttosto che contrapposizione, fra strumenti della tradizione bibliotecaria e tecnologie più recenti.

(2) Un'altra questione da considerare è quella della lingua: possiamo chiederci se abbia senso indicizzare in italiano nel momento in cui ci muoviamo in un contesto interconnesso su scala globale. Tuttavia, anche in questo caso l'informatica potrebbe permetterci di utilizzare strumenti automatici per gestire l'equivalenza fra termini di diverse lingue, così come fra termini di diversi linguaggi: ad esempio, "CORC" applica agli stessi documenti soggetti LCSH, classi DDC e metadati Dublin Core, attraverso un apposito software che confronta le parole del testo del documento con le registrazioni degli archivi LCSH e DDC, e ne estrae automaticamente possibili stringhe di soggetto e di classe, che vengono poi vagliate e ritoccate dagli indicizzatori umani. In questo senso, è particolarmente interessante la previsione di inserire nelle voci del nuovo Soggettario un campo per il numero di classificazione corrispondente: infatti, uno schema internazionale e diffuso come la DDC potrebbe fungere da ponte fra il Soggettario, considerato come archivio semantico di riferimento per la lingua italiana, e cataloghi redatti in lingue e linguaggi diversi.

(3) Un terzo aspetto possiamo definirlo come problema della precoordinazione. L'approccio precoordinato, tipico della indicizzazione per soggetto, viene indicato nello studio come quello da adottare. In apparenza questa idea è in contrasto con la situazione della ricerca in ambiente digitale, nella quale al contrario i risultati più efficaci sono dati dalla coordinazione a posteriori di una combinazione di diversi termini formulata sul momento dall'utente in base ai propri bisogni. Tuttavia, una struttura faccettata delle stringhe di soggetto, come quella che il nuovo Soggettario si propone di adottare sulla base delle esperienze di PRECIS e GRIS, può funzionare a questo scopo allo stesso modo di un'indicizzazione postcoordinata: infatti, l'information retrieval ci consente di recuperare parole poste indifferentemente all'inizio o all'interno delle stringhe di soggetto, purché la categorizzazione adottata in tutte le stringhe segua dei principi coerenti. Inoltre potrebbe qui rivelarsi molto preziosa l'idea, accennata nello studio, di una modularità del linguaggio, se davvero "le due strutture, quella semantica e quella sintattica, sono integrate nel sistema come strutture distinte e, all'occorrenza, separabili".

A questo proposito, se da un lato è vero che le stringhe di soggetto precoordinate sono scarsamente e male sfruttate nei nostri opac, questo perlopiù non è dovuto a una scarsa efficacia dello strumento soggetto in sé; bensì a una sua scarsa considerazione da parte della grande maggioranza degli opacmaster, che schiacciano soggetti e classi in campi singoli, spesso neppure navigabili o ricercabili, relegandoli così a puro elemento informativo accessorio alla descrizione ISBD, e dimostrando di non averne affatto compreso la potenza espressiva. Ricordando l'opinione di Eugenio Gatto, secondo cui lo sfruttamento dei dati semantici negli opac è ancora oggi in una fase "preistorica", non posso quindi che approvare energicamente, auspicando che porti a qualche sviluppo, il seguente passaggio dello studio: "Questa, dunque, è una buona occasione per ripensare le modalità di gestione e di ricerca nei cataloghi. È quello che cerca di fare il "Progetto esecutivo", indicando alcuni requisiti informatici minimi, cosicché i software di catalogazione siano dotati di meccanismi di base coerenti con i principi generali del nuovo linguaggio."

Insomma, se le tecniche avanzate di indicizzazione semantica sono ancora poco sfruttate dagli utenti, forse non è colpa dell'ottusità di questi, né dell'inadeguatezza dello strumento, bensì di bibliotecari e informatici che non lo prendono abbastanza sul serio, investendoci poco con la scusa che le più banali ricerche per parola sono maggiormente utilizzate. Può quindi valere la pena di tentare di rompere questo circolo vizioso, producendo qualche esempio dell'efficacia delle tecniche dell'indicizzazione semantica.