Le funzioni qui raccolte per il momento ancora in fase sperimentale si propongono, partendo da una porzione più o meno estesa di un testo sorgente
(ma sempre non inferiore a un verso), di esplorare l’intero corpus di Musisque Deoque o una sua porzione, alla ricerca di somiglianze, verbali o anche ritmiche sopraverbali.
Scelto il testo sorgente e impostate alcune opzioni di base, il motore di ricerca porterà all’attenzione dello studioso un certo numero di risultati potenzialmente significativi,
selezionati solitamente entro una massa ingente di materiali irrilevanti.
Le funzioni, per quanto complementari nei loro obiettivi, sono distinte in due varietà, gestite in pagine separate dell’applicazione, e precisamente:
Criteri di scoring e selezione
Entrambi gli approcci della ricerca di co-occorrenze (lessicale e metrico-verbale) tendono a produrre un eccesso di risultati, entro il quale è indispensabile dare modo allo
studioso di orientarsi.
Le nostre scelte a questo proposito partono dalla convinzione che, per quanto si possa affinare la capacità discriminativa dello strumento,
i reperimenti interessanti saranno sempre circondati da rumore di fondo; riteniamo pertanto che sia più fruttuoso,
anche se forse meno spettacolare, non mirare allo strumento perfetto che presenti allo studioso un risultato bell’e pronto,
ma piuttosto mettere a sua disposizione un corredo di filtri e di modalità di lettura dei risultati,
che lo aiutino, con l’indispensabile guida del suo acume e della sua esperienza, ad individuare la pepita in mezzo ai ciottoli.
Questo nella pratica si traduce nel non forzare al massimo l’azione selettiva automatica, onde evitare il rischio di perdere risultati preziosi,
che spesso si annidano dove non ce li aspettiamo. Resta ovviamente indispensabile una energica azione di scrematura preliminare dei risultati,
ma più specializzata nel discriminare ai livelli bassi che in quelli alti, più orientata, cioè, a eliminare gli scadenti che a far affiorare gli eccellenti.
Questi i principali criteri per la selezione:
-
Co-occorrenze lessicali
L’assegnazione di un punteggio all’occorrenza è basata su: l’identità delle forme, la sequenza delle due parole,
il confronto tra la distanza delle parole nel testo sorgente e nel target, la posizione nel verso.
Per quanto riguarda questo ultimo criterio, è assegnato un punto per ciascuna parola che occupa, nei due testi confrontati,
la stessa posizione significativa (prima, seconda, penultima, ultima); sono assegnati complessivamente due punti anche nel caso
in cui una sola delle parole condivida la posizione, ma sia uguale la loro distanza.
-
Co-occorrenze metrico-verbali
-
ricerca per parole: sono accettate solo le occorrenze che presentino la coincidenza di almeno 4 sillabe, in una o più parole;
poi le occorrenze sono ordinate per rilevanza, sulla base del numero delle sillabe coincidenti, della contiguità delle parole trovate e
della corrispondenza anche di consonanti;
-
ricerca per sequenza di sillabe: sono accettate solo le occorrenze che presentino un certo numero di corrispondenze anche nella porzione
consonantica delle sillabe.
Co-occorrenze lessicali: la ricerca per lemmi
Nella ricerca di co-occorrenze lessicali, la scelta Cerca per lemmi è impostata di default. Vale la pena di precisare che in questa opzione si applicano
le stesse regole della ricerca avanzata di Musisque Deoque: la ricerca dei lemmi non si estende a tutte le forme flesse che fanno capo al lemma, ma solo a
quelle con lo stesso numero di sillabe della forma sorgente; per converso la ricerca può estendersi anche ad altri lemmi nel caso di voci
composte che differiscano per il solo prefisso (ad esempio, advenio e pervenio).
Co-occorrenze metrico-verbali: la ricerca combinata
Si potrebbe pensare che la ricerca per sequenza di sillabe, operando in maniera meno specifica di quella per parole, possa includere anche i risultati di quest’ultima.
Ma la realtà non è così, e non è difficile spiegarsene il perché:
-
la ricerca per parole può intercettare parole non contigue, ciascuna sotto la soglia di reperimento della sequenza sillabica (4 o 5),
ma che globalmente diano un risultato accettato da quella ricerca (> 3 sillabe); per esempio due parole di due sillabe non contigue,
che il secondo metodo non troverebbe, anche operando per sequenze di 4 (dovrebbe operare per sequenze di 2, ma il numero di risultati sarebbe ingestibile);
-
i criteri di scoring dei due metodi sono per forza di cose abbastanza diversi e il secondo può escludere risultati che il primo accetterebbe.
Dobbiamo dunque ritenere che i due metodi non siano tra loro intercambiabili né alternativi, ma piuttosto complementari,
nel senso che, benché i risultati in parte si sovrappongano, ciascuno propone alcuni reperimenti significativi in maniera esclusiva.
Di qui l’offerta di combinarli in un’unica chiamata, che sommi le due serie di risultati eliminando le ridondanze.