Babele - Code is words

Excerpts from Nicola de Bellis, Introduzione alla bibliometria, 2014, AIB.

144-59

Per le citazioni il discorso è più complicato. Contarle presuppone l’accesso a un indice di citazioni (citation index), un tipo di repertorio strutturalmente diverso da quelli tradizionali basati sulla manipolazione di parole chiave o subject headings. In un indice di citazioni, l’elemento cruciale è dato dai legami bibliografici tra documenti citanti e documenti citati. Per chiarire la novità di questa prospettiva occorre evidenziare un risvolto semiotico che le consuetudini linguistiche tendono a oscurare: la differenza tra riferimento bibliografico (reference) e citazione (citation). Se un documento A cita, nelle note a piè di pagina o nella bibliografia finale, un documento B, allora A contiene un riferimento bibliografico (bibliographic reference, cited reference) a B. Ribaltando la prospettiva, dal punto di vista di B, lo stesso legame è una citazione (citation) di B da parte di A. Quindi il riferimento bibliografico è un attributo del testo citante, un segno che rimanda al documento citato nell’intento di comunicare al lettore la familiarità con una fonte. La citazione, al contrario, è un attributo del testo citato, un segno costruito invertendo in maniera speculare il riferimento bibliografico per mezzo di un artificio editoriale. Il riferimento bibliografico è orientato al passato, guarda all’indietro, e parla di ‘ciò’ che è servito per raggiungere una certa conclusione, mentre la citazione implica un movimento in avanti, verso il futuro, e mette in primo piano ‘chi’ ha ricevuto un atomo di attenzione da parte di altri documenti/autori. Un indice di citazioni non fa altro che ripetere questa operazione d’inversione su larga scala, elencando (su carta) o registrando (nei record di un database elettronico) le pubblicazioni citate nelle bibliografie di un gruppo selezionato di fonti e identificando, per ciascuna pubblicazione, l’origine della citazione, cioè il documento o i documenti nei quali compare tra i riferimenti bibliografici.

Pag. 10.

163-75

Il primo e più importante indice multidisciplinare di citazioni della letteratura scientifica mai realizzato è lo Science Citation Index (SCI), concepito negli anni Cinquanta dal chimico, information scientist e imprenditore statunitense Eugene Garfield5. Lo SCI fu pubblicato per la prima volta nel 1963, con dati relativi al 1961, dalla ditta Institute for Scientific Information (ISI) fondata da Garfield a Filadelfia, e fu seguito nel giro di pochi anni dal Social Sciences Citation Index e dallo Arts & Humanities Citation Index, che estendevano l’indicizzazione delle citazioni dal nucleo iniziale di riviste di scienze naturali e biomediche a un gruppo accuratamente selezionato di riviste di scienze sociali e umane. A completare il pacchetto, dal 1975 il Journal Citation Reports (JCR) iniziò a pubblicare annualmente l’Impact Factor (IF) delle riviste dello SCI (successivamente anche del Social Sciences Citation Index), una delle metriche più contestate e fraintese nella storia della bibliometria. Tali repertori, acquisiti dalla multinazionale Thomson Scientific & Healthcare (ora Thomson Reuters) nel 1992 e poi confluiti nel portale Web of Science (WoS), hanno costituito per molto tempo l’unica esperienza d’indicizzazione delle citazioni su larga scala, nonché la fonte privilegiata di dati grezzi per le indagini bibliometriche. Solo dieci anni fa, l’irruzione sulla scena di Scopus e Google Scholar (GS) ha cambiato le carte in tavola, offrendo ai bibliometristi gli strumenti per estendere e al tempo stesso scombussolare la base empirica della disciplina.

Pag. 11.

175-83

L’analisi quantitativa di pubblicazioni e citazioni può avvenire a diversi livelli di aggregazione, a seconda dell’unità di analisi prescelta: autori individuali o singole pubblicazioni, riviste, settori di ricerca, discipline, gruppi di ricerca, istituzioni, nazioni, regioni geografiche o il mondo intero. In ogni caso, non si tratta di un semplice esercizio matematico. La popolarità acquisita dagli indicatori bibliometrici nella valutazione della ricerca ha proiettato la bibliometria nella galassia della politica e del management della scienza, oscurandone le profonde affinità elettive con la biblioteconomia e le tecniche di information retrieval. La corretta applicazione dei metodi di analisi bibliometrica, tuttavia, è possibile solo a partire da una materia prima di qualità, vale a dire un database bibliografico ben strutturato, nel quale sia esercitato un controllo bibliografico approfondito tanto sulla forma standardizzata delle intestazioni (nomi autori, affiliazioni istituzionali, titoli di riviste) quanto sulla classificazione delle diverse tipologie di documenti.

Pag. 12.

203-6

L’avvento della vocazione valutativa e manageriale della bibliometria, a sua volta, è il risultato di un complesso di circostanze storiche, evoluzioni tecnologiche ed elaborazioni concettuali che hanno reso possibile, dalla metà del Novecento, la trasformazione della scienza e degli scienziati in entità misurabili secondo parametri oggettivi riferiti alle loro pubblicazioni.

Pag. 14.

248-50

Gli indicatori bibliometrici non sono strumenti neutrali di osservazione: modificano la realtà osservata e possono adattarsi agli usi più svariati a seconda degli interessi in campo. Ciò non esime dal dovere di comprenderne la logica interna di funzionamento.

Pag. 17.

261-66

Il riduzionismo bibliometrico è una delle tante forme in cui si è manifestata, nel corso della storia della scienza, la ricerca di certezze assolute in sfere governate dall’incertezza e dalla complessità. Non è solo un’esigenza speculativa. Utilizzati in maniera acritica, gli indicatori bibliometrici possono fornire un’arma retorica micidiale per legittimare decisioni politiche già prese sulla base di criteri che non hanno nulla a che vedere con l’equità di giudizio. Dal punto di vista di ‘chi’ parla il linguaggio della bibliometria, inoltre, l’applicazione di metodi riduzionistici ha i suoi vantaggi anche in termini di produttività, impatto, opportunità di carriera, e così via.

Pag. 17.

270-75

Gli oggetti della bibliometria, d’altra parte, non sono palline che rotolano su un piano inclinato né particelle subatomiche o segnali elettrici. La loro identità è socialmente (e psicologicamente) determinata, ma torna comodo fare finta che non lo sia perché è più facile scrivere articoli e libri su argomenti controversi quando si hanno dati di partenza certi (le pubblicazioni e le citazioni), fonti comuni da cui reperirli (gli indici di citazioni), un metodo collaudato per farli parlare (la matematica) e un pubblico ben disposto di burocrati/amministratori ai quali dare in pasto i risultati: «dopo tutto la vita si osserva con maggior vantaggio da una finestra sola»8.

Pag. 18.

315-23

Pubblicazioni scientifiche e citazioni delimitano l’insieme degli oggetti rilevanti per lo sguardo bibliometrico. La matematica, in particolare le tecniche di statistica descrittiva e inferenziale, circoscrivono il set dei metodi utili a far parlare quegli oggetti. Questo riduzionismo epistemologico ha una lunga storia, le cui origini si possono convenzionalmente far risalire alla rivoluzione scientifica del XVI-XVII secolo, allorché gli studiosi di varie discipline assimilarono rapidamente l’idea galileiana che la natura sia un gigantesco libro scritto in caratteri matematici. La matematica e la fisica erano in quel momento i modelli di riferimento delle altre scienze. Per Hobbes, ad esempio, sia la realtà fisica che quella sociale erano spiegabili in termini di moto e collisioni. Persino la teologia e la metafisica non ne uscirono indenni: l’Ethica ordine geometrico demonstrata (1677) di Spinoza era un tentativo di dedurre conclusioni filosofiche rigorose sulla struttura dell’universo a partire da un set iniziale di assiomi e definizioni sulla natura di Dio.

Pag. 21.

379-84

Durkheim sapeva, ad esempio, che le statistiche sul suicidio erano spesso imperfette perché dipendevano da valutazioni soggettive di periti legali ai quali era toccato di catalogare la causa di un decesso, ma ciò non gli impediva di considerare i tassi di suicidio rivelati dalle statistiche come «il fatto» da spiegare alla luce di squilibri strutturali nelle forze sociali. Tanti anni dopo, per un gesto molto più banale del suicidio quale citare un documento in una nota bibliografica, i bibliometristi avrebbero mantenuto un’analoga distanza da stati mentali e diagnosi soggettive per concentrarsi esclusivamente sulle regolarità osservabili nella distribuzione empirica delle citazioni bibliografiche.

Pag. 25.

415-20

Paul Otlet, il più visionario tra i padri fondatori dell’information science, era andato addirittura oltre prefigurando il bibliotecario del futuro come un professionista attivamente impegnato nella raccolta e classificazione sistematica di misure applicabili a ogni tipologia di documento: non solo banali stime di output, ma anche misure ‘sostanziali’ volte a determinare «il luogo, il tempo e, per quanto concerne i lettori, la probabilità per i testi di essere letti, quindi di esercitare la loro azione sulla società»24.

Pag. 28.

432-45

La bibliometria scelse per sé il partito più rassicurante, quello delle scienze ‘dure’, ignorando quanto sia ‘molle’ il meccanismo che presiede alla creazione degli oggetti di cui si occupa. Comte aveva spianato la strada invitando i sociologi a preoccuparsi del ‘come’ e non del ‘perché’ dei fenomeni. Durkheim si era incamminato proprio lungo quella via, enfatizzando la centralità, nell’analisi dei fatti sociologici, dello studio relativo alla natura, al numero e all’interrelazione tra le parti. Il suo insegnamento avrebbe ispirato numerose linee di ricerca, tra le quali merita attenzione il filone britannico di analisi strutturale che, attraverso il lavoro di Alfred Radcliffe-Brown e Siegfried Nadel, avrebbe condotto allo sviluppo dell’analisi delle reti sociali, una metodologia d’indagine destinata a grande popolarità tra gli stessi bibliometristi. Su un binario parallelo, in linea con l’insistenza di Durkheim e Talcott Parsons sull’importanza dell’interiorizzazione delle norme per l’equilibrio dei sistemi sociali, Merton aveva esplorato la struttura normativa della scienza in termini di requisiti funzionali che la bibliometria avrebbe immediatamente avallato: la scienza progredisce perché gli scienziati, a differenza di maghi e impostori, sottomettono le loro affermazioni a controlli di validità logica e verificabilità empirica che avvengono alla luce del sole, o meglio alla luce artificiale di un laboratorio, secondo criteri condivisi da colleghi e predecessori, lasciando traccia del loro passaggio in pubblicazioni e citazioni. Dipingere lo scienziato come un ‘paper-delivering professional’ la cui reputazione dipende anche dalla quantità e qualità dei legami bibliografici consegnati alla letteratura scientifica ufficiale è stato uno dei migliori (o peggiori) servigi resi dalla sociologia al settore emergente degli studi quantitativi della scienza.

Pag. 29.

456-61

Subito dopo il lancio dello Sputnik, apparve chiaro anche in Occidente che l’exploit sovietico era in gran parte la conseguenza di uno stile manageriale orientato al monitoraggio e alla pianificazione strategica delle attività di ricerca. Due influenti scuole scientometriche, del resto, erano già attive durante gli anni del ‘disgelo’ sotto la guida di Gennady M. Dobrov a Kiev e di Vasilij V. Nalimov a Mosca. L’eco del loro operato raggiunse più volte, in maniera diretta o indiretta, i bibliometristi occidentali. La fertilizzazione incrociata di esperienze e modelli tra i due blocchi ideologici contrapposti proseguì per diversi anni, anche grazie al lavoro di mediazione di spiriti eclettici come John Desmond Bernal26.

Pag. 30.

483-91

Le citazioni, si sa, sono oggetti fragili. Possono essere usate per tanti motivi, dal più corretto (documentare) al meno nobile (nascondersi dietro l’autorità, ostentare conoscenze mai acquisite, negare visibilità a colleghi non graditi). Trasformarle in una chiave per il controllo bibliografico e l’analisi scientometrica è possibile solo se si sottoscrivono due argomenti situati a metà strada tra la petizione di principio e l’ipotesi statisticamente plausibile. Primo, come sosteneva Merton, gli scienziati non citano in maniera arbitraria, bensì seguendo una ‘regola tacita’ che impone il riconoscimento del contributo di colleghi e predecessori, quindi ogni citazione incorpora una micro-valutazione, un atomo di peer review del documento citato. Secondo, come sostenevano Garfield e il suo discepolo Henry Small, le cited references vivono una vita relativamente autonoma nella rete delle pubblicazioni scientifiche, perché ogni documento citato incorpora un contenuto concettuale che prescinde dalle ragioni soggettive per le quali è invocato nel singolo paper e che viene riattivato al momento del suo ingresso in una o più bibliografie.

Pag. 32.

491-504

Nella letteratura scientifica, a differenza di quanto accade nelle scienze umane e sociali, si tende a citare gli stessi documenti per riferirsi agli stessi concetti (idee, tecniche, dati empirici, ecc.), quindi i riferimenti bibliografici possono essere considerati simboli relativamente stabili di tali concetti («concept symbols»). Se si accettano queste due premesse, allora le citazioni diventano sia tracce dei legami tematici tra documenti citati e documenti citanti da sfruttare in un sistema di information retrieval sia, soprattutto, indicatori del grado di approvazione dei primi da parte dei secondi, o quantomeno della loro utilità28. Ne derivano due possibili applicazioni, intrinsecamente legate tra loro, che hanno segnato il destino degli indici di citazioni: valutare la qualità della ricerca scientifica, non limitandosi a misurare l’input (i soldi spesi, il numero di ricercatori reclutati, e così via) e l’output grezzo (il numero di pubblicazioni prodotte), ma puntando a identificare i settori trainanti, i gruppi più forti, gli scienziati più meritevoli, le aree di sviluppo e quelle di stagnazione (vedi capitoli 3 e 4); mappare il territorio della scienza, cioè esplorare, sia da un punto di vista strutturale che dinamico, la rete di legami intellettuali tra documenti, autori, istituzioni, discipline, aree di ricerca allo scopo di approfondire la conoscenza del panorama esistente e raccogliere l’evidenza necessaria a promuovere (o giustificare) gli interventi per modificarlo (vedi capitolo 5).

Pag. 32.

527-35

Sul modello dei report statunitensi, compilazioni di statistiche sulle attività di ricerca e sviluppo a livello nazionale e internazionale hanno visto la luce anche in Europa, America Latina, Asia, Australia, stimolando al contempo la redazione di classifiche di merito di università ed enti di ricerca (vedi Appendice, sezioni F, G). La tradizione degli university world rankings ha avuto ripercussioni notevoli sul modo in cui la bibliometria viene percepita e consumata. Costruite con metodologie spesso incoerenti e inaffidabili, perlopiù disprezzate dai bibliometristi di professione, le classifiche unidimensionali in stile hit parade esaltano chi vi primeggia (o migliora la propria posizione da un anno all’altro) deprimendo i perdenti e gli ignavi, al punto da diventare talvolta un pretesto per il lancio di costosissimi programmi di research excellence.

Pag. 35.

558-68

la formula più adeguata per confrontare il simile con il simile è tuttora uno dei rompicapi prediletti dai bibliometristi, i quali possono contare su alcune soluzioni esemplari ormai considerate dei classici nel settore: l’algoritmo in stile PageRank di Francis Narin e Gabriel Pinski per classificare le riviste in base al prestigio delle fonti citanti31; gli indicatori d’impatto normalizzati in stile ungherese elaborati da Tibor Braun e collaboratori32; gli indicatori parziali convergenti di Ben Martin e John Irvine33; gli indicatori di medio livello per le valutazioni comparative di gruppi di ricerca e istituzioni elaborati nell’orbita del CWTS di Leida34.

Pag. 37.

572-84

Il mio obiettivo è esaminare statisticamente, in modo non troppo matematico, i problemi generali relativi alla forma e alle dimensioni della scienza e le regole di base che governano la crescita e le trasformazioni della scienza nel suo complesso […] Il metodo adottato è simile a quello della termodinamica […] Non si fissa l’attenzione su una specifica molecola chiamata George, che viaggia ad una specifica velocità e si trova in un posto ben preciso ad un istante definito; si considera solo la media dell’insieme in cui alcune molecole sono più veloci di altre35. Quando lo storico della scienza britannico Derek John de Solla Price enunciò una volta per tutte obiettivi e metodi della bibliometria, la sua legge esponenziale di sviluppo della scienza era nota da tempo: qualunque aspetto misurabile dell’evoluzione scientifica e tecnologica si esamini dalla metà del XVII secolo in avanti, come il numero di articoli pubblicati, di ricercatori attivi o di università, il suo caratteristico modo di crescita è esponenziale, cioè si moltiplica, in intervalli uguali, per un fattore costante. L’andamento esponenziale non era omogeneo in tutti i settori e non poteva procedere all’infinito, risultando di fatto poco funzionale alla costruzione di modelli predittivi, ma la puntualità della sua occorrenza appariva come la prima perentoria materializzazione di una legge fisica nella storia della scienza, rispecchiando il successo della legge di Malthus in demografia.

Pag. 38.

588-600

i dettagli matematici di tale distribuzione, Price illustrò le vie da percorrere in almeno tre aree cruciali della scientometria: Tracciare mappe dettagliate del territorio della scienza con un grado di risoluzione tale da rendere visibili non soltanto i confini disciplinari, ma anche i fronti di ricerca emergenti in cui gruppi di ricercatori collegati da rapporti informali (invisible colleges) promuovono l’innovazione scientifica e tecnologica: un compito che sarebbe stato svolto in seguito perlopiù tramite l’analisi delle reti di collaborazione e l’analisi delle cocitazioni (vedi capitolo 5). Esaminare la correlazione tra quantità e qualità mediante un’adeguata rappresentazione matematica del fatto che i ricercatori più produttivi sono spesso anche i più citati: una correlazione successivamente incorporata nell’indice h e derivati. L’indice h di un autore è definito come il numero h delle sue pubblicazioni più citate che hanno ricevuto almeno h citazioni (vedi § 3.5). Misurare le abitudini bibliografiche nelle diverse aree disciplinari, in particolare la tendenza dei ricercatori nelle scienze naturali e biomediche a privilegiare l’uso e la citazione di documenti recenti (immediacy effect): un compito preliminare alla costruzione (e validazione) degli indicatori normalizzati essenziali nelle valutazioni comparative (vedi § 3.4).

Pag. 39.

601-7

La prospettiva termodinamica rivelò ben presto anche la natura paradossale di ogni indagine quantitativa sulla scienza: si scoprono interessanti regolarità statistiche osservando il sistema dall’alto, mediante la descrizione analitica del comportamento globale di un gran numero di individui che si muovono contemporaneamente in diverse direzioni, ma non si può in alcun modo controllare la principale forza che alimenta il progresso scientifico, ovvero la creatività individuale della «specifica molecola chiamata George, che viaggia ad una specifica velocità e si trova in un posto ben preciso ad un istante definito». All’origine di tale impossibilità, oltre ai fattori socio-psicologici che rendono imprevedibili i comportamenti individuali, si trova anche un gap di natura matematica, una diseguaglianza strutturale nella distribuzione delle ricchezze dell’universo bibliografico che ostacola l’applicazione di tecniche statistiche collaudate a situazioni scientifiche reali.

Pag. 40.

607-12

La storia dell’emergenza e del progressivo aggiramento di questo ostacolo è lunga e complessa. Il suo preludio risale ai primi decenni del XX secolo, quando tre leggi empiriche fondamentali per la scienza dell’informazione furono svelate da Alfred J. Lotka, Samuel Bradford e George K. Zipf. Le formule di Lotka, Bradford e Zipf, chiamate spesso (impropriamente) «leggi bibliometriche», esprimono la relazione tra fonti (sources) e prodotti (items) derivati dalle fonti in tre ambiti: autori che producono pubblicazioni in una certa area, riviste che producono articoli su un certo argomento, testi che producono parole con una data

Pag. 40.

622-32

se si classificano le riviste citate in bibliografia per numero di articoli pubblicati e si conta quante ne servono per recuperare una data quantità di articoli di geofisica applicata, si trova una situazione sproporzionata: esiste un nucleo ristretto di riviste che pubblica la maggior parte degli articoli rilevanti per il settore di ricerca, a fronte di un insieme molto più ampio di riviste che pubblica una percentuale molto bassa di contributi. Il rapporto tra nucleo e periferia è talmente sbilanciato che, raggruppando le riviste in ordine decrescente di produttività, la quantità di riviste periferiche necessarie per raggiungere lo stesso numero di articoli di geofisica applicata prodotti dalle riviste del nucleo cresce in modo esponenziale. La proporzione tra riviste del nucleo e riviste nelle successive zone di produttività è del tipo: Il valore m, chiamato moltiplicatore di Bradford, caratterizza la collezione di riviste di partenza: ad esempio, se in un settore disciplinare 10 riviste pubblicano 500 articoli rilevanti su un certo argomento e se il moltiplicatore di Bradford per quel settore è 5, allora servirà un secondo gruppo di circa 105=50 riviste per ottenere altri 500 articoli rilevanti, un terzo gruppo di circa 1052=250 riviste per ottenere altri 500 articoli rilevanti, e così via.

Pag. 41.

641-47

Il denominatore comune delle leggi bibliometriche è una marcata asimmetria nella struttura dei processi descritti: pochi autori sono responsabili della maggior parte della letteratura prodotta nel loro settore disciplinare; un ristretto gruppo di riviste pubblica la maggior parte degli articoli rilevanti in una data area di ricerca; un numero relativamente basso di parole ricorrenti governa il comportamento linguistico individuale degli autori. In tutti e tre i casi, il grafico che rappresenta la distribuzione della produttività delle fonti in relazione al numero dei prodotti ha una forma iperbolica che rispecchia, anche se in modo approssimato, l’andamento di una legge di potenza (Figura 1). Un andamento antitetico rispetto alla forma simmetrica della distribuzione normale che Quetelet aveva imparato a vedere ovunque e che rappresenta la pietra angolare della statistica moderna.

Pag. 42.

651-57

Una conferma della validità delle tre leggi empiriche arrivò ben presto anche da altri settori dell’information science: Donald J. Urquhart analizzò il numero dei prestiti interbibliotecari di riviste presso la biblioteca dello Science Museum di Londra nel 1956, osservando che meno del 10% dei titoli era in grado di soddisfare circa l’80% delle richieste. Analogamente, verso la fine degli anni Sessanta, l’analisi della rete globale di citazioni tra riviste indicizzate nello SCI condusse Garfield a formulare la «legge di concentrazione», una generalizzazione della legge di Bradford in virtù della quale non più di 1.000 riviste sarebbero state sufficienti, in quel periodo, a coprire il nucleo della letteratura specializzata in tutte le discipline scientifiche, rendendo di fatto inutile, e forse persino sbagliato, ambire alla copertura totale

Pag. 43.

658-72

In realtà, il fatto che l’asimmetria (skewness) fosse la norma anziché l’eccezione nei dataset sperimentali era noto agli statistici ben prima di Lotka, Bradford e Zipf. Anzi, proprio una consapevolezza del genere era stata al centro della trasformazione concettuale che, nella seconda metà del XIX secolo, aveva condotto allo sviluppo di metodi e strumenti della moderna statistica inferenziale. La rivoluzione, avviata in Inghilterra da Francis Galton e dal circolo di matematici formatosi attorno alla rivista Biometrika, quali Walter F.R. Weldon, Karl Pearson, William S. Gosset (meglio noto con lo pseudonimo «Student») e George Udny Yule, segnò il passaggio da una concezione meccanicistica a una probabilistica delle scienze sperimentali: per quanto distante dalla ‘normalità’ appaia a occhio nudo la distribuzione dei dati sperimentali, ciò che conta realmente non è l’insieme dei valori ricavati dalle misure empiriche, necessariamente inaccurate, ma la dispersione di quei valori in conformità a una distribuzione di probabilità teorica espressa in forma matematica. È l’equazione che rende significativo l’insieme delle misure empiriche, collegando ciascun valore individuale con la probabilità della sua occorrenza per mezzo di un modello astratto determinato da parametri inosservabili stimati a partire dai dati stessi. Pearson elaborò un’intera famiglia di distribuzioni asimmetriche (skewed distributions) con l’intento di rendere descrivibile, in termini probabilistici, ogni possibile configurazione di dati sperimentali. Le sue soluzioni si dimostrarono inaccurate sotto diversi aspetti, ma contribuirono in modo decisivo ad affermare l’idea che il caso (randomness) sia parte integrante della struttura dei fenomeni studiati nelle scienze empiriche e che l’unico modo per controllarne gli effetti sia ammettere l’incertezza nel sistema sin dall’inizio, sotto forma di robusti modelli matematici

Pag. 43.

677-89

Guardando la Figura 1, si può pensare a tali esercizi come al tentativo di trovare la formula della curva (la linea continua) che meglio si adatta ai valori numerici individuali (i puntini) e di misurare la discrepanza tra la prima e i secondi. Gli sviluppi più interessanti si ebbero quando, concentrandosi sull’affinità strutturale delle tre leggi e sulla loro relazione con simili regolarità osservate in altri settori (ad esempio il principio 80/20 o legge di Pareto in economia), si riuscì a dimostrare che, sotto determinate ipotesi, le distribuzioni bibliometriche sono matematicamente equivalenti e possono essere derivate da un unico set iniziale di principi di tipo stocastico o deterministico. Un esempio importante di modello stocastico, basato su ipotesi già adottate da Yule per descrivere la distribuzione delle specie biologiche, è quello elaborato da Herbert A. Simon nel 1955 e successivamente rivitalizzato da Price42. Un esempio recente di modello deterministico è la generalizzazione della legge di Lotka proposta da Leo Egghe come fondamento per una descrizione matematica unificata di tutti i processi di produzione dell’informazione43. Altri sostanziali contributi in questa direzione sono arrivati da Bertram Brookes, Herbert Sichel, Abraham Bookstein, I. Ravichandra Rao, Andreás Schubert, Wolfgang Glänzel, Ronald Rousseau, Quentin Burrell: per quanto spesso indecifrabili dai profani, i loro modelli matematici avanzati sono l’ingrediente principale di una bibliometria per bibliometristi che forma il nocciolo duro della disciplina.

Pag. 45.

689-710

L’asimmetria delle distribuzioni bibliometriche non è un fatto puramente speculativo, ma ha ripercussioni pratiche molto pesanti, tre delle quali meritano un’attenzione specifica: La media aritmetica, e più in generale le misure di tendenza centrale, hanno scarso significato se il campione è estratto da una popolazione non normale: un limite grave se si pensa all’importanza rivestita dalle medie nella costruzione di indicatori normalizzati (vedi § 3.4.1). Il concetto di campione casuale (random sample) è problematico in un mondo asimmetrico: uno studio statistico sulla produttività delle università internazionali non avrebbe senso se, in nome della randomness, dal campione venissero escluse le università con valori eccezionali di produttività come Harvard, Cambridge, Stanford, ecc. Tecniche parametriche consolidate come correlazione e regressione lineare non danno risultati affidabili se le variabili in gioco non sono distribuite normalmente: una circostanza preoccupante se si pensa che la correlazione lineare positiva tra numeri di citazioni e giudizi di peer review è alla base di quasi tutti gli argomenti a favore dell’uso della bibliometria nelle valutazioni. L’occorrenza di distribuzioni non gaussiane in diverse aree delle scienze sociali, dall’economia alla sociologia, dalla psicologia alla linguistica, ha spesso alimentato il sospetto che le distribuzioni normali e quelle iperboliche sottendano irriducibili differenze nella struttura degli eventi descritti: le prime più adeguate a rappresentare fenomeni naturali derivanti dall’aggregazione di molte variabili dal comportamento casuale e indipendente; le seconde più consone a processi sociali dove l’azione del caso è frenata dall’occorrenza di valori eccezionali (outliers) che non possono essere semplicemente trascurati, ma devono trovare adeguata collocazione in un quadro teorico soddisfacente. Sulla scorta di Mandelbrot, i matematici russi Anatoly Yablonsky e Sergej Haitun arrivarono addirittura a sostenere che le distribuzioni iperboliche non sono compatibili con il paradigma gaussiano e che un nuovo quadro concettuale è necessario per manipolare entità non convenzionali come varianze infinite, medie e intervalli di confidenza instabili. Anche Bertram Brookes, uno dei ricercatori più attivi sul fronte bibliometrico anglosassone, maturò una tale ossessione per le implicazioni matematiche della legge di Bradford da invocare un nuovo «calcolo individuale» capace di competere con il tradizionale calcolo delle classi nella fondazione di una nuova teoria statistica per le scienze sociali44.

Pag. 45.

712-19

Il teorema del limite centrale afferma che, se si lavora con campioni di sufficiente ampiezza e si ipotizza una variabilità finita nei dati, qualunque sia la distribuzione delle variabili casuali sotto osservazione, la loro somma può essere trattata come una variabile con distribuzione approssimativamente normale. Le distribuzioni bibliometriche non sono gaussiane, ma entrano nel dominio di attrazione della gaussiana, prestandosi di conseguenza alla costruzione di indicatori basati su misure di tendenza centrale45. Tradotto nella pratica del lavoro bibliometrico, ciò significa che, se si lavora con un numero alto di pubblicazioni e citazioni, come tipicamente accade quando si effettuano conteggi a livello aggregato (gruppi di ricerca, istituzioni) anziché a livello individuale, allora si può trascurare l’effetto deviante dell’asimmetria.

Pag. 47.

731-33

trend degno di nota, semmai, è l’importanza crescente rivestita, negli ultimi decenni, dalla dimensione temporale. I modelli dinamici di trasferimento dell’informazione portano con sè una promessa molto allettante, vale a dire la possibilità di predire il corso futuro degli eventi, o quantomeno di rendere più precisa e manipolabile le nozione (altrimenti vaga) di cambiamento scientifico.

Pag. 48.

742-46

In effetti, arrivando tardi sulla scena del delitto, l’analisi bibliometrica mostra che c’è un assassino e c’è una vittima, ma non parla di motivi o moventi e soprattutto non offre scenari alternativi per l’interpretazione dell’accaduto. Questa rigidità speculativa aiuta a spiegare come mai, a fronte di modelli matematici oltremodo raffinati, la dimensione manageriale della scienza sia rimasta ancorata a indicatori grezzi e ranking unidimensionali che gli stessi bibliometristi di professione considerano aberranti sul piano teorico.

Pag. 49.

746-48

Strumenti Si possono contare le citazioni solo se si dispone di un indice di citazioni e per costruire un indice di citazioni serve un gruppo iniziale di fonti di cui indicizzare le bibliografie.

Pag. 49.

756-94

Un canale di ricerca cited by è ormai integrato nelle maggiori piattaforme commerciali di accesso alla letteratura accademica, come SpringerLink, ScienceDirect di Elsevier, Wiley Online Library, Taylor & Francis, SAGE, Wolters Kluwer. Oltre 4200 editori si appoggiano altresì a CrossRef, il servizio di reference linking nato alla fine del 1999, che utilizza la tecnologia DOI (Digital Object Identifier) per consentire agli utenti di muoversi senza soluzione di continuità dalla citazione bibliografica al testo completo di un documento ospitato su uno qualunque dei server consociati. Gli editori membri di CrossRef possono avvalersi della tecnologia di forward linking per assemblare statistiche rudimentali sugli articoli che citano un DOI di partenza. Ecco un elenco parziale di digital libraries e servizi bibliografici (gratuiti e non) di interesse disciplinare arricchiti dall’indicizzazione delle citazioni: inSPIRE per la fisica delle alte energie (); SAO/NASA Astrophysics Data System (ADS) per l’astronomia (); Scitation per la fisica, la chimica, le geoscienze e diversi settori dell’ingegneria (); MathSciNet per la matematica (<ams.org/mathscinet>); CiteSeerX () e IEEE Xplore () per l’informatica e l’ingegneria elettrica ed elettronica; SSRN (Social Science Research Network) per le scienze sociali (); RePEc per l’economia (); Chemical Abstracts Service (), accessibile attraverso strumenti analitici come SciFinder e STN, per la chimica; ProQuest CSA Illumina, la piattaforma di aggregazione delle banche dati del Cambridge Information Group, per una parte dei propri database di scienze sociali (); PsycINFO per la psicologia e scienze affini (<apa.org/pubs/databases/psycinfo>); CINHAL per le scienze infermieristiche (<ebscohost.com/cinahl>). Sul fronte dei servizi bibliografici nazionali, paesi tradizionalmente ai margini dell’establishment scientifico occidentale hanno, a loro volta, sponsorizzato la creazione di indici di citazioni per la letteratura scientifica domestica esclusa dal circuito ISI: Russian Science Citation Index (); Serbian Citation Index (); Turkish Citation Index (); Korea Citation Index () e Korean Medical Citation Index (); Indian Citation Index (); Citation Database for Japanese Papers, incluso in CiNii Articles (); Chinese Science Citation Database, Chinese Social Sciences Citation Index () e China Scientific and Technical Papers & Citations

Pag. 50.

794-99

La trasformazione decisiva è avvenuta a partire dal 2004, quando i database dell’ISI, confluiti nel frattempo in WoS di Thomson Reuters, sono stati affiancati da due concorrenti di prima fascia: Scopus di Elsevier e GS. L’entrata in scena degli altri due colossi editoriali, che ha segnato la fine di un monopolio durato circa 40 anni, è stata una piccola rivoluzione nel settore degli studi quantitativi, non solo perché ha evidenziato i limiti di copertura tematica, geografica e linguistica dei repertori ISI, ma anche perché ha aperto la strada alla sperimentazione di nuovi percorsi analitici e soprattutto, nel caso di GS, ha permesso di farlo gratuitamente48.

Pag. 52.

804-8

Chi entra in uno dei tre domini e, dove necessario, acquisti il biglietto d’ingresso, può percorrere da spettatore o da protagonista tutte le tappe del percorso bibliografico di acquisizione, valutazione, organizzazione, disseminazione e riuso del sapere scientifico-tecnologico. L’indice di citazioni del XXI secolo è una piattaforma integrata per la ricerca dell’informazione, nella quale si entra con certe domande e dalla quale si esce con risposte arricchite da soluzioni e opportunità supplementari imprevedibili alla luce delle domande iniziali, secondo una logica scandita dalle operazioni descritte di seguito.

Pag. 53.

831-45

L’informazione bibliografica recuperata non è neutra, ma mostra già i segni di una pre-classificazione effettuata dal sistema in conformità a parametri quantitativi. Tutti e tre i database, infatti, incorporano funzioni elementari di analisi bibliometrica basate sul conteggio di pubblicazioni e citazioni. Quando si fa una ricerca non si ottengono semplicemente dei record più o meno rilevanti in funzione dei termini utilizzati, ma record più o meno rilevanti che sono a loro volta dotati di una gerarchia interna prestabilita. In Google e derivati, questo meccanismo è inscritto nell’algoritmo stesso di ordinamento e visualizzazione dei risultati, il PageRank, che avvantaggia i documenti collegati ad altri documenti a loro volta oggetto di un alto numero di collegamenti da parte dei restanti nodi della rete. La compenetrazione tra bibliometria e information retrieval sta assumendo contorni sempre più marcati anche al di fuori degli indici di citazioni. La segnalazione dei Related Articles, ormai onnipresente nelle digital libraries di un certo calibro, sfrutta le cocitazioni (‘X e Y compaiono assieme nella bibliografia di A’) e i riferimenti bibliografici condivisi (‘A e B condividono il riferimento bibliografico X’) per recuperare nuovi documenti affini per argomento a quelli di partenza. I servizi di ‘raccomandazione’ online dei documenti, in modo analogo, sfruttano l’analisi statistica dei log di accesso alle risorse per generare suggerimenti di lettura in stile Amazon (‘Chi ha consultato X ha visto anche Y’) ed è recente la notizia che Primo, il discovery tool di ExLibris, incorporerà le metriche SNIP e SJR nell’ordinamento dei risultati delle ricerche (sui due indicatori, vedi § 3.4.2 e § 3.4.3).

Pag. 55.

848-65

Le loro funzionalità possono essere ulteriormente potenziate appoggiandosi alle piattaforme per analisi bibliometriche avanzate InCites e SciVal, che rielaborano i dati di WoS e Scopus con algoritmi sofisticati per il benchmarking delle prestazioni di individui, gruppi, dipartimenti, università. Sul versante individuale, i servizi ResearcherID () di Thomson Reuters e Google Scholar Citations (<scholar.google.com/citations>) permettono di creare, gestire e condividere via Web un profilo bibliometrico personale che si aggiorna automaticamente man mano che le pubblicazioni associate al profilo vengono citate. Scopus non offre uno strumento equivalente, ma investe maggiori risorse rispetto a WoS nella disambiguazione dei nomi e nella creazione di profili autore accurati. Elsevier, assieme a Thomson Reuters e altri editori, sponsorizza altresì il progetto ORCID (Open Researcher and Contributor ID), che rappresenta un primo passo concreto verso un sistema efficace di condivisione universale dei profili professionali individuali in ambito scientifico. ORCID () assegna a ogni autore un codice alfanumerico che identifica in maniera univoca la paternità intellettuale dei suoi contributi. Una volta creato un account ORCID, completo di curriculum e lista delle pubblicazioni (inserite manualmente o importate da CrossRef, WoS, Scopus), i codici che identificano lo stesso autore in Scopus, in WoS e potenzialmente in ogni altro servizio bibliografico online diventano interoperabili poiché tutti possono essere associati al codice ORCID. L’autore e la sua storia professionale diventano così riconoscibili in maniera inequivocabile lungo tutta la filiera della comunicazione (e della valutazione) scientifica, dalla submission delle pubblicazioni alle riviste e dalle richieste di finanziamento alle analisi bibliometriche. Se divenisse uno standard e fosse universalmente adottato, l’ORCID potrebbe in futuro retroagire positivamente su Scopus e WoS, contribuendo a realizzare quella disambiguazione dei profili autore che è il prerequisito di ogni indagine quantitativa ben fatta.

Pag. 56.

867-82

WoS e Scopus possono avvalersi, a tale scopo, del supporto di strumenti di gestione bibliografica online. Il primo ha alle spalle la tradizione dei software bibliografici di Thomson Reuters, in particolare EndNote. Elsevier, che già nel 2012 aveva messo le mani sul software di literature management QUOSA, ha recentemente acquisito anche Mendeley, il software bibliografico con un piede nel social networking e l’altro nel mondo delle metriche alternative alle citazioni, ed è lecito prevedere anche su questo fronte un’integrazione sempre maggiore tra le funzioni analitiche e quelle di ricerca/gestione bibliografica. GS, dal canto suo, può attingere alla suite Google Docs per la creazione, modifica e condivisione online dei documenti sulla piattaforma cloud del motore di ricerca. Entro certi limiti, è possibile intervenire direttamente anche sul lato server dei tre database mediante le API di programmazione. GS non ne ha (ancora) ufficialmente rilasciate, a differenza di altri servizi Google. WoS e Scopus autorizzano invece un uso mirato delle API per i propri abbonati, consentendo ad esempio di recuperare automaticamente i metadati (incluso il campo times cited) delle pubblicazioni ospitate in un open archive istituzionale o addirittura, nel caso di WoS, di effettuare un upload di massa di profili ResearcherID ‘puliti’ per tutti i ricercatori di una istituzione. Poco prima che il presente volume fosse dato alle stampe, Elsevier ha smesso di sponsorizzare un progetto potenzialmente innovativo sul fronte dei servizi bibliografici online, ovvero l’opportunità, offerta agli utenti di Scopus e ScienceDirect, di impiegare in modo estensivo le API per sviluppare e condividere gratuitamente applicazioni utili ad arricchire l’esperienza di ricerca. Sebbene dismessa, la piattaforma delle SciVerse applications ha mostrato come l’intelligenza distribuita nella rete degli utilizzatori possa contribuire a rendere visibile la quantità e qualità di informazioni latenti in un database commerciale:

Pag. 57.

908-18

A partire dal 2004, tanti studi comparativi hanno analizzato gli effetti della quantità e tipologia delle fonti indicizzate in WoS, Scopus, GS sulle rispettive potenzialità bibliometriche. Gran parte di quella letteratura è ormai obsoleta, dato che molte delle lacune sono state colmate, nel frattempo, dall’inclusione di nuove fonti nei tre database. Un confronto valido, peraltro, è molto difficile e forse anche concettualmente fuorviante. Il primo ostacolo è dato dal fatto che, mentre Scopus e GS mettono tutto nello stesso contenitore e chiunque vi acceda vede le stesse cose, WoS rende accessibile in maniera differenziale, a seconda dell’abbonamento sottoscritto, solo una parte della rete bibliografica tessuta dagli indici di citazioni di Thomson Reuters, e persino all’interno di tale sottoinsieme, l’utente vede solo la fetta di indici che, in termini cronologici, ricadono nella licenza sottoscritta. Un ostacolo ancora più pesante è la filosofia che sottende la selezione delle fonti nei tre sistemi: GS affida la scelta a un algoritmo segreto non particolarmente selettivo, Scopus a criteri in larga misura qualitativi applicati da un comitato internazionale di esperti, WoS a criteri qualitativi fortemente condizionati dalla legge di Bradford e dalla legge di concentrazione di Garfield (vedi § 1.3), dall’IF delle riviste e dall’ingente mole di statistiche sulla rete globale delle citazioni accumulate a partire dagli anni Sessanta.

Pag. 60.

922-31

Ecco perché è molto probabile trovare, per uno stesso articolo, più citazioni in Scopus che in WoS, e più citazioni in GS che negli altri due database. Il dubbio lecito è se quei numeri più alti rispecchino delle differenze reali di natura qualitativa o non dipendano piuttosto dalla semplice inclusione di riviste periferiche che hanno comunque bisogno, per guadagnarsi il palcoscenico, di attingere credibilità e autorevolezza (anche attraverso la scelta delle cited references) da un’élite di top journals. Questa ambiguità è ricorrente in bibliometria. Non si tratta di una questione puramente teorica o di una banale competizione tra database, bensì di una conseguenza del valore attribuito alle citazioni nel sistema della comunicazione scientifica: più citazioni sono normalmente associate a più impatto/utilità/qualità (vedi capitolo 3), ma non tutti concordano sul valore da attribuire a questa correlazione anche perché, con algoritmi in stile PageRank, è sempre possibile stabilire una gerarchia interna tra le citazioni in funzione del prestigio dei documenti citanti (vedi § 3.4.3).

Pag. 61.

944-46

A differenza di WoS, che ambisce a rendere percorribile la rete delle citazioni della letteratura scientifica contemporanea in tutta la sua estensione temporale, Scopus ha scelto di fermarsi al 1996, mentre GS mantiene segreto tanto l’elenco delle fonti quanto l’algoritmo del software d’indicizzazione.

Pag. 62.

958-64

Restano perciò fuori dal conteggio le citazioni che vanno dal nucleo delle fonti verso la periferia abitata da due gruppi di oggetti: documenti che non fanno a loro volta parte delle fonti e documenti che, pur facendo parte delle fonti, non sono stati riconosciuti come tali. In accordo con la terminologia adottata da Péter Jacsó49, le prime possono essere chiamate citazioni orfane (orphan references), le seconde citazioni isolate (stray references). Citazioni orfane e isolate possono essere recuperate e conteggiate manualmente in WoS e Scopus, ma si tratta di un’operazione laboriosa e senza alcuna garanzia di correttezza del risultato finale.

Pag. 63.

965-68

L’erede dello SCI è stato per lungo tempo l’unico serbatoio disponibile di dati bibliometrici su larga scala e rappresenta tuttora una scelta obbligata per valutare l’impatto di pubblicazioni anteriori alla metà degli anni Novanta. Il nucleo del sistema, in lenta ma costante espansione, è confinato nella WoS Core Collection e deriva dall’indicizzazione di oltre 12.000 riviste, 150.000 atti di convegni e 60.000 monografie (con altre 75.000 circa già preannunciate).

Pag. 63.

974-75

Book Citation Index (BCI), introdotto alla fine del 2011 nelle due versioni Science (BCI-S) e Social Sciences & Humanities (BCI-SSH), per le monografie a partire dal 2005.

Pag. 64. 1026 Il ResearcherID, va sottolineato, è un servizio gratuito indipendente da WoS.

Pag. 67.

1074-80

Gli usi bibliometrici di WoS vanno ben oltre il calcolo di citazioni e indici per singoli autori. Ecco tre opportunità poco esplorate: cercare informazioni relative a finanziamenti e riconoscimenti informali (Acknowledgments) disseminate negli articoli scientifici tramite i codici di campo FO (Funding Organization), FG (Funding Grant Number) e FT (Funding Text); fare ricerche per affiliazione istituzionale (AD) e organizzazione (OG) di appartenenza degli autori; recuperare la distribuzione delle citazioni di tutti gli articoli appartenenti alla stessa area tematica.

Pag. 71.

1092-94

La mancata disambiguazione delle affiliazioni istituzionali nei database bibliometrici è una fonte sistematica di errore che rende problematiche le analisi a livello aggregato ed è una delle ragioni per cui, a partire dagli anni Settanta, le principali agenzie scientometriche hanno creato versioni locali dei database ISI/Thomson per la correzione, disambiguazione e integrazione dei dati nativi.

Pag. 72.

1103-4

L’abbreviazione WC sta per Web of Science Category e si riferisce alle oltre 250 categorie tematiche utilizzate per la classificazione dei documenti indicizzati nel database.

Pag. 72.

1118-20

L’indicizzazione delle monografie, inizialmente limitata a quelle pubblicate in forma seriale con annesso ISSN, ha subìto un drastico cambiamento di rotta nel 2013, con il lancio dello Scopus Books Enhancement Program, che prevede l’inclusione di 75.000 titoli nei primi tre anni, seguita da ulteriori 10.000 monografie all’anno.

Pag. 73.

1159-62

Una volta recuperati i record di tutte e sole le pubblicazioni di un autore, si può navigare in avanti (cited by) e indietro (references) nella rete delle citazioni e, grazie alla funzione Analyze results, si possono analizzare i risultati in base a criteri quali il numero di articoli per anno, per rivista, per coautore, per affiliazione istituzionale, per tipologia di documento, per area tematica.

Pag. 76.

1176-79

Secondary documents: documenti citati nelle bibliografie delle fonti Scopus che soddisfano, anche in maniera approssimativa, i criteri di ricerca senza essere a loro volta inclusi tra le fonti. Qui vanno cercate eventuali citazioni isolate e orfane. Per tali documenti, che non hanno abstract e non vengono tenuti in considerazione nel Citation overview, non esiste un record completo nel database, quindi le informazioni disponibili sono necessariamente limitate.

Pag. 77.

1185-90

Una ricerca per l’autore Umberto Eco restituisce, nei confini Scopus, solo 9 documenti con un numero complessivo di citazioni pari a 1. La stessa ricerca, estesa ai secondary documents, porta alla luce le centinaia di citazioni isolate e orfane ricevute, a partire dal 1996, da opere come il Trattato di semiotica generale, Nel cuore dell’impero, I limiti dell’interpretazione, Il nome della rosa, e così via. In alternativa al canale dei secondary documents, si possono recuperare le citazioni isolate e orfane interrogando direttamente il campo Reference, in modo analogo a quanto si fa in WoS con la Cited reference search.

Pag. 78.

1197-99

Scopus facilita il riuso dei dati in applicazioni esterne, consentendo di esportare 20.000 record per volta in formato testo o CSV (a fronte dei 500 di WoS), ma per analisi avanzate e benchmarking di gruppi e istituzioni non sono sufficienti gli algoritmi di disambiguazione dell’Affiliation identifier.

Pag. 79.

1214-17

I materiali ricercabili in GS coprono uno spettro molto più ampio di prodotti della ricerca rispetto ai servizi concorrenti: articoli di riviste dai server degli editori, preprint e postprint da open archives disciplinari e istituzionali, relazioni di convegni, working papers, report, dissertazioni, presentazioni, brevetti, sentenze giuridiche e, a partire dal 2009, anche una piccola parte di monografie di Google Books.

Pag. 80.

1295-1304

Storici, filosofi e information scientists hanno sempre sospettato che le citazioni bibliografiche non siano semplici tracce di legami intellettuali o atomi di peer review64. Lo stesso Merton aveva evidenziato alcune falle nell’edificio normativo costruito attorno all’uso bibliometrico delle citazioni, in particolare l’«effetto S. Matteo» («Matthew Effect»), vale a dire la tendenza, da parte di autori già affermati, ad accumulare riconoscimenti (anche simbolici) in funzione dello status sociale acquisito anziché del valore effettivo del proprio contributo65. Senza scomodare i top scientists, lo stesso effetto è ravvisabile ogniqualvolta, a seguito di un concorso truccato o di una cattiva peer review, un ricercatore mediocre occupa il posto che sarebbe spettato a uno più capace: il primo avrà comunque a disposizione una serie di mezzi (finanziamenti, strumentazione di laboratorio, opportunità di viaggi e collaborazioni, ecc.) per produrre qualcosa che lo pone, da quel momento, nella condizione di acquisire vantaggi cumulativi rispetto al secondo.

Pag. 85.

1306-10

Da impronte permanenti del passaggio di idee, le citazioni vennero così degradate a proiettili retorici al servizio delle strategie argomentative degli autori: si cita (o si omette di citare) per rafforzare la credibilità delle proprie tesi e oscurare/demolire quelle degli altri, in modo da preservare gli equilibri di potere esistenti o spostarli a proprio vantaggio, anche se solo di pochi millimetri. Ciò rende impraticabile la costruzione di una teoria generale delle citazioni capace di garantire un fondamento scientifico agli indicatori bibliometrici66.

Pag. 86.

1311-19

La reazione a questa consapevolezza ha preso tre forme principali: alcuni hanno cercato di rintracciare in maniera sistematica i motivi per citare tramite interviste dirette agli autori oppure, per via indiretta, identificando il contenuto e il contesto di provenienza delle citazioni in campioni selezionati di articoli67; altri hanno applicato una qualche forma di analisi di regressione alle caratteristiche bibliografiche ed extra-bibliografiche di un campione di articoli (ad esempio lunghezza del testo e della bibliografia, metodologia di ricerca adottata, prestigio dell’autore e della rivista, ecc.) per identificare i fattori in grado di predire l’occorrenza di citazioni68; altri ancora, infine, hanno completamente negato la possibilità e persino l’utilità di una teoria delle citazioni basata sulle abitudini bibliografiche degli autori69.

Pag. 86.

1327-35

Una delle prime cose che si imparano nei corsi di avviamento alla statistica è come calcolare le distribuzioni di frequenza relativa. Un’operazione banale che, in fin dei conti, è poco più di una formalizzazione del puro buon senso. Se ho due cassette di mele provenienti da due diversi fruttivendoli e scopro che nella prima ci sono 12 mele marce mentre nella seconda ce ne sono 23, non bastano questi numeri per farmi un’idea provvisoria dell’affidabilità dei due fruttivendoli. Mi serve sapere quante mele ci sono complessivamente in ognuna delle due cassette e che proporzione esiste tra mele marce e mele buone nei due casi. Se nella prima cassetta ci sono in totale 50 mele e nella seconda 90, allora nel primo caso avrò una proporzione di mele marce pari a 12/50 = 0,24 (o il 24%), mentre nel secondo la proporzione di mele marce sarà 23/100 = 0,23 (o il 23%). In proporzione, quindi, il secondo fruttivendolo mi ha fornito un numero relativamente inferiore di mele marce rispetto al primo nonostante, in assoluto, le mele marce della sua cassetta siano più numerose. In gergo, si dice che il numero assoluto di mele marce è stato normalizzato dividendolo per il numero complessivo di unità del gruppo di provenienza.

Pag. 87.

1350-55

La normalizzazione trasforma l’indicatore assoluto (il numero di pubblicazioni o citazioni) in indicatore relativo (il numero di pubblicazioni o citazioni modificato in modo da riflettere il valore di un documento/autore all’interno di una classe di documenti/autori simili). Tale correzione rende possibili giudizi comparativi del tipo: «l’autore A di area X è più produttivo dell’autore B di area Y» oppure «il documento A di area X è migliore del documento B di area Y poiché la performance di A supera di una certa quantità misurabile quella degli altri documenti di provenienza X, mentre la performance di B non supera quella degli altri documenti di provenienza Y della stessa quantità».

Pag. 88.

1371-74

È noto, ad esempio, che gli articoli di taglio interdisciplinare tendono, in alcuni settori, ad attrarre più citazioni di quelli specialistici, ma è pressoché impossibile catturare l’interdisciplinarità in una formula utilizzabile nelle valutazioni70.

Pag. 90.

1495-1500

L’IF è una misura dell’impatto esercitato dall’articolo ‘medio’ di una rivista in un arco relativamente breve di vita. Per una data rivista J in un dato anno Y, è calcolato come rapporto tra due quantità A e B: A è il numero di citazioni ricevute nell’anno Y da tutti gli articoli usciti su J nei due anni precedenti Y-1 e Y-2, mentre B è il numero di articoli citabili (citable items) pubblicati su J nel corso degli stessi due anni.

Pag. 98.

1952-58

Il PageRank si avvale di una formula ricorsiva basata sulla teoria probabilistica dei processi di Markov per assegnare un peso alle pagine web in funzione del numero di link ricevuti. La popolarità di una pagina è determinata dal numero di pagine che contengono un link ad essa. Il numero grezzo però non basta, è la posizione della pagina nella rete globale degli hyperlink a definirne lo status o, nel gergo della network analysis, la ‘centralità’ (eigenvector centrality). A parità di link in entrata, infatti, l’algoritmo assegna un peso maggiore alle pagine che ricevono link dalle pagine a loro volta più popolari, cioè con valore di PageRank più alto. Pertanto, se si equipara un link a un voto di fiducia, i voti provenienti da chi gode già di maggiore fiducia valgono di più rispetto ai voti di chi è meno votato o vota per la prima volta.

Pag. 128.

2005-15

3.5.1. L’indice di Hirsch L’indicatore bibliometrico più popolare e discusso degli ultimi anni è l’indice di Hirsch o indice h, introdotto nel 2005 dal fisico di origini argentine Jorge E. Hirsch103. Fautore di una teoria della superconduttività a basse temperature diversa da quella ufficiale e perciò ignorata dai top journals, Hirsch cercò un’alternativa ai sistemi di valutazione imperniati sull’IF che penalizzano sistematicamente l’impatto del genio individuale a favore di idee ortodosse consegnate a un nucleo ristretto di riviste. L’indice h gli sembrò allora una soluzione immediata ed elegante per restituire visibilità bibliometrica all’individuo. Uno scienziato ha indice di Hirsch=h se h suoi lavori sono stati citati almeno h volte, mentre i restanti lavori hanno ricevuto non più di h citazioni. Ad esempio, se un autore ha pubblicato 100 lavori, di cui i primi 3 più citati hanno ricevuto almeno 3 citazioni ciascuno, mentre i restanti 97 hanno ricevuto un numero di citazioni minore o uguale a 3, allora h=3. Se un autore ha pubblicato 500 lavori di cui uno solo ha ricevuto 1.000 citazioni mentre gli altri 499 non sono stati mai citati, allora h=1.

Pag. 131.

2025-29

Un aspetto critico dell’indice h è l’insensibilità a valori estremi: grazie alla stabilità dell’h core, l’autore di poche pubblicazioni molto citate avrà un h basso al pari dell’autore di molte pubblicazioni poco citate: una qualità apprezzabile se serve ad attenuare il peso del semplice numero di pubblicazioni nelle valutazioni, non altrettanto se limita in modo artificioso la quota di riconoscimento che un autore può attendersi dall’aver pubblicato pochi lavori molto influenti.

Pag. 133.

2198-2211

Chi aspira, in Italia, a un posto di professore universitario di prima o seconda fascia deve sottoporsi a una procedura selettiva che va sotto il nome intimidatorio di Abilitazione Scientifica Nazionale. L’obiettivo della valutazione, amministrata dall’ANVUR, è premiare i candidati che abbiano fornito risultati di rilevante «qualità» e «originalità», a livello nazionale e internazionale, principalmente sotto forma di pubblicazioni scientifiche120. Per i candidati del 2012, la stima della capacità di produrre contributi di «qualità» in misura quantitativamente rilevante è avvenuta, nei settori identificati come bibliometrici, mediante tre indicatori di produttività e impatto: Indicatore 1: Numero complessivo di articoli pubblicati negli ultimi dieci anni su riviste indicizzate in WoS o Scopus. Indicatore 2: Totale delle citazioni ricevute dal complesso delle pubblicazioni elencate nel curriculum, normalizzato (cioè suddiviso) per l’età accademica dell’autore. Indicatore 3: Indice h contemporaneo, ovvero una particolare modifica dell’indice di Hirsch che accentua il valore delle citazioni di articoli recenti (vedi § 3.5.2). I numeri di citazioni che entrano nella definizione degli indicatori 2 e 3 sono calcolati in base a un criterio conservativo: se una pubblicazione è indicizzata in una sola delle due banche dati, si prende il numero di citazioni corrispondente; se la stessa pubblicazione è indicizzata in entrambe le banche dati, si prende il numero più alto tra WoS e Scopus. In entrambi i casi le autocitazioni non sono escluse.

Pag. 144.

2292-96

Gli articoli di Medico e Bambino non sono quasi mai citati da riviste internazionali, ma pubblicare su Medico e Bambino è probabilmente una delle vie più celeri per essere letti e recepiti dai pediatri di base italiani, quindi per esercitare un impatto reale sulle conoscenze da trasferire nella pratica diagnostica e terapeutica quotidiana. Quanto vale, in termini di merito individuale, percorrere questa via? Gli indicatori bibliometrici dell’ANVUR non sono né giusti né sbagliati, sono limitati al pari di tanti altri che si sarebbero potuti usare al loro posto.

Pag. 150.

2311-13

puntare tutto su un singolo numero o su un set limitato di numeri, allora, conviene pianificare una batteria di indicatori capaci di far emergere le molteplici sfaccettature della realtà analizzata all’interno di un report arricchito da elementi contestuali e considerazioni riflessive sui pregi e difetti della metodologia adottata.

Pag. 151.

2329-36

Un brevetto è costituito da tre sezioni fondamentali: un frontespizio contenente i dati bibliografici e amministrativi necessari all’identificazione del documento (titolo, abstract, numeri di classificazione, nome e indirizzo dell’inventore e della ditta assegnataria, data e numero della domanda); la descrizione dell’invenzione, corredata da eventuali illustrazioni, con le specifiche tecniche e i riferimenti bibliografici forniti dall’inventore; le rivendicazioni (claims), cioè l’elenco dettagliato delle caratteristiche specifiche dell’invenzione per le quali si chiede tutela giuridica. Laddove è prevista una procedura di verifica dei requisiti di brevettabilità, come negli Stati Uniti, in Giappone e presso l’European Patent Office, il brevetto contiene (spesso sul frontespizio) anche una lista aggiuntiva di riferimenti bibliografici forniti da un esperto della materia, un esaminatore esterno (patent examiner), con l’obiettivo di precisare, limitare o smentire le rivendicazioni di novità e utilità dell’invenzione.

Pag. 152.

2346-65

L’analisi della rete bibliografica dei brevetti, condotta normalmente su database commerciali come il Derwent Innovations Index di Thomson Reuters, ha permesso di aprire diversi fronti di ricerca126: Si analizzano i legami bibliografici brevetto-articolo e brevetto-brevetto per ricostruire la dinamica di diffusione dell’innovazione tecnologica, vale a dire i trasferimenti di conoscenze dalla ricerca di base a quella applicata e tra le diverse aree all’interno di quest’ultima. La percentuale di citazioni verso la letteratura scientifica, in particolare, è diventata un indice della correlazione tra tecnologia e scienza di base utile ad accertare quanto high-tech sia un’azienda di alta tecnologia. Attraverso metodi avanzati di mappatura e data mining, come cocitation analysis, bibliographic coupling e network analysis (vedi capitolo 5), si identificano le connessioni e le sovrapposizioni non visibili a occhio nudo tra ditte, tecnologie, prodotti, e si cerca di delineare il contorno dei fronti emergenti dell’innovazione tecnologica. Si stima, mediante indicatori più o meno avanzati basati sul numero dei brevetti prodotti e delle citazioni ricevute, il peso e la capacità d’innovazione tecnologica di individui, istituzioni, ditte, nazioni. In un’ottica di business intelligence, ciò permette di individuare i settori tecnologici trainanti e i ricercatori di punta, nonché di stimare il valore di mercato di un portafoglio brevetti, quindi, indirettamente, la capacità di una ditta quotata in borsa di attrarre nuovi investitori. Questi studi hanno mostrato, tra le altre cose, che esistono delle affinità bibliometriche profonde tra ricerca di base e ricerca applicata: anche nella tecnologia, come nella scienza, il ciclo di vita delle voci bibliografiche varia a seconda dei settori (un brevetto di elettronica cita normalmente brevetti più recenti di quanto non faccia uno di tecnologie navali); anche nella tecnologia si tende a citare maggiormente documenti di provenienza geografica circoscritta; anche nella tecnologia la distribuzione delle citazioni tra brevetti di diverso calibro è asimmetrica, con un numero assai limitato di brevetti molto citati e di riconosciuta importanza tra gli addetti ai lavori, a fronte di una percentuale molto alta di brevetti di impatto scarso o nullo.

Pag. 153.

2380-84

Non esistono criteri netti di demarcazione tra scienze naturali e scienze sociali/umane. Per quanto possa sembrare ovvio che la fisica e la chimica sono scienze naturali, la sociologia e l’economia scienze sociali, la critica letteraria e la musica scienze umane, le radici di tale ovvietà non affondano in pareti divisorie senza tempo né fessure, bensì in classificazioni puramente convenzionali variabili a seconda dei contesti e degli obiettivi della categorizzazione.

Pag. 156.

2398-2412

Al contrario, in ambiti come la storia, la pedagogia, gli studi classici, letterari, storico-artistici e larghi settori della giurisprudenza, le consuetudini dei ricercatori sono differenti: si leggono, si pubblicano e si citano molteplici tipologie di fonti, in particolare monografie, ma anche articoli di riviste a circolazione limitata e in lingue diverse dall’inglese; si affrontano molti temi di interesse locale; si fanno ricerche in database perlopiù privi di requisiti bibliometrici e si recuperano documenti rilevanti spesso in modo non sistematico, attraverso il browsing o il filo d’Arianna delle bibliografie, utilizzando come filtro la rilevanza ‘paradigmatica’ oltre che tematica (non solo documenti su un certo argomento, ma anche documenti che offrono una certa interpretazione dell’argomento); si citano fonti di età e provenienza estremamente variabili, attribuendogli spesso significati originali, anzi, la reinterpretazione delle fonti è spesso l’essenza della novità di un contributo; l’accessibilità online è ancora limitata, soprattutto per le pubblicazioni monografiche di area umanistica. Il Book Citation Index di Thomson Reuters, lo Scopus Books Enhancement Program di Elsevier e soprattutto le prospettive aperte dall’integrazione (possibile) tra GS e il gigante dormiente Google Books sono altrettanti sintomi delle potenzialità bibliometriche dei database esistenti in settori estranei alle hard sciences. Allo stato attuale, tuttavia, il contributo di WoS, Scopus e GS alla causa delle valutazioni quantitative nelle scienze umane e sociali è minimo.

Pag. 157.

2426-27

European Scoping Project127.

Pag. 159.

2447-49

Lo stesso stratagemma viene utilizzato per automatizzare la valutazione delle monografie: si stabilisce un ordine di merito tra gli editori e si assegna alla monografia una classe di merito predefinita sulla base del prestigio accordato alla casa editrice che ne ha curato la pubblicazione.

Pag. 160.

2486-93

Affermare che l’articolo (o la monografia) X è migliore dell’articolo (o della monografia) Y perché un gruppo di esperti ha stabilito che la rivista (o l’editore) da cui proviene X è un gradino più in alto della rivista (o editore) da cui proviene Y significa appropriarsi in maniera indebita dell’unica prerogativa che nessuno potrà mai togliere a oltre 50 anni di analisi delle citazioni: la capacità di fornire indicazioni statisticamente significative sulla trama dei legami intellettuali nati ‘spontaneamente’ all’interno di una comunità scientifica impegnata nella soluzione di problemi su un fronte di ricerca (e non seduta a tavolino a decidere, in modo riflessivo, se una soluzione è meglio di un’altra in base al contenitore di provenienza). Cionondimeno, la tendenza ad appiattire l’una sull’altra le due dimensioni della qualità e della (finta) quantità è ormai dilagante, soprattutto nei sistemi informativi allestiti in occasione degli esercizi nazionali di valutazione.

Pag. 163.

2512-15

Per quanto sia difficile dare una risposta a tali quesiti, una cosa è certa: non può esistere una scorciatoia pseudo-bibliometrica alle valutazioni. Se ottiene diritto di cittadinanza, l’analisi quantitativa deve svolgersi indipendentemente e in modo complementare alla peer review senza pretendere di sostituirsi ad essa con l’espediente del ranking precotto di riviste o editori.

Pag. 164.

2543-49

In parte, l’analogia con la letteratura scientifica funziona ancora, poiché il Web esibisce una struttura bibliografica apparente, con gli hyperlink tra risorse formalmente simili alle citazioni bibliografiche (link in uscita = bibliographic reference; link in entrata = citation). D’altro canto, anche circoscrivendo l’analisi al webspace accademico, il significato degli hyperlink non è in alcun modo assimilabile a quello delle citazioni (raramente si crea un link per saldare un debito intellettuale), non esistono strumenti paragonabili agli indici di citazioni per contare gli hyperlink (al di fuori di funzionalità molto limitate di alcuni motori di ricerca generalisti), né il contenuto, lo scopo e la stabilità delle pagine web appaiono in minima parte assimilabili a quelli degli articoli di rivista (una stessa pagina può cambiare radicalmente da un giorno all’altro o scomparire del tutto).

Pag. 166.

2571-79

Software come Mendeley eliminano ogni barriera tra le attività di recupero e gestione dell’informazione personale imprigionata nel recinto del proprio desktop e quelle della collettività di studiosi che condividono gli stessi interessi. Diventa allora possibile conoscere immediatamente il numero di readers per un certo documento e come sono suddivisi per disciplina, status accademico, area geografica. Servizi come Academia.edu estendono all’universo accademico le pratiche di condivisione file che hanno decretato il successo delle reti peer-to-peer, permettendo al tempo stesso di assemblare statistiche rudimentali sui contatti virtuali tra studiosi (profile views, document views, followers). Software come VIVO () sfruttano i protocolli e le tecnologie del web semantico per costruire una rete navigabile di profili individuali arricchiti da informazioni di ogni tipo sull’identità, gli interessi e le attività scientifico-didattiche dei ricercatori affiliati alle istituzioni che aderiscono al progetto.

Pag. 168.

2579-94

L’immagine stantia dell’accademia come spazio fisico e mentale chiuso tra quattro pareti lascia così il posto a luoghi aperti nei quali esistono tracce di attività e conversazioni online che maturano molto più velocemente delle citazioni negli articoli di rivista e che possono, in linea di principio, essere recuperate e quantificate. In più, nel nuovo ambiente l’evocazione di un documento o di un autore non è riducibile a una semplice unità indifferenziata (la citazione), ma si presenta in un contesto utile a esplicitarne il senso positivo o negativo (approvazione, rifiuto, critica, ecc.). Attingere a questa miniera di dati per sfruttarne le potenzialità e renderla fruibile attraverso strumenti di facile utilizzo è la sfida più recente raccolta dagli studi quantitativi della scienza, con l’esplicito intento di promuovere metriche alternative (altmetrics) alle biblio-metriche che possano servire da complemento a forme tradizionali e chiuse di valutazione come la peer review e l’analisi delle citazioni137. Il sito funge da hub per le idee e le iniziative del movimento omonimo. Oltre a un manifesto programmatico, ospita i link a progetti e applicazioni sperimentali di cattura dell’impatto 2.0: ImpactStory per l’aggregazione di conversazioni online da vari servizi di social networking/bookmarking; PLoS Impact Explorer per la raccolta delle tracce di vita digitale che confluiscono nelle pionieristiche article level metrics di PLoS (Public Library of Science); PaperCritic per la consultazione e l’inserimento di recensioni dei documenti accessibili nella biblioteca digitale di Mendeley. In parallelo, sta nascendo anche un mercato di dati 2.0 nel quale è possibile acquistare, da provider come Altmetric.com e Plum Analytics (EBSCO), la licenza per l’accesso ai pronipoti alter-metrici dello SCI.

Pag. 169.

2598-2606

obiettivo strategico di molti studi è verificare se esiste una correlazione positiva tra le frequenze di download o di evocazione sul social Web di un documento e gli indicatori bibliometrici tradizionali. Se la correlazione esistesse e fosse documentata in modo inequivocabile su campioni significativi di letteratura scientifica, allora si potrebbero utilizzare le metriche alternative come sintomi che segnalano, in anticipo sul commercio accademico delle citazioni, l’impatto futuro delle pubblicazioni. La risposta, purtroppo o per fortuna, non è univoca: la correlazione esiste in alcuni casi, mentre appare minima o moderata in altri140. Questo non significa che le misure alternative sono inutili. Semplicemente, raccontano una storia diversa da quella delle citazioni. Non tutti i lettori e utilizzatori della letteratura accademica sono accademici che scrivono su riviste scientifiche, e persino tra coloro che pubblicano articoli, una buona parte scarica, legge e condivide materiali che poi non cita.

Pag. 170.

2612-31

Mappe della scienza Per comodità di linguaggio e per necessità burocratico-amministrative la scienza è spesso rappresentata in termini di superfici e oggetti modulari dai contorni ben definiti: un aggregato di settori, campi o aree di ricerca, un mosaico di domini disciplinari, un puzzle a incastro (jigsaw puzzle) di specialità e fronti di ricerca. Ciascun settore, a sua volta, è opportunamente descritto come un insieme costituito da unità elementari (i singoli documenti), raggruppati per affinità tematica in contenitori (le riviste scientifiche) che formano, perlomeno nei domini delle scienze biomediche e fisico-naturalistiche, la base documentaria delle discipline istituzionalizzate sotto forma di insegnamenti universitari, società scientifiche, classi di concorso. Ogni area di ricerca, a sua volta, è il campo d’azione di gruppi più o meno visibili di individui che, spesso al di là di barriere geografiche e designazioni formali, collaborano alla soluzione di problemi condivisi. Costruire mappe dettagliate del territorio della scienza ricomponendo le tessere del puzzle attraverso le relazioni bibliografiche tra documenti è uno degli obiettivi strategici della bibliometria che utilizza, allo scopo, il semplice principio della co-occorrenza d’informazioni: più due elementi (parole, nomi, codici di classificazione, riferimenti bibliografici) compaiono assieme nello stesso corpus di fonti appartenenti a un dominio di ricerca, maggiore la probabilità che la loro co-occorrenza indichi una relazione strutturale tra concetti caratteristici di quel dominio e minore, di conseguenza, la distanza tra i punti che li rappresentano sulla mappa. Una delle forme di analisi delle co-occorrenze più comuni in bibliometria è lo studio delle reti di collaborazione scientifica attraverso i legami di co-authorship delle pubblicazioni. Spaziando in lungo e in largo su tutti i possibili livelli di aggregazione (singoli scienziati, gruppi, istituzioni, nazioni), questo filone d’indagine ha confermato tanto la crescita inarrestabile della dimensione collaborativa della ricerca scientifico-tecnologica prefigurata da Price negli anni Sessanta quanto il valore strategico delle collaborazioni, in particolare di quelle internazionali, nella promozione dell’impatto141. Un’altra forma molto comune di analisi delle co-occorrenze ruota attorno ai documenti citati nelle bibliografie degli articoli scientifici e fa ampio ricorso a strumenti avanzati di data mining per captare le informazioni nascoste nelle loro associazioni ricorrenti.

Pag. 171.

2631-45

5.1. L’analisi delle cocitazioni Verso la fine degli anni Cinquanta, quando lavorava al M.I.T., Myer Kessler sperimentò un sistema di classificazione della letteratura scientifica basato sugli accoppiamenti bibliografici (bibliographic coupling). Due o più documenti sono accoppiati se le loro bibliografie condividono almeno un riferimento bibliografico. La tecnica produceva raggruppamenti insoliti rispetto alle classificazioni tradizionali, ma test successivi mostrarono che, in combinazione con altre forme di indicizzazione, gli accoppiamenti bibliografici contribuiscono a migliorare le prestazioni di un sistema di information retrieval142. Nei primi anni Settanta, rovesciando la prospettiva di Kessler, Henry Small a Filadelfia e Irina Marshakova a Mosca adottarono le cocitazioni (cocitations), anziché gli accoppiamenti bibliografici, come unità di analisi143. Due documenti sono cocitati se compaiono entrambi nella bibliografia della stessa pubblicazione scientifica. Sia gli accoppiamenti bibliografici che le cocitazioni, quindi, raggruppano dei documenti in funzione di informazioni estratte dalle bibliografie: nel primo caso la classificazione avviene dal lato dei ‘citanti’ che condividono un nucleo comune di fonti, nel secondo dal lato dei ‘citati’ che vengono condivisi, a due a due, in un certo numero di fonti. Quando il numero di co-occorrenze aumenta per una o più coppie di documenti è verosimile che l’associazione non sia casuale, ma rifletta dei nessi strutturali tra i concetti veicolati da quei documenti: è come se, concordando sul set di fonti essenziali per il proprio lavoro, gli autori citanti stiano in qualche modo delineando i confini intellettuali del loro campo di ricerca.

Pag. 172.

2648-59

Gli esperimenti pionieristici di Kessler e Small prepararono il terreno per l’evoluzione successiva della cartografia scientifica. Nonostante il tentativo fallito, da parte dell’ISI, di far confluire in un gigantesco Atlas of Science le mappe derivate dall’analisi delle cocitazioni estratte dai file annuali dello SCI, la popolarità delle mappe bibliometriche è cresciuta negli ultimi decenni di pari passo con il desiderio dei cartografi di percorrere nuove strade. Alcuni hanno sperimentato unità di analisi alternative agli accoppiamenti bibliografici e alle cocitazioni al livello dei documenti, avventurandosi nell’analisi delle cocitazioni al livello degli autori144, delle riviste145, delle subject categories146. Altri hanno cercato di potenziare la risoluzione delle mappe attraverso metodi ibridi basati sull’analisi congiunta di testo e reti bibliografiche147, oppure applicando gli algoritmi della network analysis ai legami bibliografici diretti tra documenti, autori, riviste148.

Pag. 173.

2667-78

A) Recupero dei dati da analizzare In una document cocitation analysis, si interroga un indice di citazioni per individuare il set iniziale di articoli appartenenti all’area tematica da mappare, quindi si recuperano i documenti che citano il set di partenza. Oggi è relativamente facile compiere questa prima operazione in WoS o Scopus: una volta selezionate accuratamente le parole chiave che definiscono l’area oggetto di mappatura e recuperati i record bibliografici, si limita il set iniziale agli articoli citati al di sopra di una certa soglia (ad esempio articoli con almeno 10 o 20 citazioni) e si crea un citation report (o citation overview) per tali record così da risalire al set dei citing articles. In una author cocitation analysis, dato che il punto di partenza non sono semplicemente articoli su un certo argomento, ma tutte le pubblicazioni degli autori chiave in una disciplina o area di ricerca, si può ricavare la lista iniziale di autori da analizzare mediante una ricerca bibliografica analoga alla precedente selezionando, ad esempio, gli autori più citati tra quelli che hanno scritto su un certo argomento o su un certo gruppo di riviste, oppure mediante una lista precompilata sulla base di criteri qualitativi. White e McCain, nell’articolo citato, selezionarono come punto di partenza i 120 autori più citati in un set di 12 riviste di information science.

Pag. 174.

2678-88

B) Estrazione delle cocitazioni Una volta recuperati i citing articles, se ne analizzano le bibliografie per estrarre le coppie di documenti cocitati e le relative frequenze di cocitazione. In teoria, se il database consente ricerche booleane avanzate sul campo delle cited references, il recupero delle frequenze di cocitazione può essere fatto direttamente online. In una author cocitation analysis su Scopus, ad esempio, si possono recuperare i documenti che cocitano gli autori Einstein e Heisenberg da una semplice ricerca REFAUTH(einstein) AND REFAUTH(heisenberg) Quando però il numero delle co-occorrenze da contare cresce oltre una certa soglia, l’approccio manuale diventa troppo laborioso. Per esaurire le combinazioni possibili di 100 autori, ad esempio, la stessa interrogazione andrebbe ripetuta (100*99)/2=4950 volte per tutte le coppie possibili di nomi. White e McCain estrassero le coppie dei 120 autori di information science analizzati nel loro studio attraverso una macro che interagiva con il sistema DIALOG di accesso online al Social Sciences Citation Index. Ora è tutto più semplice, poiché esistono diversi software capaci di estrarre e contare automaticamente le co-occorrenze nelle bibliografie dei citing articles, ad esempio Bibexcel e Sci2 Tool.

Pag. 175.

2689-2701

C) Preparazione dei dati Si crea una matrice simmetrica, cioè una tabella quadrata in cui le unità oggetto di analisi – i singoli documenti o autori cocitati estratti dalle bibliografie degli articoli citanti – sono riportate, con lo stesso ordine, sia sulle righe che sulle colonne: la cella collocata all’intersezione tra la riga che rappresenta il documento (o autore) X e la colonna che rappresenta il documento (o autore) Y contiene il numero grezzo di cocitazioni di X e Y (Tabella 8). Tabella 8 – Matrice semplificata per l’analisi delle cocitazioni di 4 articoli (o autori). In Bibexcel è possibile creare automaticamente la matrice ed esportarla in formati compatibili con software come Excel, SPSS, SAS, ecc., per le analisi successive. Dopo aver deciso come trattare i valori sulla diagonale – inutili ai fini dell’analisi perché rappresentano i numeri grezzi di citazioni di ogni singolo documento/autore – si applica ai punteggi iniziali una qualche forma di normalizzazione per predisporli all’analisi statistica multivariata. Uno dei metodi più usati, applicato anche da White e McCain, è la trasformazione della tabella di partenza in una matrice di correlazione mediante la sostituzione dei numeri grezzi di cocitazione con i corrispondenti coefficienti di correlazione di Pearson. White e McCain hanno trattato i dati sulla diagonale come valori mancanti.

Pag. 176.

2704-10

Esistono varie tecniche applicabili in questa fase, come analisi fattoriale, analisi delle componenti principali, analisi dei cluster, scaling multidimensionale, triangolazione, reti neurali. Per inciso, si tratta di tecniche di uso generale in molti settori dove si manipolano quantità di dati incompatibili con l’esame qualitativo a occhio nudo (big data), dalla business intelligence e dalla ricerca operativa ai sistemi computerizzati per il monitoraggio delle reti terroristiche. L’obiettivo è sempre lo stesso: ridurre il numero di dimensioni, quindi la complessità della matrice iniziale, preservando le relazioni fondamentali tra le variabili in modo da raggruppare in un numero limitato di classi le coppie di documenti/autori con frequenze simili di cocitazioni.

Pag. 177.

2733-34

Per essere davvero utile in sede di valutazione della scienza, la mappa non può limitarsi a restituire un’istantanea del paesaggio esistente, tanto più se abitato da costellazioni di documenti/autori vecchie di molti anni, ma deve illuminare dinamiche e linee di tendenza attuali.

Pag. 179.

2736-46

farlo è necessario lavorare in senso longitudinale sovrapponendo, come in un montaggio cinematografico, le fotografie ottenute dalla mappatura trasversale della letteratura scientifica in diversi momenti della sua evoluzione. Un esperimento di cocitation analysis condotto, lungo tre spezzoni temporali di cinque anni, sugli articoli di library & information science pubblicati tra il 1990 e il 2004 in 21 riviste di settore ha permesso, ad esempio, di aggiornare la mappa di White e McCain con le trasformazioni strutturali più recenti nella disciplina, come l’emergenza di un fronte di ricerca sulle metriche del Web e il ruolo sempre più centrale assunto dall’utente nella costruzione dei sistemi di information retrieval152. Solo facendo emergere la dimensione dinamica e ‘attuale’ dei legami cognitivi latenti in una rete bibliografica la mappa diventa un oggetto interessante per diverse categorie di utenti potenziali: laboratori di ricerca e sviluppo in cerca di nuovi settori da innovare, governi e imprenditori in cerca di progetti vincenti da finanziare, ricercatori in cerca di argomenti hot su cui lavorare o, più modestamente, amministratori e bibliometristi in cerca di classificazioni migliori per le proprie analisi.

Pag. 179.

2756-63

Va però sottolineato il fatto che la mappa è stata disegnata non chiedendo le coordinate dei punti a un gruppo di information scientists, ma registrando, mediante algoritmi di data mining, il consenso spontaneo di una moltitudine di atti indipendenti di citazione bibliografica registrati in un indice di citazioni. A parte l’utilità di un oggetto del genere per il neofita che si avvicina a un’area tematica dai confini inizialmente ignoti, la possibilità di scrivere una storia ‘algoritmica’ indipendente dal lavoro di raccolta e interpretazione delle fonti primarie da parte dello storico ha notevoli ripercussioni teoriche e pratiche, almeno in prospettiva. Si pensi, ad esempio, al supporto che una mappa bibliometrica potrebbe offrire allo storico della scienza allorché l’aumento esponenziale della quantità di letteratura prodotta nelle varie aree disciplinari risultasse incompatibile persino con la formulazione di ipotesi interpretative iniziali.

Pag. 180.

2792-2806

Nell’analisi fattoriale, ad esempio, le variabili iniziali (le frequenze di cocitazione) vengono ricondotte alla combinazione lineare di un numero ristretto di variabili latenti, chiamate ‘fattori’, decodificate in termini di specialità, fronti di ricerca, aree di affinità intellettuale. I fattori spiegano le correlazioni osservate tra le variabili iniziali, ma la derivazione degli uni dalle altre non è meccanica. A differenza delle variabili di partenza, i fattori non possono essere osservati o misurati, la determinazione del loro numero non è univoca, esistono vari metodi per estrarli dalla matrice di correlazione iniziale e diversi modi di ‘ruotarli’ per ottenere una struttura più semplice e più facile da interpretare. La risposta più intrigante data sinora alle domande sulla natura delle mappe bibliometriche chiama in causa il modello di sviluppo scientifico del filosofo della scienza americano Thomas Kuhn. Le mappe bibliometriche sono, secondo alcuni, un’approssimazione empirica accettabile dei «paradigmi» che per Kuhn orientano le attività di ricerca scientifica nei diversi settori disciplinari. Nel modello kuhniano, la produzione di nuova conoscenza non è un’impresa cumulativa e progressiva, ma una serie di lunghi e pacifici interludi di «scienza normale» interrotti da violente trasformazioni concettuali o «rivoluzioni scientifiche»155. Diversamente da quanto sosteneva Merton, nei periodi di normalità gli scienziati non seguono un codice etico di condotta e il loro atteggiamento nei confronti delle teorie esistenti è tendenzialmente conservativo, sia rispetto alle nuove idee che alle persone da cui derivano. A dispetto di ogni vocazione critica e universalistica, il loro lavoro quotidiano è perlopiù orientato alla soluzione di rompicapo (puzzle-solving) nel contesto di un paradigma, cioè di una costellazione di teorie, metodi, tecniche, valori condivisi che funge da impalcatura epistemologica per le attività di ricerca.

Pag. 183.

2807-10

La nozione di paradigma è una delle più ambigue nel panorama della filosofia contemporanea. Kuhn stesso ne ha fornito molteplici definizioni senza chiarire il suo significato una volta per tutte. Una delle definizioni, tuttavia, è risultata particolarmente congeniale al progetto bibliometrico: il paradigma come esempio concreto di pratica scientifica efficace, modello esemplare di soluzione di rompicapo utilizzabile in sostituzione di regole esplicite nella soluzione di particolari problemi.

Pag. 184.

2817-19

In perfetta sintonia con il ruolo delle citazioni nella valutazione della ricerca, le mappe stimolano domande anziché fornire risposte: mostrano qualcosa, ma non esattamente quello che si vorrebbe mostrassero.

Pag. 184.

2827-39

Negli anni Ottanta, un gruppo di sociologi dell’École Nationale Supérieure des Mines di Parigi inaugurò la coword analysis, definita come l’analisi statistica delle coppie di parole estratte da titoli, abstract o full text degli articoli scientifici. Ispirata dalla teoria dell’«attore-rete» («actor-network theory») di Bruno Latour, l’identificazione e l’analisi delle associazioni ricorrenti di parole puntava a far emergere i meccanismi che presiedono alla costruzione dei testi scientifici159. I gruppi frequenti di parole identificati dall’analisi multivariata diventano qui la materializzazione delle reti problematiche intessute dagli autori per spostare o preservare, a proprio vantaggio, gli equilibri di potere nella rete della comunicazione scientifica. Citazioni bibliografiche e parole, dunque, sembrano raccontare storie bibliometriche molto diverse: le prime parlano di impatto, influenza, qualità in un’ottica normativista (Merton) salvo poi promettere, sotto la lente d’ingrandimento della cocitation analysis, un punto d’osservazione privilegiato sulla filosofia kuhniana (sotto molti aspetti la negazione del normativismo di Merton); le seconde parlano di relativismo, retorica, giochi di potere (Latour)160. Le conseguenze di questa flessibilità interpretativa sulla validità dei costrutti bibliometrici di largo uso nella politica della scienza sono ancora tutte da accertare.

Pag. 185.

2843-48

rivelare la struttura intima della scienza (mappe bibliometriche) e ‘indicare’ l’occorrenza del valore epistemico ovunque se ne presentino le tracce (indicatori di performance basati sulle citazioni). La prima parte di questo libro ha raccontato la storia di come, sotto la spinta di esigenze e opportunità politiche, tali promesse si siano trasformate ben presto in aspettative di performance che hanno condizionato (e in larga misura appiattito) gli stili di ricerca delle comunità scientifiche, al punto che la bibliometria si trova oggi a «fronteggiare i fantasmi che essa stessa ha evocato»161.

Pag. 186.

2861-64

Gli indicatori bibliometrici, lo abbiamo visto, non possono mai viaggiare da soli, soprattutto se applicati nelle valutazioni individuali, e nei casi di eccellenza manifesta svolgono un ruolo puramente confermativo: il top scientist è anche, quasi sempre, un top cited che lavora già in una top institution e che non ha bisogno degli indicatori bibliometrici per migliorare la propria reputazione.

Pag. 187.

2866-72

Tutti coloro che rivendicano l’insostituibilità della peer review contro i paradossi delle valutazioni bibliometriche dimenticano, inoltre, che il sistema di verifica della qualità affidato alle riviste, e più in generale alle valutazioni qualitative, non basta da solo a coprire tutto il ciclo di vita di una pubblicazione: i peer reviewers esprimono un giudizio circa la qualità intrinseca di un manoscritto tale da garantirgli il diritto di pubblicazione/circolazione, riconoscendo al suo autore un credito tramutabile in vantaggi materiali (cattedre, promozioni, finanziamenti, ecc.), ma la capacità della ricerca descritta in quel manoscritto di promuovere nuova conoscenza non dipende dal giudizio dei revisori o vi dipende in una misura impossibile da quantificare.

Pag. 187.

2874-83

Se la bibliometria è una sorta di male necessario nell’epoca della big science e della iper-specializzazione dei profili professionali, conviene allora promuoverne una conoscenza e una pratica il più possibile approfondite, in linea con gli standard e le migliori esperienze internazionali, ma al tempo stesso critiche, in linea con lo status di scienza sociale (e non di scienza esatta o matematica applicata) che le compete. Accordare agli studi quantitativi della scienza lo status di scienza sociale implica il riconoscimento di almeno tre prerogative e altrettante fonti di incertezza del lavoro bibliometrico: primo, la bibliometria studia un oggetto intrinsecamente sociale, la scienza, in quanto si occupa di persone che operano e cooperano per produrre/rettificare conoscenza a diversi livelli di aggregazione (individuo, gruppo di ricerca, dipartimento, università, nazione); secondo, gli oggetti della bibliometria non sono reperti naturalistici o fenomeni dotati di esistenza indipendente nel mondo esterno, ma costrutti teorici che modificano la realtà osservata e ne sono modificati al tempo stesso, quindi esiste un margine di errore nelle misure bibliometriche determinato dallo sguardo dell’osservatore; al pari delle altre scienze sociali, infine, la bibliometria ha una storia e un futuro che dipendono in larga misura da ciò che si pensa di lei.

Pag. 188.

2890-91

Cybermetrics (1997-), una rivista open access sponsorizzata dal CSIC spagnolo ();

Pag. 189.

2913-21

monografia di Henk Moed, Citation analysis in research evaluation, interamente dedicata all’analisi delle citazioni, fornisce un’autorevole (e accessibile) introduzione all’argomento165, mentre l’evoluzione di temi e problemi legati agli usi della bibliometria in sociologia e politica della scienza dalla fine degli anni Ottanta può essere seguita grazie a due miscellanee, pubblicate a oltre 15 anni di distanza l’una dall’altra, a cura dei maggiori esperti europei della materia166. Negli ultimi anni hanno visto la luce anche: una guida pratica alla realizzazione di studi bibliometrici167;

Pag. 190.

2945-48

Dal 1996 esiste una Triple Helix International Conference Series, a cura della Triple Helix Association che ha sede in Italia, a Torino, ed è presieduta da Henry Etzkowitz, il sociologo di Stanford che ha elaborato i costrutti di «tripla elica» e «università imprenditoriale». Il focus non è bibliometrico, ma molti dei temi affrontati sono fondamentali per chi lavora sul fronte della costruzione di mappe dell’innovazione scientifico-tecnologica

Pag. 193.

2982-95

Il sito personale di Garfield () è una risorsa insostituibile per chi si avvicina all’analisi delle citazioni in quanto, oltre a ospitare il full text di gran parte della sua produzione scientifica, contiene numerosi scritti di autori che, in connessione più o meno diretta con Garfield, hanno contribuito in modo sostanziale all’affermazione del paradigma bibliometrico. Analogamente, il sito personale del bibliometrista olandese Loet Leydesdorff () è utile tanto per accedere ai preprint della sua copiosa produzione scientifica quanto per scaricare i software gratuiti che l’autore stesso ha sviluppato in ambiente DOS (ad esempio ISI.exe per l’esportazione dei record di WoS in database relazionali, TI.exe e Fulltext.exe per la coword analysis, e così via). Per chi si interessa di mappe scientifiche, un riferimento obbligato è l’esposizione permanente Places & Spaces: Mapping Science, iniziata nel 2005 a cura di Katy Börner (Università dell’Indiana), la cui controparte online si trova sul sito . Due blog, infine, meritano attenzione per la quantità e il livello dei post di interesse bibliometrico: The Citation Culture di Paul Wouters () e The Scholarly Kitchen ().

Pag. 195.

3102-25

H) Software Per chi desidera il controllo totale sui dati, i sistemi di gestione di database relazionali (RDBMS) e il linguaggio SQL sono strumenti molto potenti per creare e interrogare le tabelle da sottoporre ad analisi bibliometriche di frequenze e co-occorrenze175. Uno strumento open source introdotto di recente per l’analisi delle citazioni estratte da Scopus è il pacchetto CITAN (per ambiente di calcolo R)176, mentre si è già fatto riferimento, nel testo, ai software gratuiti Scholarometer e PoP per l’estrazione di statistiche e indicatori da GS. A differenza dei precedenti, il software commerciale HistCite, nato dalle idee di Garfield sulla storiografia ‘algoritmica’, non si focalizza sul calcolo degli indicatori bibliometrici, ma sull’analisi e la presentazione, sotto forma di grafici e tabelle, di statistiche descrittive dei legami bibliografici diretti e indiretti tra i documenti indicizzati in WoS (<interest.science.thomsonreuters.com/forms/HistCite>). L’analisi delle reti bibliografiche con tecniche quali cocitation analysis, coword analysis e bibliographic coupling per la costruzione di mappe della scienza può essere condotta mediante software già collaudati in settori come l’analisi delle reti sociali (Pajek, UCINET) e la bioinformatica (Cytoscape). Tuttavia, ormai da diversi anni, sono disponibili anche software specifici per l’importazione, la preparazione (preprocessing) e l’elaborazione dei dati bibliometrici destinati all’analisi multivariata per scopi cartografici177. Quattro soluzioni gratuite molto popolari sono: Bibexcel, sviluppato dal team di Olle Persson presso l’Università di Umeå in Svezia (<www8.umu.se/inforsk/Bibexcel>); Sci2 Tool, prodotto dal Cyberinfrastructure for Network Science dell’Università dell’Indiana (); VOSViewer, sviluppato da un team del CWTS (); Citespace II, sviluppato da Chaomei Chen presso l’Università di Drexel (<cluster.cis.drexel.edu/~cchen/citespace>).

Pag. 203.

3134-43

Esistono molti servizi commerciali di academic analytics che offrono al cliente la possibilità di estrarre, dalla mole di dati su didattica e ricerca prodotti da un’istituzione, informazioni utili in sede di valutazione e benchmarking. Limitando il raggio ai fornitori dei principali database bibliometrici, InCites di Thomson Reuters (<thomsonreuters.com/incites>) e SciVal di Elsevier () sono soluzioni preconfezionate per ricavare da WoS e Scopus, con il minimo sforzo, dati quantitativi e indicatori bibliometrici di produttività/impatto in relazione a individui, gruppi, istituzioni. Entrambi i prodotti forniscono all’istituzione abbonata un canale privilegiato di accesso ai record di WoS/Scopus riconducibili, tramite il campo Address, alla sua produzione scientifica, ma per funzionare al meglio richiedono la collaborazione attiva del cliente nella creazione, gestione e aggiornamento di profili individuali e istituzionali ‘puliti’. Entrambi consentono una miriade di analisi quantitative,

Pag. 205.

4464-82

130) Per una rassegna vedi Elea Giménez-Toledo; Adelaida Román-Román, Assessment of humanities and social sciences monographs through their publishers. A review and a study towards a model of evaluation, «Research Evaluation», 18 (2009), n. 3, p. 201-213. 131) European Science Foundation, European Reference Index for the Humanities (ERIH). Frequently Asked Questions, <www.esf.org/hosting-experts/scientific-review-groups/humanities-hum/erih-european-reference-index-for-the-humanities/frequently-asked-questions.html#c104972>.

Pag. 292.