Bibliometria fai da te
(ancora su ASN nel settore disciplinare dell'astrofisica)
Lucio Chiappetti - IASF Milano (INAF) - aprile 2014
Do-It-Yourself bibliometry
(again about ASN in the astrophysics disciplinary sector)
Lucio Chiappetti - IASF Milano (INAF) - April 2014
Introduzione
Dopo le statistiche sulla Abilitazione Scientifica Nazionale (ASN) ho pensato di fare qualche altra prova, principalmente per vedere se ci fossero dei bias a sfavore dell'eta' o altre peculiarita' che potessere venire confermate.
Da un lato la procedura della ASN e' stata ampiamente criticata sia su forum specialistici
quali ROARS (per giuste ragioni) sia nella
stampa (con molta piu' confusione e pressapochismo e perfino gratuita mala fede),
dall'altro la relativa uniformita' del settore disciplinare dell'astrofisica
pare indicare che i risultati della ASN in questo particolare settore sian sostanzialmente
corretti, per quanto parziali.
Si potrebbero sollevare le sequenti questioni:
- Essendo la ASN orientata a una "pre-selezione" di professori universitari
non e' chiaro perche' la valutazione della produzione scientifica dovrebbe essere il fattore chiave
(e non invece anche una valutazione delle capacita' didattiche).
Pero' tale tipo di valutazione e' invece definitamente ben appropriata per il personale di ricerca degli enti pubblici di ricerca, come il personale INAF, che costituisce il grosso della comunita' astronomica italiana (e infatti molti membri del personale INAF hanno partecipato alla ASN malgrado il fatto non fosse previsto alcun ritorno immediato ne' possa essere previsto nel futuro). - La maggior parte se non tuttu i criteri usati nella ASN paiono includere un pregiudizio contro l'eta' (age bias)
(solo le pubblicazioni degli ultimi 10 anni sono contate, le citaziono sono normalizzate alla
eta' accademica, vien usato il cosiddetto H-index "contemporaneo".
E possibile che cio' danneggi le persone con una eta' accademica maggiore che non hanno avuto opportunita' di progressione nel passato (considerando anche la staticita' di tali progressioni negli ultimi decenni particolarmente negli enti pubblici di ricerca) ? - Come evolvono gli indicatori ASN in funzione dell'eta' ?
- E' scorretto usare database commerciali al posto dello strumento bibliografico gratuito e comunemente usato (in astronomia) ossia NASA ADS ?
Strumenti e metodi
Ho preparato un sistema "quick and dirty" (non cosi' veloce e abbastanza sporco) per calcolare gli indicatori ASN e qualche altro semplice indicatore bibliometrici in funzione del tempo a partire dall'ADS. La procedura e' la seguente:- Come prima cosa chiamo l'ADS programmaticamente usando il cognome e una iniziale (questo rappresenta la parte sporca, perche' non e' a prova di omonimie in quanto la lista di articoli che viene ritornata non e' validata dagli autori). Ritorna un massimo di 2000 articoli (che dovrebbe andar bene anche per "grossi pubblicatori") nel'intervallo 1960-2014 (il che puo' contribuire alla "sporcizia" in caso di omonimie), per i quali ritorna i bibcode (ADS format %R)
- Uno script awk trasforma la lista di bibcode in una ulteriore chiamata programmatica all'ADS, la quale ritorna il numero di citazioni per bibcode (ADS format %R %c). La chiamata e' ripartita fino a 4 interrogazioni di 350 paper in modo da evitare gli errori "capacity exceeded".
- Un ulteriore script awk trasforma la lista di bibcode con non-zero citazioni in una sequenza di chiamate programmatiche a ADS (una per paper), che ritornano i bibcode degli articoli che citano il lavoro di input (ancora ADS format %R)
- Le liste ritornate dalle chiamate precedenti sono ingerite in tabelle mysql semi-temporanee.
- Una stored procedure in mysql determina l'inizio della eta' accademica ossia l'anno del primo bibcode pubblicato dall'autore.
- Segue un loop dal primo anno fino all'anno corrente, che chiama una ulteriore stored procedure (con argomento un anno), che calcola i parametri bibliometrici per ogni anno e li salva in una tabella semi-temporanea.
- Tale tabella viene dumpata in un file ASCII (storia personale)
- La lista dei lavori citati e citanti (bibcode) e' archiviata in una tabella permanente nel database. Le citazioni sono anche identificatte da un numero sequenziale per persona.
- La associazione tra numero sequenziale e persona e' mantenuta in una tabella separata, principalmente per verifica ed evitare ridondanze, o per raggruppare le persone per fascia o caratteristiche varie. Lo strumento non e' pensato per fare ricerche per nome di persona.
- l'eta' accademica nel dato anno
- il numero totale di lavori pubblicati (indiciati in ADS) fino a tale anno
- il numero totale di lavori citati fino a tale anno (aventi un numero non-zero di citazioni ADS al momento della chiamata a ADS)
- il numero totale di lavori pubblicati nei 10 anni precedenti l'anno dato (incluso)
- il primo indicatore ASN, ossia il valore precedente, normalizzato all'eta' accademica se questa e' minore di 10 anni
- il numero totale di citazioni fino al dato anno
- il secondo indicatore ASN, ossia il valore precedente diviso per l'eta' accademica in quell'anno
- l'indice H di Hirsch classico per pubblicazioni e citazioni fino all'anno dato
- il terzo indicatore ASN, ossia l'indice H contemporaneo fino all'anno dato
Risultati
Ho prodotto dei grafici degli 8 indicatori elencati sopra in funzione dell'eta' accademica per una lista abbastanza casuale di persone, raggruppate in base a delle scelte personali piuttosto arbitrarie.Ogni curva corrisponde a una persona (contrassegnata da un numero di sequenza). Non ho indagati in dettaglio su chi e' associato a quale curva, e in ogni caso non renderei pubblica tale informazione in quanto non rilevante. Faccio eccezione per la curva nera nel primo grafico, che corrisponde all'autore di questa pagina.
Le curve usano un codice di colore come segue:
- rosso per le persone abilitate alla prima fascia (professore ordinario) nell'ultima tornata (ASN 2012) (quale che fosse la loro affiliazione e fascia di inquadramento)
- magenta per le persone che non rientrano nelle categorie elencate piu'oltre e che sono gia' in prima fascia (professori o astronomi ordinari o dirigenti di rircerca, inclusi i pensionati)
- viola scuro indica personedecedute, gia' in prima fascia
- blu per i membri della commissione ASN per l'astrofisica
- verde indica i candidati alla prima fascia che non sono stati abilitati nell'ultima tornata, scelti tra quelli con valori elevati degli indicatori ASN
- azzurro indica i candidati alla prima fascia personalmente e ritengo qualificati
- azzurro scuro indica altri candidati alla prima fascia che non sono stati abilitati nell'ultima tornata
- giallo indica persone abilitate alla seconda fascia (professore associato) nell'ultima tornata ASN
- arancio indica i candidati alla seconda fascia che non sono stati abilitati nell'ultima tornata
- giallo limone indica chi e' gia' in seconda fascia (professori associati, astronomi associati o primi ricercatori) che non hanno presentato domanda per la abilitazione alla prima fascia
- grigio indica ogni altra posizione, in particolare non candidati durante l'ultima ASN
I grafici possono essere recuperati come file PostScript dai link qui sotto. Ogni grafico contiene 8 riquadri per gli 8 indicatori. Si suggerisce di visualizzarli ad alto ingrandimento (p.es. gv con zoom 8) in modo da guardare a ogni riquadro con sufficiente dettaglio. Segue un breve commento per ogni grafico.
- personale di una singola struttura INAF
(guarda caso il mio istituto)
Questo plot mostra molte caratteristiche peculiari forse dell'intero campione:
L'effetto delle omonimie in un campione non-validato e' mostrato dalle curve numerate 47, 48, 53 e 57, che hanno eta' accademiche eccessive e non realistiche. Conoscendo di persona la gente in questione (piu' giovane), ovviamente devono aver (avuto) qualche omonimo piu' anziano (probabilmente con un piu' basso tasso di pubblicazioni)
Ci sono alcuni giovani (non candidati alla ASN) con uno o piu' indicatori relativamente elevati.
Il numero di lavori negli ultimi 10 anni (e l'equivalente primo indicatore ASN) mostrano un picco e una decrescita per la gente con una eta' accademica relativamente elevata, indicativa di una dimimnuzione fisiologica nel tasso di pubblicazioni
Il terzo indicatore ASN puo' mostrare come atteso per costruzione un plateau, oppure una lieve svolta in giu' negli ultimissimi anni (che potrebbe indicare incompletezza delle citazioni per i lavori recenti ?)
I tre pannelli in basso a destra (gli indicatori ASN) contengono una riga orizzontale in corrispondenza delle mediane ASN per l'indicatore della prima fascia (per il settore 02/C1) - membri della commissione
Si noti che non ho fatto differenza tra i commissari dei settori disciplinari FIS/05 e FIS/06 (quest'ultimo ha mediane ASN piu' basse). In ogni caso tutti i commissari mostrano parametri in regulare moderato aumento con l'eta'. - emeriti
Questo grafico mostra persone considerabili come emeriti indipendentemente dal fatto siano gia' in pensione o comunque vicini all'eta' di pensionamento. Ho incluso persone che sono state o sono Presidenti o Direttori Scientifici in INAF o simili, o direttori di struttura, o sono noti per una produzione scientifica elevata.
I numeri 43, 44, 45 sono deceduti. L'epoca del decesso o della cessazione definitiva della attivita' puo essere inferita dal plateau nel numero totale di articoli.
I parametri mostrano generalmente un aumento regolare con l'eta'. - abilitati alla prima fascia
Questo grafico mostra 10 persone con i oiu' elevati indicatori ASN fra gli abilitati.
Un caso (24) e; chiaramente affetto da omonimia.
I parametri e la loro pendenza mostrano un ampio range dinamico. - non abilitati alla prima fascia
Questo grafico contiene sia 9 non abilitati scelti in quanto hanno i maggiori indicatori ASN sia 5 persone che conosco di persona e per cui mi sono sorpreso dal fatto che avessero bassi indicatori nella ASN (per alcuni e' chiaramente dovuto a un errore nella presentazione della domanda, hanno presentato una lista di pubblicazioni molto incomplete, addirittura limitato ai soli articoli presentati in PDF alla attenzione della commissione) Per almeno 2 di loro il loro vero tasso di pubblicazione e' comparabile al resto del campione.
In ogni caso per tutti non si notano terribili differenze tra i grafici degli abilitati e dei non abilitati. - personale gia' in prima fascia
Questo grafico contiene 10 membri del personale INAF (dirigenti di ricerca o astronomi ordinari) e 5 ordinari universitari (numeri da 80 a 84) scelti in base alla conoscenza di persona o di nome.
Due casi, 74 e 77, sono forse affetti da omonimie.
Con una eccezione con un basso tasso di pubblicazioni, il grafico non pare terribilmente diverso dai precedenti, per quanto vi siano casi di persone piu' giovani con parametri piu' elevati o piu' ripidi p.es. degli emeriti. - candidati alla seconda fascia (abilitati e non abilitati)
Questo grafico contiene una mezza dozzina scarsa di abilitati alla seconda fascia e pari numero di non abilitati, scelti tra quelli con i piu' elevati indicatori ASN.
Il numero 85 e' probabilmente affetto da omonimia.
Tutti i candidati mostrati hanno parametri piuttosto elevati e spesso ripidi.
Da qui in poi i tre pannelli in basso a destra (gli indicatori ASN) contengono due righe orizzontali in corrispondenza alle mediane ASN degli indicatori di entrambe le fascie - personale gia' in seconda fascia
Elenca 9 membri del personale INAF (primo ricercatore o astronomo associato) e 3 professori associati universitari (105-107) scelti tra chi conosco di persona o di nome.
IL grafico non e' dissimile (ma piu' graduale) rispetto al precedente. - persone nella fascia iniziale o non candidati alla ASN
Questo grafico contiene 10 membri del personale INAF tutti al momento nella fascia iniziale (ricerctori o astronomi) scelti tra chi aveva i piu' alti indici H di Hirsch nel 2010 (basati su una statistica separata che avevo raccolto a quel tempo) con una mistura di eta' accademiche grandi e piccole. Tre di essi hanno partecipato alla ASN e sono stati abilitati alla seconda fascia, i restanti 7 non hanno presemtato domanda. Alcuni dei non-candidati mostrano parametri non diversi dai candidati abilitati , per quanto per uno c'e' un dubbio di omonimia, gli altri indicano scarsa attivita' e probabilmente non hanno presentato domanda a ragion veduta.
- personale di una singola struttura INAF
- membri della commissione
- emeriti
- abilitati alla prima fascia
- non abilitati alla prima fascia
- personale gia' in prima fascia
- candidati alla seconda fascia (abilitati e non abilitati)
- personale gia' in seconda fascia
- persone nella fascia iniziale o non candidati alla ASN
Conclusioni
E' difficile trarre conclusioni, a parte quella ovvia che non e' possible calcolare validi parametri bibliometrici per una persona automaticamente dal suo nome, senza che l'autore convalidi che le pubblicazioni siano sue, per evitare omonimie e l'errato calcolo della eta' accademica.
Da una parte si pui' anche dire che non si vede nulla di ovviamente sbagliato nella ASN (nel senso che nessuno "scarso produttore" e' stato abilitato, ma dall'altra si puo' dire che c'e' un generale sottoinquadramento del personale corrente (INAF e Universita'), dato che molti mostrano i piu' elevati valori di tutti i parametri sensati.
Non sono particolarmente evidenti pregiudizi a sfavore di chi ha una eta' accademica maggiore (p.es. nel senso di persone che erano sopra le famigerate mediane qualche anno fa e ora sono al di sotto).
Forse c'e' una tendenza che i piu' giovani sembrano pubblicare di piu', ma non e' chiaro se dipenda da altri motivi, dalle tematiche di ricerca (non e' possible fare un breakdown per macro-area in questa statistica), dalle pubblicazioni collettive con molti autori tipiche dei grossi progetti, o da un aumento di pubblicazioni brevi ma specializzate, o da qualcos'altro.
Introduction
After the statistics about the National Scientific Habilitation (ASN) I decided to run a few more tests, mainly to see if there were age biases or other peculiarities which could be confirmed.
On one hand the Habilitation procedure has been widely criticized both in specialized
forums like ROARS (for sound reasons) and in
the press (with much more confusion and approximation and even gratuitous malevolent
bad press), on the other hand the relative uniformity of the astrophysics disciplinary
sector seems to indicate the results of ASN in this particular sector are substantially
sound, though partial.
One could raise the following issues:
- Since the ASN procedure is oriented to a "pre-selection" of university professors
it is not clear why the evaluation on scientific production shall be the key factor
(and not instead also an evaluation of teaching abilities).
However such kind of evaluation is definitely more suited for research staff of public research organizations, like INAF staff, which constitute the bulk of the italian astronomical community (and in fact many INAF staff members participated to the ASN procedure despite the fact no immediate return was foreseen nor could be foreseen in the future). - Most if not all of the criteria used for ASN seem to include an age bias
(only publications in the last 10 years are counted, citations are normalized by
academic age, the so called contemporary H-index is used.
Will this negatively affect people with a substantial academic age who had no progression opportunities in the past (considering also the staticity of such progression in the last decennia particularly in public research organizations) ? - How do ASN indicators evolve with age ?
- Is there any flaw in using commercial databases instead of the free and commonly used (in astronomy) NASA ADS ?
Tools and methods
I devised a quick and dirty (not so quick and somewhat dirty) method to compute the ASN indicators and some other simple bibliometric indicators as a function of time using the ADS. The procedure is as follows:- I first programmatically call the ADS using the surname and one initial (this represents the dirty part, because it is not safe against homonimies since the returned list of papers is not validated by the authors). It returns a maximum of 2000 papers (which should be safe for big publishers) in the interval 1960-2014 (this can contribute to the dirtiness in case of homonimies), for which it returns the bibcodes (ADS format %R)
- An awk script transforms the list of bibcodes in a further ADS programmatic query, which returns the number of citations per bibcode (ADS format %R %c).. This is split in up to 4 queries of 350 papers in order to avoid "capacity exceeded" errors.
- A further awk script transforms the list of bibcodes with non-zero citations in a sequence of ADS programmatic calls (one per paper), returning the
- The lists returned by the previous calls are ingested in semi-temporary mysql tables.
- A mysql stored procedure determines the start of academic age as the year of the earliest bibcode published by the author.
- Then for a loop from the start year to the present year, it calls a further stored procedure (with argument an year), which computes the bibliometric parameters for each year, and saves them to a semi-temporary table.
- The semi-temporary table is dumped to an ASCII file (person history)
- The list of citing and cited papers (bibcode) is archived to a permanent database table. The citations are also identified by a person sequence number.
- The association between sequence number and person is kept in a separate table mainly for book-keeping and to prevent redundancies, or to group persons by grade or characteristics. The tool is not thought to make searches by person name.
- the academic age in the given year
- the total number of published (indexed in ADS) papers until such year
- the total number of cited papers until such year (having non-zero ADS citations at the time of the ADS query)
- the total number of papers published in the 10 years before the given year (included)
- ASN indicator 1, i.e. the previous value, normalized by academic age if the age is less than 10 years
- the total number of citations until the given year
- ASN indicator 2, i.e. the previous value divided by the academic age in the given year
- the classical Hirsch H-index for publications and citations up to the given year
- ASN indicator 3, i.e. the contemporary H-index up to the given year
Results
I have produced plots of the 8 indicators listed above as a function of academic age for a somewhat random list of people, grouped according to a somewhat arbitrary personal choice.Each curve correspond to a person (tagged by a sequence number). I haven't looked in detail to which person is associated to which curve, and anyhow I won't disclose such information as it is not relevant. The only exception is the black curve in the first plot, which corresponds to the author of the present note.
The curves are colour coded according to the following code:
- red marks people who were habilitated for grade 1 (full professor) during the last (ASN 2012) habilitation procedure (irrespective of their former affiliation and grade)
- magenta marks people not falling under one of the following categories which are already in grade 1 (full professors or full astronomers or research directors, including retired persons)
- dark violet indicates deceased persons in grade 1
- blue is for the members of the ASN evaluation board for astrophysics
- green indicates applicants to grade 1 which were not habilitated during the last procedure, selected among those having top values in the ASN indicators
- cyan indicates applicants to grade 1 which were not habilitated during the last procedure, selected among people which if knew as highly qualified scientists
- dark cyan indicates other applicants to grade 1 which were not habilitated during the last procedure
- yellow indicates people habilitated to grade 2 (associate professor) during last ASN
- orange indicates applicants to grade 2 which were not habilitated during the last procedure
- lime green indicates people which are already in grade 2 (associate professors, associate astronomers or senior researchers) which did not apply to grade 1 habilitation
- gray indicates any other position, in particular non applicants to the last ASN
The plots can be retrieved as PostScript files from the following links. Each of them contains 8 frames for the 8 indicators. It is suggested to view them with a large magnification (e.g. gv with magnification 8) in order to look at each frame in detail. I give a brief comment to each plot
- staff of a single INAF institution
(by chance my home institution)
This plot shows many features possibly peculiar of the entire sample:
The effect of homonimies in a non-validated sample is shown by curves labelled 47, 48, 53 and 57, with excessive or unrealistic academic ages. Knowing personally the relevant (much younger) people, obviously they should have had some elder homonimous (possibly with a low publication rate)
There are younger non-applicants with one or some indicators relatively high.
The number of papers in last 10 years (and the equivalent ASN indicator 1) shows a turnaround for people with relatively large academic age indicating a physiological decrease in publication rate
ASN indicator 3 may show as expected by construction a plateau, or a small turnaround in the very last years (which might indicate incompleteness of the citations for recent papers ?)
The three bottom right frames (the ASN indicators) contain an horizontal line corresponding to the ASN median value of the indicator for grade 1 (for sector 02/C1) - evaluation board members
Note that I haven't differentiated the members belonging to disciplinary sectors FIS/05 and FIS/06 (the latter has lower ASN medians). Anyhow all members show parameters regularly and mildly increasing with age. - emeriti
This plot show people which can be considered emeriti irrespective of the fact they are already retired, or anyhow close to retirement age. I have included people which have been or are Presidents or Scientific Directors of INAF or equivalent, or institute directors, or are known for high scientific production.
Numbers 43, 44, 45 are deceased. The age of decease or permanent retirement can be inferred from the plateau in the raw number of papers
Parameters are generally regularly increasing with age. - habilitated to grade 1
This plot corresponds to 10 people having the largest ASN indicators among the habilitated.
One case (24) is clearly affected by an homonimy.
There is a lerge dynamic range in parameters and their slope - non-habilitated to grade 1
This plot contains both 9 non-habilitated selected as having the largest ASN indicators as well as 5 people I knew personally and for which I marvelled by the fact they had low ASN indicators (for some of them this was clearly due to a mistake in the application form, they submitted a very incomplete paper list, even limited only to the papers submitted in PDF for refereeing by the evaluation board) At least for 2 of them their actual publication rate is comparable to the rest of the sample.
For all anyhow one cannot note any terrible difference between the habilitated and non-habilitated plot. - staff already in grade 1
This plot contains 10 INAF staff (research director or full astronomer) and 5 University full professors (numbers 80 to 84) picked up based on personal or by name acquaintance.
Two cases, 74 and 77 are possibly affected by homonimies.
With one exception with a low publication rate the plot does not loomk terribly different from the previous ones, although there are cases of younger people having higher/steeper parameters than e.g. the emeriti. - applicants to grade 2 (habilitated and not habilitated)
This plot contains a handful of habilitated to grade 2 and an equivalent number of non-habilitated, selected among those with highest ASN indicators.
Number 85 is possibly affected by homonimy.
All candidates shown have rather high and often steep parameters.
From here onwards the three bottom right frames (the ASN indicators) contain two horizontal lines corresponding to the ASN median values of the indicator for grades 1 and 2 - staff already in grade 2
This lists 9 INAF staff (senior researcher or associate astronomer) and 3 University associate professors (105-107) selected among acquaintances by person or by name.
The plot is not dissimilar but more gradual than the previous one. - initial grade or non applicants to ASN
This plot contain 10 INAF staff all currently in the initial grade 3 (researcher or astronomer) selected among those with top Hirsch H-index in 2010 (based on a separate statistics I collected at the time) with a mixture of large and small academic age. Three of them applied to ASN and were habilitated to grade 2, the remaining 7 did not apply. Some of the non-applicants show parameters not unlike successful applicants , although for one there is a doubt of homonimy, the other ones indicate little activity, and possibly willingly did not apply.
- staff of a single INAF institution
- evaluation board members
- emeriti
- habilitated to grade 1
- non-habilitated to grade 1
- staff already in grade 1
- applicants to grade 2 (habilitated and not habilitated)
- staff already in grade 2
- initial grade or non applicants to ASN
Conclusion
It is difficult to draw conclusions, besides the obvious one that one cannot compute bibliometric parameters for a named person automatically, without the validation of the publications by the authors, to avoid homonimies and wrong computation of academic age.
One can also say on one hand that there is possibly nothing obviously wrong in ASN (in the sense no "poor producers" were habilitated), on the other hand that there is a general under-classification of current (INAF and University) staff, since many persons show highest values of all sensible parameters.
Biases against people with large academic ages are not particularly evident (e.g. in the sense of people who were above the dreadful medians a few years ago and now are below).
Maybe there is a trend that younger people seem to publish more, and it is not clear whether it may depend on their topics (also there is no breakdown by macro-areas in the present statistics), on large collective project publications, or on an increase of short specialized publications, or something else.