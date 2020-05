La pandemia da coronavirus Covid-19 ha portato il mondo degli scienziati alla ribalta nazionale. In particolare virologi, infettivologi, epidemiologi, biologi. In ombra sono rimasti gli statistici, figure essenziali per capire cosa sta facendo il Covid-19 al Paese, non solo, anche per fornire le informazioni essenziali perché chi è deputato alla gestione della crisi sanitaria -Ministero della Sanità e Istituto Superiore della Sanità- possa assumere decisioni e programmare azioni.

La raccolta, gestione, analisi, elaborazione dei dati, per esempio, è essenziale in questa fase 2, senza il lavoro statistico le varie task force. non potrebbero lavorare. I numeri parlano, ma bisogna che qualcuno ne capisca il linguaggio, questi ‘qualcuno’ sono gli statistici. E però il Governo e Regioni hanno fatto a meno della comunità scientifica degli statistici italiani, come dire, le statistiche se le sono fatte in casa, evidentemente con le competenze interne. Così secondo quanto denuncia la Società Italiana di Statistica.

“E’ possibile che in Italia ci siano comunità scientifiche più ascoltate di altre? La catena dati, analisi statistica, interpretazione, significato, azione, senza competenze statistiche sui dati ed i modelli, non è pensabile”, dice Monica Pratesi, Presidente Società Italiana di Statistica e docente di Statistica all’Università di Pisa. Affermazioni che aiutano anche a capire la gran confusione di dati spesso contraddittori che in queste settimane hanno alimentato confusione, qualche volta diffidenza, e non di rado, assurdità complottistiche da bar di paese.

A fine aprile, la pagina Facebook ‘Coronavirus – Dati e Analisi Scientifiche’, nata, come ci spiegano i coordinatori, “all’inizio di questa emergenza per fornire un servizio di informazione basato sull’analisi di articoli e dati scientifici e con l’intento di comunicare in modo quanto più chiaro e comprensibile a tutti l’evoluzione continua della situazione che stiamo vivendo”, ha realizzato un forum nel corso del quale la statistica è stata protagonista, con l’intervento di Monica Pratesi.

Il lavoro condotto, il come è stato condotto, il molto di rilevato e rimasto sul tavolo degli addetti ai lavori, l’affidabilità di questi dati, il quanto pesano sulle azioni dei decisori istituzionali, sono i temi che sono stati al centro del Forum e che noi abbiamo discusso anche noi in questa intervista con Monica Pratesi.

Il pubblico italiano, ci spiega Martina Patone, ricercatrice in statistica e tra i coordinatori della pagina Facebook –gestita da un gruppo di comunicatori scientifici, che include fisici, biologi e statististici, che vogliono dare un contributo personale mettendo a disposizione le loro competenze scientifiche e la loro passione per la comunicazione in questo ambito-, “è un pubblico interessato ed educato. Si tratta di un pubblico interessato ai dati e all’analisi scientifiche, che vuole avere maggiori informazioni rispetto al numero assoluto dei deceduti o dei contagi. E’ un pubblico che fa domande e ci propone studi e lavori scientifici per ulteriori analisi, un pubblico critico, che non prende per scontato tutto quello che diciamo”.

Professoressa Pratesi, intanto le chiedo di farci un quadro del lavoro condotto in Italia da parte degli statistici sul Covid-19?

La prima cosa fatta è la lettera inviata al Prof. Silvio Brusaferro, Presidente Istituto Superiore di Sanità, il 16 marzo 2020, per mettersi a sua disposizione sia per la progettazione, sia per l’analisi dei dati. Abbiamo chiesto anche che la comunità scientifica avesse a disposizione, nel rispetto della privacy, in forma anonima solo ai fini di ricerca, i dati più analitici sul contagio insieme ad altre informazioni quali età, data dei sintomi, data del tampone, data del ricovero, comune di residenza e di lavoro, solo per citarne alcune. Ciò perché solo con dati individuali e longitudinali è possibile comprendere appieno l’evoluzione dell’epidemia. Non abbiamo avuto risposta. Gli statistici italiani, comunque, non si sono persi d’animo, e usando il Forum SIS –la mailing list aperta a tutti– gestita dall’Università di Perugia, hanno iniziato ad elaborare i dati aggregati della Protezione Civile per adattare modelli che descrivessero e seguissero l’evoluzione dell’epidemia. La SIS ha poi coordinato questo dibattito creando occasioni di coordinamento nazionale online (aperte a tutti, al momento ne abbiamo all’attivo tre fatte). Si è aperto anche un dialogo con altre società scientifiche –l’AIE, Associazione Italiana di Epidemiologia– per promuovere un’indagine campionaria probabilistica e nazionale su contagi e contagiati. Finalmente l’Istat ci ha ascoltato, proseguendo l’attività di advocacy presso il Ministero della Sanità e ISS. L’indagine si farà: sarà un campione di popolazione, ormai sulla siero-prevalenza, poiché dopo due mesi di epidemia, siamo arrivati a quella che il Governo chiama Fase 2 e la cosiddetta immunità di gregge appare più importante dell’incidenza di nuovi casi. I gruppi di lavoro collaborano spontaneamente, senza ritorno economico e accogliendo anche le esigenze di enti locali che si sono rivolti alla Società, ad esempio il Comune di Fara in Sabina, che intende realizzare un’indagine sul contagio nel suo territorio.

Non ci siamo tirati indietro di fronte ad interviste, lettere ai giornali, richieste di chiarimenti su dati e loro validità, sul necessario linguaggio statistico per orientarsi tra i numeri e le cifre e le previsioni. Abbiamo cercato di parlare chiaro, segnalando le competenze statistiche necessarie per un adeguato orientamento di tutti: non solo dei ricercatori, ma anche dei cittadini.

In una situazione caratterizzata dalla confusione, l’impressione è che anche i dati statistici cozzino tra loro, che ne girino troppi e per nulla omogenei. E’ così oppure si tratta solo di impressione e poca dimestichezza con i numeri?

Non è solo un’impressione. E’ così, anche perché i lettori, non solo i giornalisti –mi perdoni- hanno poca dimestichezza con i numeri. Il dato numerico paralizza: ma c’è differenza tra numeri, dati statistici e informazioni. Per questo la cultura statistica è imprescindibile. L’intimo legame tra literacy statistica e democrazia è sotto gli occhi di tutti. Dati, analisi statistica, interpretazione, significato, azione. Cinque termini che devono essere chiaramente legati. Non bastano numeri: serve sapere qual è la definizione dell’aggregato a cui il numero si riferisce. Cioè servono i metadati: i dati sui dati. I confronti temporali e spaziali (e cioè l’informazione: il contagio è più probabile in una zona piuttosto che in un’altra, per una professione piuttosto che per un’altra) non sono possibili se i numeri si basano su definizioni disomogenee. Alla base direi che c’è un equivoco di fondo: i conteggi giornalieri di casi e decessi sono cifre che non sono sufficienti per una valutazione statistica seria del fenomeno. Sono il ‘risultato’ del fenomeno. E tra l’altro risentono delle modalità della sua rilevazione. Il numero giornaliero di nuovi casi non rappresenta accuratamente il numero di individui infettati, poiché dipende in modo cruciale dalle modalità e dal numero dei tamponi effettuati e analizzati. Oltretutto spesso non viene specificata la variazione dei casi nel tempo, in modo da avere anche la misura di quanti sono in entrata o in uscita dalla condizione di positività. È infine una misura inaccurata e non consente i confronti territoriali, poiché dipende dalle politiche sanitarie e dalla consistenza demografica delle regioni e degli Stati. Anche il numero giornaliero dei decessi va considerato con estrema cautela. Fortunatamente oggi possiamo basarci anche su il Rapporto Impatto dell’epidemia Covid-19 sulla mortalità totale della popolazione residente – Primo trimestre 2020, frutto della ricerca congiunta con l’Istituto Nazionale di Statistica e l’Istituto Superiore di Sanità. Questo fornisce una lettura integrata dei dati epidemiologici di diffusione dell’epidemia di Covid-19 e dei dati di mortalità totale acquisiti e validati da Istat. Ma attenzione: i dati di mortalità totale commentati si riferiscono al primo trimestre consolidato 2020 e riguardano 6.866 comuni (87% dei 7.904 complessivi).

Da quanto sui social sta scorrendo in questi giorni, l’Italia pare di capire abbia condotto un lavoro di raccolta, gestione e pubblicazione dati molto ampio, e, a quanto dicono studiosi stranieri, molto buono, migliore di molti, a partire da quello americano. E’ così? E, dal punto di vista statistico noi italiani siamo stati altrettanto bravi nella gestione e nella elaborazione?

Dunque, al proposito direi che i contenitori che lei cita nella domanda, –raccolta, gestione, e pubblicazione–, sono i contenitori giusti. Riguardo al contenuto vale quello che ho risposto alla domanda precedente. L’urgenza ha reso difficile la progettazione concettuale dei dati che permette poi confronti e interpretazioni univoche. Comprensibile, il fenomeno è nuovo, complesso e letale, ma questo doveva essere detto con trasparenza. Le definizioni degli aggregati (da cui i numeri) sono state via via precisate: 12 decreti o ordinanze dal 23/2 al 10/4: di nuovo comprensibile, ma poco noto. Nella comunicazione mancano o non sempre sono sottolineati i metadati, cioè le informazioni che permettono ai dati i ‘parlare’ di farci comprendere appieno il loro significato (glossari, classificazioni, definizioni, metodologie di rilevazione, ecc.). Le faccio un esempio, senza pretesa di essere esaustiva: il numero dei casi positivi oggi, non equivale al numero dei contagiati, sicuramente maggiore. Equivarrebbe se i test venissero svolti su tutta la popolazione e a intervalli regolari nel tempo. Quali test poi? con risultato quando disponibile? E se lo stesso test venisse ripetuto più volte sulla stessa persona? Inoltre, il numero dei casi dipende dalle caratteristiche delle persone sottoposte al test, perché questo influenza la probabilità che queste risultino positive: somministrando i test solo a persone con sintomi si troverà una proporzione di casi certamente più elevata di quella rilevabile se i test venissero somministrati a tutta la popolazione. Noi italiani siamo bravi, siamo partiti prima di altre comunità europee e internazionali. La SIS ha da subito impostato un coordinamento internazionale, tramite la International Association of Survey Statisticians (sezione dell’International Statistical Institute) proprio per capire che indagini si facessero. Il progetto italiano spicca in positivo perché è basato su un disegno probabilistico (non un campione di convenienza, autoselezionato) e per la dimensione del campione: 150 mila individui stratificati per genere età, professione e residenza. Direi bravi, ma è mancato un coordinamento centrale delle iniziative in cui gli statistici avessero più voce, specialmente gli statistici ufficiali, l’Istat: lo abbiamo fatto nelle comunità scientifiche perché solo la collaborazione permette di allocare efficientemente mezzi e persone. Ma non basta. Spero adesso in un’opportuna campagna di comunicazione, partecipativa e chiara per l’indagine sierologica.

Rispetto agli altri Paesi la statistica italiana in questa vicenda quali i punti di forza e quali i punti deboli, le carenze che ha espresso?

Non vorrei farne una questione accademica, in questo momento è l’ultima cosa di cui abbiamo bisogno. Però mi permetto di dire che in molti si sono improvvisati statistici: matematici, fisici, astrofisici. Perché gli statistici non sono riconosciuti nella loro specificità? E’ possibile che in Italia ci siano comunità scientifiche più ascoltate di altre? La catena dati, analisi statistica, interpretazione, significato, azione, senza competenze statistiche sui dati ed i modelli, non è pensabile. Eppure si vive già da anni in un clima di scienza post normale, dove quando si tratta di incertezza conoscitiva e incertezza probabilistica le comunità scientifiche dovrebbero essere solidali e unite nel porre le giuste domande e nel fornire le risposte appropriate: quando «there is nonumber-answer to your question!» è inutile esercitarsi nella specificazione di modelli, vuol dire che sono sbagliate le domande, legittime ma mal poste, senza risposta usando solo dati aggregati e ottenuti su campioni non probabilistici. Un modello che trascuri la qualità del dato utilizzato e interpoli meccanicamente gli andamenti della curva epidemica, senza tener conto della sua specificità, può anche dare qualche frutto a fenomeno in corso (ad esempio dopo il passaggio del picco epidemico), ma difficilmente riesce a prevedere accuratamente i punti di svolta. In Italia al momento con oltre due milioni tamponi effettuati (Ministero della Salute 3/5) non si è ancora in grado di proiettare le caratteristiche delle persone sottoposte a test sulla popolazione generale. Per effettuare generalizzazioni all’intera popolazione non occorrono campioni necessariamente di dimensione elevata, occorrono campioni congeniati sotto rigorosi criteri statistici.

Dagli studi statistici quali informazioni importanti sono emerse che possano essere utili per conoscere il comportamento del virus e funzionali alla così detta ‘fase 2’?

Non ho visto studi statistici ufficiali e pubblicati che mappino il contagio e la siero positività per professione, sistema locale del lavoro, genere, età, profilo di salute e abitudini durante il lock down. Per questo la SIS ha promosso l’indagine nazionale e attende che si parta con l’iniziativa di raccolta dati sul grande campione di italiani: non solo, chiediamo nel rispetto della privacy a tutela dei dati personali, è estremamente urgente poter disporre di almeno parte dei dati raccolti a livello individuale. Tali dati potrebbero essere forniti in forma anonima, solo ai fini di ricerca, su un campione probabilistico del data base nazionale all’1%, al 5%, insieme ad altre informazioni quali età, data dei sintomi, data del tampone, data del ricovero, comune di residenza e di lavoro, solo per citarne alcune. Ciò perché solo con dati individuali e longitudinali è possibile comprendere appieno l’evoluzione dell’epidemia.

Dal punto di vista statistico, la situazione in Lombardia si sente di definirla ‘anomala’? E come si sente di spiegare, interpretare quanto accaduto in Lombardia? Insomma, la statistica quali informazioni ci può dare di quanto accaduto e quanto sta continuando accadere in Lombardia?

Nella pagina del sito web SIS Modelli Statistici e Previsioni sono raccolti lavori sull’implementazione di modelli per il monitoraggio, la previsione e la valutazione di interventi volti al contenimento dell’epidemia, il disegno di campionamento per l’individuazione degli infetti, la valutazione delle determinanti della durata dei ricoveri, le conseguenze socio-economiche e psicologiche dell’epidemia. Non ci sono analisi specifiche sulla Lombardia. Perché non ci sono dati sulla Lombardia, o meglio la comunità scientifica non ha ancora accesso a quei dati in forma anonima e individuale. La Regione Lombardia ha aperto la possibilità accreditarsi come organismo in grado di accedere ai dati: ne abbiamo parlato nel terzo coordinamento nazionale SIS. Pare che ci sia la possibilità di avere a disposizione un dataset regionale denominato DB-COVID-19 (e di una serie di banche dati sanitarie) a seguito di una richiesta e di un progetto di ricerca che devono essere approvati da una commissione entro la fine del 2020 (vedasi: Regione Lombardia–Giunta Regionale, deliberazione n.11 3019, seduta 30/3/2020). E’ comunque cruciale che si effettuino le analisi a livello regionale e possibilmente a livello locale: da regione a regione variano la data di inizio della diffusione del virus; le diverse modalità e intensità della diffusione e sviluppo del virus; l’ammontare della popolazione, la sua struttura per età, la sua struttura e distribuzione per patologie pregresse, le politiche sanitarie ecc. Per fare confronti si dovrebbe tenere conto anche della densità della popolazione per km2, del numero di centri abitati (o comuni) con più di 15.000-20.000 abitanti, della presenza di imprese e di esercizi sanitari e commerciali e così via. Con tutti questi caveat, una lettura immediata dei dati della Protezione civile ci permette di l’evoluzione temporale dell’epidemia, distinguendo nel totale degli attualmente positivi la percentuale dei dimessi guariti e dei deceduti. Si può anche distinguere la quota dei ricoverati con sintomi, la quota in terapia intensiva e in isolamento domiciliare.

Lombardia ​​ ​​​​Toscana

Figura 1 – Dati Protezione civile, elaborazioni Biggeri, Maltagliati e Secondi

Si capisce che di sicuro interesse risulterà l’analisi delle strategie terapeutiche, specialmente nei primi giorni dell’epidemia: le Regioni hanno adottato tutte le stesse tipologie di ricovero? Terapia Intensiva, Ricovero Ordinario con sintomi, e Isolamento Domiciliare, qual è stata la strategia prevalente e perché? L’esame delle percentuali e i numeri assoluti delle dimissioni/guarigioni e dei decessi, rispetto ai casi prevalenti per ogni singola giornata e per ciascuna delle regioni ci potrà fornire delle indicazioni. Dai grafici sopra riportati, una prima lettura fa notare la diversa incidenza della terapia domiciliare in Lombardia e in Toscana, specialmente nella fase iniziale dell’epidemia. Nella fase 2 si dovrà iniziare a fare qualche considerazione sugli esiti delle politiche sanitarie messe in campo, pur con tutte le limitazioni dei dati disponibili.

Tutte le ‘carenze’ (vogliamo essere diplomatici) che hanno patito gli ospiti delle residenze per anziani, e il fatto che non si conosce il numero esatto dei morti per Covid-19 visto che su molti non sono stati condotti i tamponi (vedasi le dichiarazioni di molti Comuni), quanto incidono sulla correttezza e validità dei dati statistici?

Questa è una domanda a cui si risponde male senza dati riferiti alle RSA e ai loro medici e operatori (in prima linea) che ci lavoravano e tutt’ora ci lavorano. Le rispondo citando uno dei risultati del Rapporto Istat-ISS sulla mortalità di cui si diceva sopra. L’eccesso di mortalità più consistente in Italia si è registrato per gli uomini di 70-79 anni: i decessi aumentano di circa 2,3 volte tra il 20 febbraio e il 31 marzo; segue la classe di età 80-89 (quasi 2,2 volte di aumento). L’incremento della mortalità nelle donne risulta più contenuto per tutte le classi di età. Raggiunge il 20% in più della media degli anni 2015-2019 alla fine di marzo, tanto per la classe di età 70-79 che per la 90 e più. Bisognerebbe sapere dove si sono ammalati e dove è avvenuto il decesso.

Immuni quanto sarà importante per il lavoro degli statistici?

A breve dovrebbe essere pronto il progetto della App per il tracciamento, elaborata dai tecnici del Ministero dell’Innovazione per intercettare, curare e isolare i nuovi casi. Anche i dati provenienti dall’utilizzo di questa piattaforma, se condivisi, potranno fornire spunti interessanti per la ricerca sulle caratteristiche della diffusione della malattia. Segnalo alcune cautele per un uso statistico dei dati ottenuti. L’obiettivo di alert individuale è coronato, a patto che il cellulare segua l’individuo nei movimenti della sua quotidianità. Dando questo per scontato, si dice che funzioni come strumento di intercettazione dei contatti con individui infetti (non dei contagi) se usata almeno dal 60% della popolazione. Mi chiedo quale parte della popolazione, la popolazione attiva? Qui tornerebbe utile saper qualcosa di più sulla diffusione del cellulare per fascia di età e professione e sulla stima della popolazione che insiste su un territorio fatta in base ai successivi agganci dei cellulari alle celle della rete mobile. L’adesione al progetto è comunque volontaria e quindi i dati ottenuti saranno affetti dalle usuali distorsioni da autoselezione e difetto di copertura della popolazione che lamentiamo nella rilevazione dei dati più tradizionali. Tutti gli infetti useranno la app? Torno all’esempio fatto in precedenza sul numero giornaliero dei nuovi casi e al loro accertamento tramite i tamponi, necessari per stabilire la reale positività della persona. Il rischio di confondere ‘contatto’ tra cellulari e ‘nuovo caso’ è reale. Inoltre, si dovrebbe capire meglio quali siano i margini di affidabilità della app: questo si può fare su un campione selezionato e rappresentativo della popolazione italiana, per avere informazioni essenziali per esempio sui contatti ‘virtuali’ o se si vuole sui ‘falsi positivi’, cioè persone identificate come contatto di un malato anche se queste erano a una distanza di sicurezza. Insomma prima di una adozione allargata dell’app Immuni bisognerebbe avere chiari i metadati di questi ‘nuovi’ dati prodotti. Inoltre, affinchè l’allerta sia efficace per il contenimento della diffusione, è necessario che alla segnalazione dell’avvenuto contatto (effettivo e non solo ‘virtuale’) segua un’immediata organizzazione delle pratiche utili presso il servizio sanitario territoriale. E che queste diano risultati “contabilizzati” in relazione al contatto effettivo. Va da sé che da sola l’app non serve a molto per il contenimento dell’epidemia. Servono luoghi dove i soggetti positivi non gravi di Covid-19 possano osservare la quarantena e i rispettivi contatti osservare l’autoisolamento quando lo spazio nelle abitazioni di costoro non dovesse essere sufficiente o adeguato. Però, può essere utile per allargare la base di dati per studiare il fenomeno. Comunque per essere utile per un uso statistico è necessario che l’autoselezione sia controllata, altrimenti ogni inferenza risulta difficile. Per questo assai rilevante è che il diario clinico interno alla app sia aggiornato in modo affidabile. Ma anche questo è aggiornabile su base volontaria.

