Negli scorsi anni il Dipartimento di Psicologia e Scienze Cognitive dell'Università di Trento mi ha chiesto di tenere un corso di introduzione all'analisi dei dati con R per il Corso di Dottorato in Scienze Cognitive.
Poiché recentemente ho riscontrato, nella mia rete professionale, un crescente interesse per l'analisi dei dati quantitativi, ho deciso di proporre il corso come summer school online: una lezione di due ore a settimana, dal 30 giugno al 1 settembre.
Sulla pagina di presentazione del corso troverai tutte le informazioni, compresi i costi e il calendario delle lezioni.
Questo post è una introduzione alla metodologia della ricerca quantitativa.
Domani pomeriggio (mercoledì 9 giugno alle 18) terrò un webinar gratuito di introduzione al linguaggio e all'ambiente statistico R.
Per partecipare iscriviti su Eventbrite
Se non puoi partecipare al webinar ma sei comunque interessata al corso, contattami via mail (bussolon@gmail.com) o su linkedin.
Analisi dei dati: a cosa serve?
“I keep saying that the sexy job in the next 10 years will be statisticians. And I’m not kidding.” Hal Varian, chief economist at Google
La citazione è tratta da un articolo apparso sul New York Times nell’agosto 2009. Con lo svilupparsi di internet e delle nuove tecnologie, sostiene l’articolo, vivremo in un mondo dove tutto può essere misurato, dove il numero di informazioni di tipo quantitativo è destinato a crescere di anno in anno. Il problema, notano, è che affinché questi dati abbiano un senso, è necessario trasformarli in informazioni e conoscenza. Per fare questo, i dati vanno analizzati. La statistica e l’analisi dei dati sono fra gli strumenti necessari per mettere in atto questa trasformazione. Dati, informazioni, conoscenza.
L’analisi dei dati, dunque, può essere utilizzata per trasformare i dati raccolti da osservazioni empiriche in informazioni che, all’interno di un contesto conoscitivo, accrescono la conoscenza degli individui e delle organizzazioni.
L’articolo del New York Times enfatizza principalmente la conoscenza applicativa, finalizzata ad ottenere risultati pratici: ad esempio per fare delle previsioni. Ma l'analisi dei dati ha un ruolo centrale anche nella ricerca scientifica.
La ricerca
La ricerca (scientifica ma non solo) è una attività strutturata, finalizzata ad accrescere la conoscenza, teorica e applicativa, attraverso un atteggiamento empirico. All’interno del processo di ricerca vi sono attività di acquisizione, analisi, ed interpretazione dei dati. L’acquisizione è finalizzata a raccogliere i dati, l’analisi è finalizzata a trasformare i dati in informazioni, l’interpretazione a trasformare l’informazione in conoscenza.
La ricerca usa procedure, metodi e tecniche coerenti con una specifica scelta epistemologica e metodologica e capaci di garantire adeguati livelli di validità e affidabilità. L'atteggiamento di chi fa ricerca dovrebbe rispettare dei criteri di obiettività, ed evitare ogni forma di manipolazione finalizzata a piegare i risultati alle sue ipotesi. Uno dei fini dell’utilizzo di procedure, metodi e tecniche standardizzate è proprio quello di rispettare dei ragionevoli criteri di obiettività, validità, affidabilità.
La ricerca, sia scientifica che applicativa, dovrebbe essere – nel limite del possibile – una attività controllata, rigorosa, sistematica, valida, verificabile, empirica, e critica.
Attività controllata
Una delle finalità del metodo sperimentale è quella di misurare la relazione fra due variabili, minimizzando gli effetti di fattori estranei. Il criterio della controllabilità è più facile da ottenere quando l’attività di ricerca avviene in un contesto il più possibile controllato, quale il laboratorio sperimentale.
Ricerca qualitativa
Lo svantaggio della ricerca in laboratorio, soprattutto nell’ambito delle scienze sociali e psicologiche e in molti contesti applicativi quali il design, è che la controllabilità implica la semplificazione del modello. Per questo motivo, ad un approccio strettamente sperimentale e quantitativo, è quasi sempre necessario affiancare delle attività di ricerca di tipo più qualitativo che, sebbene meno solide dal punto di vista inferenziale, permettono di avere una più completa visione d’insieme entro cui contestualizzare anche i risultati, più particolari, delle ricerche quantitative e sperimentali.
In termini epistemologici, questo atteggiamento viene definito pluralismo metodologico, mentre l’idea che un solo tipo di approccio empirico e conoscitivo sia possibile è definito monismo metodologico.
Rigorosità
Il concetto di rigorosità si riferisce ad un atteggiamento epistemologico finalizzato ad identificare misure, strumenti e metodi che siano rilevanti, appropriati e giustificati (teoricamente ed empiricamente).
Sistematicità
La sistematicità è finalizzata a garantire che la procedura adottata segua una chiara sequenza logica.
Analisi della letteratura
A month in the laboratory can often save an hour in the library.
– F. H. Westheimer
Per trovare una risposta empiricamente plausibile ad un problema è necessario studiare la letteratura: molto probabilmente il problema è già stato affrontato, sono state sviluppate delle teorie, sono state pubblicate delle ricerche. Prima di immaginare di iniziare una ricerca, è fondamentale analizzare la letteratura.
Il processo di ricerca
Una volta analizzata la letteratura può iniziare il processo di ricerca. Questa è una possibile procedura, che va naturalmente adattata agli scopi e alle circostanze:
- partire da ciò che è emerso dallo studio della letteratura;
- se opportuno, iniziare una fase di osservazione, o una raccolta dati più aperta, meno quantitativa e più qualitativa, per meglio definire il problema;
- formulare delle ipotesi, plausibilmente all’interno di una teoria;
- formulare delle previsioni basate sulle ipotesi;
- procedere ad uno studio empirico, possibilmente quantitativo, possibilmente con un disegno di tipo sperimentale;
- analizzare i dati, possibilmente con l’utilizzo anche di statistiche inferenziali;
- trarre delle conclusioni.
Validità
Il metodo scientifico, e più in particolare l’approccio sperimentale, si basa sull’assunzione che vi sia un legame esplicativo fra ciò che succede nel contesto sperimentale e quello che si intende spiegare.
L’esperimento, in quanto tale, tende a replicare in un setting controllato alcuni aspetti di ciò che avviene nel mondo esterno, per poter verificare se vi è una relazione causale fra due o più variabili.
Per fare questo bisogna ricreare la situazione nel setting, testare la relazione causale, e riportare la relazione all’ambiente originale.
Presupposti di validità
Affinché una ricerca quantitativa si possa considerare valida è necessario che
- alcuni aspetti di un fenomeno si possano misurare, se non su tutta la popolazione, almeno su di un campione;
- a partire da queste misurazioni, si possano fare delle analisi statistiche per far emergere delle relazioni o delle differenze;
- questi risultati abbiano una significatività statistica;
- i dati ottenuti abbiano un legame con il fenomeno in questione;
- i risultati ottenuti sul campione possano essere generalizzati alla popolazione.
Tipi di validità
In letteratura si trovano diversi tipi di validità. Ne elenchiamo i più importanti.
La validità di costrutto
Si preoccupa di valutare se una scala (o una variabile) misura - o correla - con il costrutto scientifico teorizzato. La validità di costrutto può essere supportata dalla validità convergente, che ha luogo quando la misura correla statisticamente con misure correlate teoricamente, e dalla validità discriminante, che ha luogo quando vi è una mancata correlazione statistica con misure che la teoria suppone non siano correlate.
La validità di contenuto
Si preoccupa che l’esperimento (o le variabili misurate) coprano adeguatamente il soggetto di studio, ed è fortemente legata al design sperimentale.
La validità statistica
È legata alla possibilità di trarre delle inferenze dall’analisi statistica, ovvero se le differenze o le associazioni che misuriamo sono statisticamente significative.
La validità interna
Vi è validità interna se possiamo assumere che vi sia una relazione causale fra le variabili studiate, ovvero se una correlazione osservata può essere considerata una relazione causale. Può essere assunta solo all’interno di un disegno sperimentale.
La validità esterna
Si preoccupa di verificare se le conclusioni valide nel setting sperimentale possono essere generalizzate, alla popolazione o a contesti diversi.
Validità e statistica
L’analisi dei dati è uno degli strumenti che ci permette di valutare alcuni degli aspetti della validità di un esperimento.
- L’analisi descrittiva ed esplorativa ci permettono di verificare l’esistenza di una relazione fra variabili.
- L’analisi inferenziale ci permette di verificare la validità statistica propriamente detta.
- Le tecniche di campionamento sono finalizzate a massimizzare la validità esterna.
- Il disegno sperimentale ha il fine di preservare la validità interna
Affidabilità
L’affidabilità si riferisce alla qualità del processo di misurazione delle variabili. È legato agli aspetti della ripetibilità e dell'accuratezza della misura.
L’analisi dei dati
Scopi
L’analisi dei dati è finalizzata a molteplici scopi:
- descrivere – numericamente e graficamente – una o più misure relativa ad un campione;
- fare delle stime – puntuali e ad intervallo – relative a dei parametri della popolazione;
- calcolare delle relazioni fra due o più variabili, misurate sul campione, e fare delle inferenze in merito alla popolazione di riferimento;
- fare delle previsioni in merito al valore di una osservazione, non nota, a partire da delle osservazioni note.
Possiamo distinguere fra statistiche descrittive-esplorative e statistiche inferenziali.
Statistica esplorativa
Spesso, in letteratura, si tende ad usare sia il termine descrittiva che esplorativa, anche se forse ha più senso parlare di statistica esplorativa quando valuta la relazione fra due o più variabili, e descrittiva la statistica non inferenziale univariata (ovvero calcolare le tendenze centrali e la dispersione delle misure del campione).
Finalità
Le statistiche descrittive sono finalizzate a:
- avere una prima visione, qualitativa, delle variabili raccolte;
- controllare la presenza di errori, ad esempio di data-entry;
- far emergere outliers e anomalie;
- valutare qualitativamente ipotesi e assunti, determinare qualitativamente le relazioni fra le variabili;
- identificare l’entità e la direzione delle relazioni fra le variabili;
- selezionare i modelli statistici appropriati;
Le statistiche esplorative propriamente dette (Exploratory Data Analysis, EDA) hanno anche altre funzioni:
- scoprire pattern e strutture implicite;
- estrarre variabili latenti, o far emergere variabili importanti;
- sviluppare modelli parsimoniosi (riduzione dello spazio delle variabili);
- determinare opportuni parametri per ulteriori analisi (ad esempio il numero di fattori, il numero di clusters)
Gli errori
Il fine dell’analisi inferenziale è quello di trarre delle conclusioni in merito a dei parametri di una o più popolazioni. Per fare questo, si potrebbe voler misurare i parametri della popolazione di interesse, calcolarne le statistiche appropriate, e trarne le debite inferenze.
Testare l’intera popolazione è però generalmente impossibile, per due ordini di motivi.
- Il motivo più ovvio è di tipo pratico: se la popolazione è molto numerosa, testarla completamente diventa eccessivamente costoso.
- Vi è inoltre un secondo motivo: a volte, la popolazione di riferimento è teorica. Ad esempio, potremmo voler fare delle inferenze sulla depressione post partum; in questo caso, la popolazione di riferimento sono tutte le donne che hanno partorito da meno di 3, 4 mesi. Ma anche se riuscissimo a testare tutte le partorienti d’Italia per un intero anno solare, vorremmo che i risultati ci permettessero di fare delle inferenze anche sulle donne che partoriranno fra due anni. La popolazione reale di quest’anno, dunque, è un sottoinsieme della popolazione teorica che include le donne che partoriranno nei prossimi anni.
Appare dunque chiaro che, tranne alcune eccezioni, testare l’intera popolazione è generalmente impossibile. A questo punto, diventa necessario testare soltanto un sottoinsieme della popolazione, ovvero un campione (sample, in inglese).
Semplificando, la logica sottostante l’analisi dei dati è sostanzialmente la seguente:
- si identifica un problema
- si identifica una popolazione
- si identificano una o più dimensioni pertinenti
- si estrae un campione
- si misurano le dimensioni sul campione
- a partire dalle statistiche sul campione, si traggono inferenze sui parametri della popolazione
- si traggono delle inferenze sui risultati
Vi è, dunque, un passaggio logico: popolazione - campione, misura sul campione - generalizzazione alla popolazione. Abbiamo visto che, affinché questi passaggi portino a risultati accettabili, è necessario preservare dei criteri di validità. Più in particolare, è necessario minimizzare e gestire alcuni errori che possono influire sull’analisi.
Tipi di errore
L’analisi inferenziale si basa sulla consapevolezza che i processi di campionamento, misurazione ed analisi sono soggetti ad errori. Il fine della metodologia è quello di minimizzare e, quando possibile, escludere gli errori. Il fine dell’inferenza è quello di misurare gli errori, valutare se i risultati ottenuti sono da attribuire o meno agli errori, e stimare il rischio che il processo decisionale dell’inferenza sia scorretto.
Conoscere le tipologie di errori e i metodi per minimizzarli ed evitarli è dunque di centrale importanza nella metodologia e nell’analisi.
Sono numerosi gli errori che possono influire sul processo inferenziale. Ricordiamone alcuni.
- Errore di campionamento: il campione non produrrà esattamente gli stessi valori che si osserverebbero misurando l’intera popolazione.
- In un esperimento, errore di assegnamento: le differenze misurate fra i gruppi sperimentali e il gruppo di controllo potrebbero essere dovute non alla condizione sperimentale, ma a differenze pre-esistenti fra i gruppi creati.
- Errore di misurazione (affidabilità): la misurazione della variabile può essere non accurata, e dunque può produrre risultati parzialmente non corretti.
Più in generale, si definisce errore la differenza fra una misura di un parametro ed il valore reale del parametro stesso. Questa differenza può essere casuale o sistematica. Per capire la differenza, è necessario pensare a numerose misure, e dunque al ripetersi dell’errore. Se l’errore è casuale, la media degli errori (ovvero la media delle differenze) tende ad essere pari a zero. Viceversa, l’errore è sistematico se la media tende ad un valore diverso da zero.
Gli errori sistematici sono i più pericolosi, in quanto possono indurre il ricercatore a conclusioni errate e sono difficili da far emergere e da correggere attraverso gli strumenti statistici. Gli errori sistematici possono essere minimizzati soltanto attraverso un design rigoroso ed una raccolta ed elaborazione dei dati scrupolosa.
Il problema del campionamento è che, se fatto in maniera scorretta, può indurre ad errori sistematici.
Campionamento
Viene definito campionamento il processo di selezione del sottoinsieme di unità della popolazione da studiare, per misurarne le caratteristiche di interesse.
La notizia positiva è che, se il campionamento viene effettuato in maniera corretta, le caratteristiche misurate sul campione tendono ad assomigliare alle caratteristiche (parametri) della popolazione.
La notizia negativa è che, nonostante la somiglianza, le statistiche sul campione sono in qualche modo diverse dai parametri della popolazione. Questa differenza va attribuita alla variabilità campionaria: se noi selezioniamo due campioni distinti da una stessa popolazione, otteniamo statistiche diverse. Queste differenze sono definite anche errore di campionamento.
Campionamento rappresentativo
Per evitare errori sistematici dovuti al campione, è necessario che il campione sia rappresentativo della popolazione.
La tipologia di campionamento che meglio garantisce la rappresentatività della popolazione è il campionamento casuale: le unità del campione vengono scelte casualmente dalla popolazione. In alcuni casi si utilizza una forma di campionamento stratificata, nelle circostanze in cui si voglia garantire la rappresentatività di piccoli sottogruppi di popolazione.
Viceversa, metodi di campionamento non casuali (come i campionamenti di convenienza) rischiano di introdurre degli errori sistematici nella statistica.
Missing
Un problema di non facile soluzione emerge quando una parte non trascurabile del campione selezionato non si presta alla misurazione. Se i missing si distribuiscono in maniera uniforme fra il campione, l’impatto di questi dati mancanti risulta abbastanza circoscritto.
Se, al contrario, i missing sono più frequenti in alcuni strati della popolazione che in altri, è forte il rischio di incorrere in un errore sistematico.
Errore di campionamento
Una parte di errore, però, non può essere evitata: l'errore di campionamento. Se questi errori non sono sistematici, ma distribuiti casualmente, i metodi statistici ci permettono di stimarli, di valutarne l’impatto, e di calcolare la probabilità che i risultati da noi ottenuti siano o meno attribuibili al caso.
Statistica inferenziale
Finalità
La funzione della statistica inferenziale è di fare delle stime, relative ai parametri della popolazione, partendo dalle statistiche dei campioni, che tengano conto della variabilità campionaria. L’analisi inferenziale offre una serie di strumenti che permettono di:
- fare delle stime sui parametri di una popolazione a partire dalle misure sul campione
- determinare se i parametri di due o più popolazioni sono significativamente diversi (se la differenza non può essere attribuita alla variabilità campionaria)
- valutare se due o più parametri relativi ad una popolazione sono fra loro legati
- fare delle previsioni
L’analisi inferenziale fa delle stime, di tipo puntuale e intervallare, su determinati parametri della popolazione, testa delle ipotesi, valuta l’accuratezza delle previsioni e valuta il rischio che le stime, le ipotesi accettate e le previsioni risultino errate.
Il fine dell’analisi inferenziale è di fare delle inferenze su di una popolazione a partire dalle osservazioni di un campione.
Il fine dell’analisi inferenziale univariata è di stimare il valore di un parametro della popolazione a partire da una statistica calcolata sul campione.
Il fine dell’analisi inferenziale bivariata è quello di stimare la significatività di una relazione fra due variabili. Le analisi multivariate sono sostanzialmente un’estensione dell’analisi bivariata.
Nel confronto fra le variabili, possiamo determinare
- correlazioni fra variabili
- differenze fra gruppi
- determinazione di relazioni
- stima di effetti
- predizioni basate su analisi della regressione.
Conclusioni
Per progettare un prodotto, un servizio, un intervento, una politica è necessario comprendere il contesto in cui andremo ad operare, le persone su cui avrà un impatto, i bisogni e gli scopi che intendiamo soddisfare, i risultati attesi e così via.
Per comprendere è necessario in primo luogo studiare la letteratura (ovvero capire se qualcun altro ha già fatto ricerca sul tema), valutare quello che hanno fatto altri (l'analisi competitiva). Poi però bisogna fare ricerca in prima persona. In molte circostanze ci si può (o ci si deve) limitare alla ricerca qualitativa. Quando possibile, però, vale la pena integrare la ricerca qualitativa con dei metodi quantitativi.
Con entrambi gli approcci, è fondamentale avere una chiara idea di quello che stiamo facendo, per minimizzare il rischio di errori che possono portarci a trarre conclusioni radicalmente sbagliate.
Se sei interessata all'analisi dei dati rinnovo l'invito ad iscriverti al webinar gratuito Perché R di domani alle 18.
Per maggiori informazioni sul corso di introduzione all'analisi dei dati con R non esitare a contattarmi.