Data Cleaning: 3 step per renderlo efficace

Il Data Cleaning è importante perché permette di non perdere tempo con analisi incerte o addirittura errate ed evitare così di giungere a conclusioni sbagliate. Inoltre, rende l’analisi più veloce perché i dati corretti, puliti e formattati accelerano il calcolo degli algoritmi avanzati.

Tecniche di Data Cleaning

Il processo di data cleaning segue tre step principali:

  • Individuare i dati sporchi;
  • Eliminare i dati sporchi;
  • Ripetere il procedimento.

Individuare i dati sporchi

La prima cosa da fare è identificare cosa c’è di sbagliato nei dati, ad esempio controllare se questi sono consistenti, se ci sono righe con spazi vuoti, colonne senza alcun dato o valori impossibili e stabilire quali sono i dati mancanti.

Eliminare i dati sporchi

In base alla tipologia di data dirt che si ha di fronte, si avrà bisogno di tecniche diverse di pulizia, un unico approccio non è sufficiente per risolvere tutti i problemi di data cleaning. Nel caso in cui ci siano dei dati mancanti, esistono tre diversi approcci:

  • Eliminare le righe o le colonne con i dati mancanti;
  • Codificare i dati mancanti in un formato diverso, ad esempio se si ha una colonna “payment_date” vuota perché non ci sono stati ancora pagamenti, si può modificare in “payed_yet” e riempirla con 0 per “no” e 1 per “si”, in questo modo la colonna non sarà più vuota;
  • Inserire i valori mancanti realizzando una stima del valore probabile, specialmente per le analisi di serie temporali in cui i dati mancanti possono distorcere le conclusioni.

Se i dati presentano dei valori anomali, esistono tre diversi approcci:

  • Eliminare i valori anomali dall’analisi escludendo la più alta e più bassa percentuale dai dati;
  • Separare i valori anomali da quelli considerati normali in due gruppi differenti. Questa differenziazione è utile anche per effettuare strategie di marketing su coloro che ad esempio acquistano molto al di sopra della media.
  • Usare metodi di statistica differenti per l’analisi dei valori anomali, in questo modo non peseranno in maniera negativa sull’analisi.

Nel caso in cui i dati risultino inconsistenti, dopo averli individuati, l’unico modo è standardizzare tutti gli elementi nello stesso formato. Se invece i dati risultano non validi la soluzione è modificare le funzioni e le trasformazioni che hanno reso il dato non valido, se questo non è possibile è meglio rimuovere il dato.

Talvolta i dati possono risultare duplicati, in questo caso si può agire in due modi:

  • Trovare i record duplicati ed eliminarli tutti tranne uno;
  • Raggruppare i record duplicati, compararli e scegliere quello più rilevante (ad esempio quello più recente).

Ripetere il procedimento

Una volta che i dati sono puliti, bisognerà ripetere i primi due step. Tutto ciò è utile per trovare i problemi nascosti o scovarne di nuovi. In questo modo si avrà la sicurezza che i dati siano perfettamente puliti e utilizzabili.

Automazione del Data Cleaning

Alcuni dei task più lunghi e ripetitivi del processo di pulizia dei dati possono essere automatizzati, in particolare è possibile rendere automatiche due tipologie di operazioni:

  • Individuazione dei problemi. Attraverso un visualization tool è possibile individuare velocemente i valori mancanti e la diversa distribuzione dei dati;
  • Trasformare i dati nella forma desiderata. Ad esempio è possibile rimuovere tutti gli spazi bianchi, dividere le stringhe in parole oppure eliminare tutte le lettere maiuscole.

La pulizia dei dati è un processo complesso e lungo ma è fondamentale per ottenere informazioni affidabili e di qualità.

Author avatar
Flairbit