COME TRATTARE I DATI IN MODO EFFICACE?
VUOI RICEVERE VIA E-MAIL I PROSSIMI CONTENUTI DI RADIO IT?
Iscriviti alla nostra newsletter
Dati, dati, dati. Miliardi di dati: ma come facciamo a trattarli nel modo più efficace?
Questo è il terzo podcast con il quale viaggiamo dentro l’intelligenza artificiale per capirla. Capire come funziona, cosa può fare; capire se ci aiuterà a migliorare la nostra vita, o se prenderà il sopravvento sull’uomo rendendolo un proprio suddito (va da sé che la risposta a questo ultimo punto è abbastanza ovvia, ed è no!).
Dati: nessuno è perfetto
Nel precedente episodio, parlando appunto di dati, ci eravamo lasciati con una considerazione: è l’uomo che realizza e programma gli strumenti che trattano tutte le informazioni vengono raccolte e processate. Quindi, è l’uomo che traccia la strada del funzionamento di quegli strumenti, e decide di fatto a quali dati essi possano accedere, limitandone il campo di azione. E poi, siccome l’uomo non è perfetto, quegli strumenti possono essere a loro volta non perfetti. Possono banalmente rompersi, così come possono non funzionare a dovere: i dati raccolti saranno viziati da quelle che vengono definite comunemente soft issues.
Ci eravamo lasciati con una domanda: qual è la soluzione? Bene, la soluzione non c’è. O meglio, non esiste una soluzione che risolva quei problemi in modo assoluto. Per capirci: mi rompo un braccio, metto il gesso, aspetto un mese e guarisco. Questa è una soluzione assoluta, che però vale in ortopedia. Fuori dalla sala gessi, la situazione è diversa, è per forza relativa, e consiste un una “manicure” dei dati, dove la parola “cure”, cura, è cruciale.
La manicure dei dati
Di solito la parola utilizzata nel trattamento dei dati è “manipolazione”. E’ un termine da trattare con le pinze, perché supera l’accezione letterale del “lavorare con le mani” per dare una forma definita a qualcosa di informe (tutti abbiamo visto Demi Moore e Patrick Schwayze modellare la creta in Ghost; poi hanno modellato altro, ma questo non ci riguarda). Quell’accezione diventa negativa, perché manipolare finisce per essere sinonimo di falsificare. Ecco perché “manicure” è una parola più adatta: restituisce l’immagine di un trattamento curato, che consente di rimediare a problemi che si presentano sempre.
Per esempio: dati mancanti. In un dataset ci sono campi che contengono fatti, e quei fatti servono per fornire la risposta a una specifica domanda. Nel momento in cui il fatto manca, quel campo rimane vuoto e la domanda non ottiene risposta. Quel campo va quindi escluso dal dataset.
Poi possono esserci dei disallineamenti. Un esempio facile per capirci: alcuni dati temporale possono essere basati sull’ora di Greenwich, altri invece su quella della costa est degli Stati Uniti. E quindi è richiesto un lavoro di cura per, appunto, allinearli.
Poi naturalmente bisogna lavorare per separare i dati utili da quelli che non servono; considerare possibili omissioni o dichiarazioni non veritiere. Capiamoci: un software di intelligenza artificiale che debba aiutare le assicurazioni a definire i premi in caso di incidente stradale deve indagare un dataset in cui, magari, sono presenti numerosissimi casi di persone che hanno dichiarato di essere state distratte da un riflesso del sole – motivo per cui hanno tamponato una macchina o investito un pedone -. E invece, a distrarle è stato un messaggio sullo smartphone. E’ facile capire la differenza di portata tra i due dati, e come alterino il dataset e di conseguenza l’analisi del software.
Poi abbiamo problemi di prospettiva, o i cosiddetti bias, convinzioni che ci portiamo dietro e che assumiamo come dati oggettivi quando invece non lo sono. Insomma, quel che bisogna tenere sempre presente è che l’intelligenza artificiale processa dati che per loro natura o per i limiti del campo in cui vengono raccolti, sono incompleti. Ed è il motivo per il quale, spesso, l’Intelligenza artificiale indirizza sulla strada sbagliata.
Dati: la preparazione è tutto
Quindi, per consentire all’AI di effettuare quella manicure necessaria per ottenere un dataset affidabile, e utile per aziende, per organizzazioni politiche, per tutti coloro che devono fare qualcosa che sia data driven, è fondamentale il lavoro preparatorio. E questo si basa su passaggi precisi:
– fare le domande giuste
– ottenere i dati corretti
– processarli nel modo corretto
– analizzarli come si deve
E’ difficilissimo, quasi impossibile. Ma la tecnologia evolve, e noi siamo moderatamente ottimisti.
Vuoi rimanere aggiornato via e-mail?
Cliccando su “Invia” dichiari di aver letto e accettato l’Informativa Privacy.
0 Comments