Intelligenza Artificiale, il problema del pregiudizio è insormontabile (per ora)
Un problema troppo complesso
Si sono scritti fiumi di parole sull'Intelligenza Artificiale (AI) e sulle sue immense potenzialità, su come potrebbe cambiare radicalmente il nostro mondo, dalle grandi corporation fino alla vita quotidiana di ognuno di noi. E si è scritta anche molta fantascienza, dove in genere l'AI sfugge al controllo e diventa un problema da risolvere. E anche nel mondo reale sono molti quelli convinti che i pericoli esistano, compreso un non trascurabile rischio per l'esistenza stessa della nostra società insito nell'AI. Significa che potrebbe causare l'estinzione del genere umano.
Una delle strategie più comuni, ad oggi, consiste nella selezione accurata dei dati. Se si vuole evitare che l'AI si trasformi in un mostro "alla Skynet" allora bisogna alimentare il sistema di Machine Learning con dati privi di rischi. Una cosa che è molto più facile a dirsi che a farsi.
Secondo Richard Tomsett, ricercatore in ambito AI presso IBM, "i nostri sistemai AI sono validi quanto i dati che usiamo per addestrarli. Mano a mano che l'AI si fa spazio in ogni aspetto della nostra vita, diventa importante e critico assicurarsi che i dati siano corretti, giusti, equi, interpretabili e privi di pregiudizio".
In assenza di controllo, pregiudizi ed errori presenti nei dati possono amplificarsi a dismisura, di pari passo con la crescita del sistema e il diffondersi di soluzioni AI sempre più complesse. Il problema è particolarmente grave in scenari come quello odierno, dove i dati vengono semplicemente dati in pasto agli algoritmi, senza controllo preventivo. Il controllo e la verifica dei dati, oggi, non è oggetto di alcuna regolazione ed è più che altro un'attività occasionale, che i ricercatori fanno su base volontaria.
Alcuni problemi sono facili da capire: un'AI addestrata con dati sbagliati potrebbe applicare pregiudizi razziali, di genere o di religione (o di altro tipo), quando seleziona i candidati per un lavoro o decide a chi assegnare un prestito. Altri aspetti invece sono molto meno ovvi.
In effetti i problemi di pregiudizio legati alle AI sono incredibilmente complessi e toccano molti temi diversi, non sempre di natura tecnologica. Si tratta di manipolare correttamente i dati e nel rispetto della privacy, ma anche di gestire i dati della storia umana con un approccio sociale e politico che sia il più giusto ed equo possibile. Si tratta, in altre parole, di una questione che è tanto politica quanto tecnologica.
A rendere la faccenda ancora più ingarbugliata c'è poi il chi deve definire cosa sia il pregiudizio, chi dovrebbe trasformare le idee in pratica, chi farle applicare, chi fare i controlli. Prima di tutto, in effetti, qualcuno dovrebbe stabilire che cos'è un pregiudizio. Dalla macchina si torna all'umano, con tutte le debolezze che ci contraddistinguono da sempre.
Sei un professionista? Iscriviti alla nostra Newsletter
Iscriviti alla newsletter di Techradar Pro per ricevere tutte le ultime notizie, opinioni, editoriali e guide per il successo della tua impresa!
Che cos'è il pregiudizio (bias) negli algoritmi?
Il "pregiudizio algoritmico" si verifica quando un algoritmo teoricamente imparziale giunge a una decisione discriminatoria. La discriminazione è una conseguenza quasi esclusiva dei pregiudizi insiti nel set di dati usati per addestrare la macchina, che appunto li usa per prendere le proprie decisioni.
Sviluppiamo algoritmi che prendono decisioni al posto nostro, o che se non altro aiutano noi a prendere decisioni complesse. Se pero l'AI ha un "pregiudizio integrato", è facile capire come la questione passi da opportunità a problema da risolvere. Problemi che potrebbero essere trascurabili o enormi.
Per esempio, prendiamo un algoritmo il cui scopo è prevedere la domanda per un certo prodotto. Lo alimentiamo con dati demografici incompleti o errati, ed ecco che la sua previsione porta a una perdita di profitti, perché l'azienda non ha abbastanza di quel prodotto per soddisfare la domanda. Oppure perdite più concrete, perché si produce troppo di quel dato prodotto, che poi resta invenduto.
Similmente, ci sono algoritmi per stabilire a chi concedere un'assicurazione e a quali condizioni, algoritmi per selezionare il personale da assumere, per decidere le aspettative di vita... ce ne sono praticamente per ogni aspetto della nostra esistenza. E ognuno di essi ha probabilmente un problema di pregiudizio, che deriva sempre dal set di dati utilizzato.
Secondo Jack Vernon, Senior Research Analyst presso IDC, questo problema rende l'AI quasi inutile.
"Il problema è quando l'algoritmo si trascina dietro pregiudizi non intenzionali o problematici. Questi possono avere due fonti, in genere: i dati e l'algoritmo stesso", ha spiegato a TechRadar Pro via email.
"I problemi con i dati sono facili da capire: se il set ha un qualche tipo di problematicità soggiacente, è molto probabile che l'algoritmo la troverà e la amplificherà".
"Gli algoritmi possono inoltre sviluppare nuovi pregiudizi per errore... c'è il caso famoso di un sistema sviluppato per distinguere gli orsi polari dagli orsi bruni, che alla fine fu scartato perché basava la propria scelta sul fatto che il terreno fosse coperto di neve oppure no, ignorando del tutto le caratteristiche dell'orso stesso".
L'esempio di Vernon è estremo ma utile per capire in quali modi un algoritmo può allontanarsi dal suo scopo originale. Sviluppare algoritmi autonomi o semiautonomi dunque può diventare un rischio, persino una minaccia, se i problemi non vengono individuati.
Il problema più grande è probabilmente quello che si verifica quando un algoritmo intensifica svantaggi e discriminazioni già esistenti. In altre parole, un'AI pregiudiziale difficilmente rifiuterà un credito a un impiegato bancario per errore, ma potrebbe farlo con più probabilità se la persona appartiene a una minoranza etnica per il semplice fatto che queste persone, storicamente rappresentano una porzione maggiore tra i clienti a cui è stato rifiutato un credito.
Se l'AI si limitasse a ripetere un modello storico che ha individuato, tuttavia, starebbe applicando un modello pregiudiziale - il che non aiuterebbe né i clienti né la banca.
La questione della rappresentazione giusta
Gli esperti che abbiamo consultato per scrivere questo articolo sono concordi nel dire che per creare un'AI con meno pregiudizi possibili, questo andrebbe sviluppato da un team umanamente variegato e alimentato con dati presi da una grande varietà di fonti.
Il settore della tecnologia, tuttavia, mostra da sempre la situazione opposta: c'è pochissima diversità etnica e di genere - di fatto, la maggior parte delle persone che ci lavorano sono maschi bianchi. I dati disponibili sono variegati ma raccontano tutti la stessa storia: donne e minoranze etniche sono sottorappresentate nelle aziende hi-tech, compresi (o a cominciare da) colossi come Google o Microsoft.
Patrick Smith, CTO presso PureStorage, crede che le aziende siano responsabili verso sé stesse tanto quanto le persone vittime di pregiudizi.
"Le aziende rischiano di perdere possibili innovazioni se assumono solo persone che ne rispecchiano l'attuale identità. Sviluppare una strategia di assunzioni che dia valore alla diversità, e quindi crei un gruppo di lavoratori variegato, è essenziale per l'Intelligenza Artificiale perché aiuta le aziende a identificare angoli ciechi che altrimenti resterebbero nascosti, con una forza lavoro omogenea".
"La diversità e la salute di un'azienda sono quindi legate alla diversità nell'AI, perché permettono di individuare pregiudizi che altrimenti resterebbero invisibili".
Ci poi questioni su come andrebbe misurata la diversità, a rendere ulteriormente complessa la situazione. Un set di dati corretto dovrebbe dare uguale rappresentanza ai generi e alle varie etnie, oppure le minoranze dovrebbero essere presenti in modo proporzionale?".
In altre parole, i set di dati usati per addestrare le AI dovrebbero avere un uguale numero di europei, asiatici, africani e americani, oppure avere un maggior numero di asiatici rispetto agli altri gruppi?
La stessa domanda si può porre per il sesso, in relazione alla distribuzione mondiale di maschi e femmine.
La sfida è sviluppare un'AI che sia sufficientemente imparziale (o forse proporzionalmente imparziale), ed è la stessa sfida che stanno affrontando molte società in tutto il mondo. Come possiamo assicurarci che tutti i gruppi siano rappresentati e ascoltati, e in che modo i dati storici rappresentano un ostacolo al raggiungimento di questi obiettivi?
I dati sono sempre pregiudiziali?
È chiaro che un sistema ML (Machine Learning) va alimentato con i dati giusti, perché solo così l'AI potrà generare risposte utili. Ma separare i dati giusti (e utili) da quelli sbagliati è tutt'altro che semplice.
Tomsett spiega che "i dati possono essere pregiudiziali in molti modi: la base stessa potrebbe essere sbagliata e non rappresentativa; le etichette applicate ai dati, dagli operatori, potrebbero portare con sé del pregiudizio. O ci potrebbe essere del pregiudizio intrinseco, e il nostro obiettivo è evitare che si propaghi".
"In molti casi continueremo ad addestrare i sistemi AI con dati cattivi, prolungando la durata di questo problema, che a sua volta può spingere certi gruppi di persone verso uno svantaggio sistemico", aggiunge.
La cosa più logica sembrerebbe rimuovere quei tipi di dati compromettenti, come l'appartenenza a un gruppo etnico o l'orientamento sessuale. In teoria così si potrebbe almeno arginare il problema, ma le informazioni ausiliari o adiacenti, incluse nei dati stessi, possono comunque alterare l'output del sistema AI in modi non desiderabili.
Il codice postale di qualcuno, per esempio, potrebbe rivelare molto sulla sua identità. L'AI potrebbe usare i dati ausiliari per trovare o avvicinarsi a quelli primari, e si otterrebbe lo stesso livello di discriminazione.
Come se non bastasse, esistono casi in cui un'AI discriminante è in effetti desiderabile. Per esempio, se uso un'AI per assumere del personale ed è richiesta una certa forza fisica, diciamo un vigile del fuoco, un algoritmo che sappia fare le giuste differenze mi sarà utile - considerando per esempio che i maschi sono mediamente più forti, fisicamente, rispetto alla donne. In questo caso un data set pregiudiziale sarebbe adeguato.
Da tutto questo emerge un livello di complessità molto grande, che rende molto difficile individuare e correggere i pregiudizi nei data set.
Per affrontare il problema dei dati i ricercatori hanno considerato l'idea dei bias bounties, delle vere e proprie "taglie" sulla testa dei pregiudizi nei data set. Il sistema è del tutto simile ai "bug bounty" che le aziende tech usano per correggere i software. Ci si basa sul concetto che un singolo individuo sia in grado di riconoscere un pregiudizio verso gruppi demografici diversi dal proprio - un'idea che varrebbe la pena discutere.
Un'altra possibile soluzione potrebbe trovarsi nella nozione di Explainable AI (XAI), secondo cui il sistema AI deve essere sempre in grado di spiegare dettagliatamente perché ha preso una certa decisione. Un concetto contrario ai sistemi attuali, in particolare al problema della black box.
“La Explainable AI sta diventando rapidamente uno degli argomenti più importanti del settore, e in parte riguarda il controllo dei dati prima che siano usati per addestrare un un modello", spiega Vernon.
"Se un'AI ha gli strumenti per spiegarsi, questi ci possono aiutare a capire come l'algoritmo è arrivato a una certa decisione. E questo dovrebbe darci un'indicazione riguardo alla presenza di pregiudizi problematici".
La trasparenza, dunque, sembra essere il primo passo per risolvere il problema del pregiudizio nell'AI. Se non possiamo impedire all'AI di discriminare, forse possiamo riconoscere la discriminazione dopo che è avvenuta. Non è eccellente ma è già qualcosa.
È troppo tardi?
C'è poi il problema che moltissimi algoritmi già utilizzati oggi hanno il pregiudizio integrato (algorithmic bias). Quanti strumenti in uso oggi hanno questo problema? Quanti di questi algoritmi saranno usati come basi per progetti futuri?
Quando si sviluppa del software è pratica comune, tra gli sviluppatori, prendere porzioni di codice da librerie esistenti. Una pratica che permette di lavorare più in fretta e con maggiore efficienza, e senza la quale molta della programmazione moderna sarebbe del tutto impossibile. Immaginate se per scrivere un nuovo programma fosse necessario riscrivere tutto quanto è stato fatto negli ultimi 50 anni.
Questa pratica però consolida il problema del pregiudizio nei dati e nelle AI. Anzi, il problema diventa quasi impossibile da rilevare, affondato tra milioni di righe di codice, praticamente impossibile da decifrare.
Ipoteticamente sarebbe possibile individuare la porzione di codice discriminante ed eliminarle, se si tratta di codice open source. Ma se quella discriminazione si è fatta strada in decine, centinaia o persino migliaia di prodotti, tracciarli tutti è praticamente impossibile.
Secondo Kacper Bazyliński, AI Team Leader presso Neoteric, è abbastanza comune riciclare il codice da un progetto all'altro.
"Se due progetti AI sono simili, spesso condividono alcuni passaggi di sviluppo, nell'elaborazione dei dati. Ed è quindi piuttosto comune prendere del codice da un progetto e metterlo nell'altro, per sviluppare più in fretta", spiega.
"Condividere dati pregiudiziali porta il pregiudizio stesso a diffondersi in altri sistemi e in progetti futuri. Uno dei compiti degli sviluppatori è impedire che questo accada".
Bazyliński aggiunge che spesso e volentieri gli sviluppatori hanno un accesso limitato ai dati usati per addestrare gli algoritmi.
Questo non significa che usare le librerie sia una scelta sbagliata per definizione. Anzi, come abbiamo accennato, senza di esse non si potrebbero sviluppare i software. C'è però un potenziale rischio quando alla diffusione di discriminazioni e pregiudizi.
"Tutto considerato, sarebbe un grosso errore pensare che la tecnologia di per sé è neutrale" si legge sul blog di DeepMind, una società controllata da Alphabet (Google). "Qualunque sia l'origine del pregiudizio, si diffonde e si amplifica con ogni nuovo prodotto, creando nuove occasioni per fare del male".
Il pregiudizio non si può cancellare
La parola pregiudizio rimanda automaticamente a immagini negative, nella nostra mente. Ma è un elemento profondamente radicato nel nostro modo di agire, vincolato alla natura umana e quindi a tutto ciò che facciamo.
Secondo Alexander Linder, VP Analyst per Gartner, la ricerca di un'AI imparziale è impraticabile, proprio per questo paradosso della natura umana.
"Il pregiudizio non si potrà mai eliminare del tutto. Persino il tentativo di rimuovere il pregiudizio crea pregiudizio. Persino il tentativo di creare un mondo senza pregiudizi è un mito", ci ha detto.
Tomsett, dal canto suo, appare più ottimista ma ritiene comunque che un'aspirazione del genere sia futile.
"Ci sono molti tipi di pregiudizio ed è impossibile minimizzarli tutti nello stesso momento, quindi ci saranno sempre degli scambi. L'approccio migliore è decidere caso per caso, considerando con cura i possibili d'anni derivanti dall'uso di un algoritmo per prendere decisioni", ha spiegato.
"Il Machine Learning, per sua natura, è un tipo di discriminazione statistica. Addestriamo i modelli affinché prendano decisioni (discriminando tra le opzioni disponibili), basandosi sui dati del passato".
Il tentativo di rendere il processo decisionale privo di pregiudizi, dunque, sfida i meccanismi con cui noi umano prendiamo decisioni. Senza un elemento di pregiudizio, l'AI non ci può essere utile.
Sarebbe assurdo pensare che il pregiudizio nell'AI non sia un problema a cui fare attenzione, considerate le ovvie conseguenze. D'altra parte, l'idea di un set di dati perfettamente bilanciato, privo di ogni discriminazione algoritmica, sembra più che altro un ideale astratto.
La vita stessa, alla fine, è una faccenda caotica. E quindi un'AI perfetta da questo punto di vista non è possibile: non tanto perché sarebbe tecnicamente troppo difficile, ma perché la natura del problema cambia di continuo.
Il concetto stesso di pregiudizio cambia nel tempo e nello spazio, da cultura a cultura, e non è possibile sviluppare un'AI capace di essere efficace ignorando questa complessità.,
È quindi importante essere in grado di riconoscere una decisione basata sul pregiudizio e saperne ridurre i danni. Ma eliminare del tutto il pregiudizio non è naturale, nonché impossibile.
Joel Khalili is the News and Features Editor at TechRadar Pro, covering cybersecurity, data privacy, cloud, AI, blockchain, internet infrastructure, 5G, data storage and computing. He's responsible for curating our news content, as well as commissioning and producing features on the technologies that are transforming the way the world does business.