AIgeist numero 8 │L'AI e la nostra salute - parte prima │To block or not to block (i bot AI dal vostro sito)│L'inchiesta del Guardian sui deepfake porno è una bomba│Sondaggio: paura deepfake?
Benvenuti in AIgeist, la newsletter settimanale che parla semplicemente di AI.
Ogni mercoledì alle 7. Le altre nostre newsletter: Finambolic (martedì), Xerotonina (giovedì)
Il tema è - AI e la nostra salute - parte prima
Alcuni lettori ci hanno sollecitato a parlare di come l’AI cambierà il mondo della salute. Il tema è enorme e complesso, accettiamo la sfida ma con alcuni avvertimenti: non siamo esperti di salute e o peggio medici, e non vogliamo indirizzare nessuno a scegliere questa o quella opinione in merito. Ci limiteremo a selezionare alcune delle esperienze e risorse che ci hanno più convinto e illuminato.
Per tutti, consigliamo di leggere questo ottimo prontuario online su cosa fare e non fare come pazienti con i sistemi digitali (cosiddetto “dr Google”) prima di farsi venire idee strane.
“Noi siamo pazienti e consumatori di salute, e il collegamento tra le due cose non verrà certo risolto dall’AI”
Come ben spiega questo lucido contributo di CNET, se è abbastanza chiaro, nella sua estrema specializzazione, cosa potranno fare le tecnologie legate all’AI (non i sistemi generativi, ancora completamente illegali o meglio, non approvati dagli enti regolatori come la FDA negli USA anche se usati da almeno il 10% dei medici) lo è molto meno il mondo delle app per consumatori, i dispositivi “smart” e altre soluzioni fai da te.
Usiamo questo contributo per introdurre la dottoressa e ricercatrice Maame Yaa Yiadom dell’università di Stanford (sua la citazione sopra) che dice: “Le conversazioni sembrano concludersi con la tecnologia, ma la tecnologia è buona solo quanto aiuta le persone nel loro percorso con i fornitori di assistenza sanitaria. Questo include la selezione, fare una diagnosi, elaborare un piano di trattamento e raggiungere uno stato di salute migliore”. Insomma dimentichiamo i sogni di autocura, l’AI servirà se cambierà il sistema nel suo complesso e migliorerà la relazione tra paziente e sistema.
Intanto la ricerca va avanti e si indirizza verso la realizzazione di modelli linguistici e basi di dati e conoscenza ad hoc per il mondo medicale
O almeno, è questo che caldeggia questa fondamentale ricerca di Science (ChatGPT in healthcare: A taxonomy and systematic review) che si definisce la più completa sullo stato dell’arte, e che conclude una cosa che per chi ha letto AIgeist ultimamente è abbastanza nota: i modelli linguistici e il loro training specifico influenzano la qualità delle risposte, e sul mondo medicale non è stato fatto ancora abbastanza per creare dati omogenei mentre la qualità del modello generale (cosiddetto GPT4) non è sufficiente e garantire risultati stabili e affidabili. Di modelli dati ad hoc ce ne sono già molti, e la ricerca li elenca, ma ora bisogna “metterli a terra” nei tool professionali che i medici usano (e magari favorire un interscambio di dati anonimizzati dei pazienti tra istituzioni sanitarie, cosa che ora avviene solo, e in modo molto limitato, in ambito scientifico). Anche per non incorrere in quelle cosiddette “allucinazioni” (marchiani errori di risposta) che in questi casi potrebbero risultare addirittura fatali (qui una disamina di alcuni, in pdf: ChatGPT fa molta confusione sulle “reference”, cita lavori inesistenti eccetera)
Ma se gli errori marchiani sono dietro l’angolo, altri più sottili si affacciano e forse sono anche più dannosi, proprio perché quasi invisibili: sono le aberrazioni dovute a basi di dati che nascono già “biased”, vale a dire inquinate da metodi di raccolta o classificazione incompleti, drammaticamente amplificati dai processi di AI. Un esempio tra tutti? I dati di base di molte malattie sono costruiti su pazienti ricchi e “bianchi”, mentre le popolazioni delle cosiddette minoranze, o più povere, non vengono studiate così di frequente. Altro che medicina “personalizzata” paziente per paziente, qui ci sono, e bene lo spiega questa ricerca di Oxford su dati inglesi, intere popolazioni non rappresentate. Tutto ok se i medici ci aggiungono sapere e attenzione, meno ok se quei dati vengono trasformati in modelli predittivi per tutta la popolazione e magari determinano politiche pubbliche su questa o quella malattia.
Quanto invece all’accuratezza dei risultati di oggi, fonti diverse dicono cose (molto) diverse
C’è infatti chi dice, ripreso da Newsweek che senz’altro non è una fonte poco credibile, che il 73% delle risposte di ChatGPT su cose mediche sono corrette, e chi invece, e la fonte è il prestigioso JAMA pediatrics, vede un 83% di errori. Nel dubbio, lo ribadiamo, rivolgetevi a un buon dottore, per fortuna ne abbiamo ancora (anche se sempre meno) che hanno studiato decine di anni per farsi un’idea.
Noi, lo confessiamo, abbiamo usato GPT4 per mettere un po’ di ordine su alcuni esami medici periodici: gli abbiamo chiesto di inserirli in una ordinata tabella, partendo da dei PDF disordinati, e come sempre ha fatto un lavoro eccellente. E lo diciamo, perché abbiamo controllato a mano :-).
(fine della parte 1, parte 2 tra 7 giorni, martedì 12 Marzo)
Da ricordare in breve> L’AI applicata alla salute ha grandi potenzialità di sviluppo e viene già ampiamente utilizzata e ricercata, in modo più o meno trasparente dalla classe medica. Le incognite sono molte, i risultati per ora incerti e i rischi evidenti, ma la ricerca non si ferma. Nel prossimo numero ci concentreremo sull’impatto economico dell’AI sul cosiddetto “business della salute”.
La risorsa è - To block or not to block (i GPT dal vostro sito)
Anche se non siete il New York Times e fare causa a OpenAI non è nelle vostre priorità, molti di noi che gestiscono o hanno interesse in siti web si chiedono giustamente cosa ne sia dei propri contenuti online, vale a dire se possono essere “protetti” dalla possibilità di diventare benzina per ChatGPT e company.
Prima di tutto viene da chiedersi: to block or not to block? Ci sono pro e contro di fronte alla decisione di tenere fuori i “crawler” di OpenAI e Bard/Gemini (Google), e questo articolo li spiega molto bene.
Ci sono settori particolarmente sensibili che senz’altro si devono porre la domanda, tra i primi i produttori di news ma anche i siti di ecommerce
Insomma tutti i campi dove il contenuto accuratamente “curato” fa tutta la differenza devono preoccuparsene, e decidere in modo assennato.
La buona notizia è che sia OpenAI/ChatGPT che Google/Bard hanno pubblicato (vedi link sotto👇) indicazioni molto precise su come tenere fuori i “ragni”. Ma che dire del passato? Diciamo che la probabilità che il vostro sito sia stato usato per il training dell’AI è davvero bassa. OpenAI ha reso pubbliche in più circostanze le fonti su cui ha eseguito il training. La più probabile è Common Crawl, una specie di motore di ricerca “senza buco” o meglio una copia sostanziosa dell’intero web. Per verificare se il vostro sito è nel suo mostruoso indice dovrete però smanettare non poco tra Python e GitHub, non c’è un sistema semplice “alla Google”.
Tornando all’inizio, se avete intenzione di fare causa a OpenAI occhio, gli avvocati del neo-colosso AI vi faranno senz’altro le pulci come stanno facendo al NYT, fino a dimostrare che siete voi che state violando le regole di condotta del servizio, non viceversa. Da non provare.
Utile per> Webmaster, editori e chiunque abbia un sito web e ci tiene ai contenuti che cura
🔗 Link: How to Block OpenAI ChatGPT From Using Your Website Content
🔗 Link: Google Will Enable Web Admins To Block Systems from Scraping Sites for AI Training
🪙Prezzo: i sistemi di protezione sono gratuiti, ma ci possono essere come spieghiamo implicazioni negative sul vostro business e richiedono qualche competenza tecnica. Esempio: Google sostiene che non farsi indicizzare da Bard/Gemini (la sua AI) non ha effetti sul ranking SEO web. Ci possiamo credere al 100%, e per sempre?
L’idea è - L'inchiesta del Guardian sui deepfake porno è una bomba
Ci sono commentatori social millenaristi che prevedono disgrazie imminenti dovuti all’AI, pensosi commentatori che copiano e incollano qualche teoria strampalata, poi c’’è il vero giornalismo. Regola classica: follow the money. Ê quanto hanno fatto i giornalisti di inchiesta del Guardian con il podcast Blackbox. L’indagine rivela i nomi collegati a ClothOff, un'app di pornografia deepfake che ha generato immagini non consensuali di ragazze minorenni in tutto il mondo. Questa app è al centro di incidenti gravi in Spagna e negli Stati Uniti, dove le immagini deepfake hanno causato sofferenze significative tra le vittime (la app è oggi ancora live tranne che in UK, NDR). Non ci cimentiamo nella dettagliatissima inchiesta, ma ecco qualche passaggio essenziale: un'indagine di sei mesi (non un pretenzioso post) svela i nomi di persone legate a ClothOff, con tracce che portano a Bielorussia e Russia, ma anche attraverso aziende registrate in Europa e società di facciata a Londra. Ecco alcuni passaggi:
Protagonisti identificati: Dasha Babicheva e suo fratello Alaiksandr Babichau in Bielorussia sono stati collegati a ClothOff attraverso account di social media e interazioni con partner commerciali. Loro negano.
Percorso dei pagamenti: I pagamenti a ClothOff hanno rivelato tentativi di nascondere le identità dei creatori, con transazioni che portano a una società fantasma a Londra, Texture Oasis, e collegamenti con un mercato di videogiochi online, GGSel, utilizzato per aggirare le sanzioni occidentali.
Difficoltà nell'identificazione: L'indagine mette in luce la crescente difficoltà di distinguere tra identità reali e false, complicando ulteriormente gli sforzi per contrastare la diffusione di immagini deepfake non consensuali.
Risposta di ClothOff: L'azienda nega qualsiasi collegamento con GGSel o con le persone nominate nell'articolo e afferma che la sua app non può essere usata per elaborare immagini di minori, senza specificare come.
Intanto procedono i tentativi di regolare il tema in generale dei cosiddetti deepfakes, anche non pornografici, con risultati per ora modesti
Come sempre la cosa esplode quando di mezzo c’è qualche persona potente, in questo caso (non parliamo dello scoop del Guardian, ma in generale) quella considerata una delle più potente figure pubbliche negli USA: Taylor Swift. Questo articolo della Technology Review del MIT passa in rassegna i “cantieri” aperti sul tema, dai watermarks agli “scudi” alle “regulation” di vario genere. Sul punto specifico delle regole decise dalle autorità pubbliche è ancora il MIT ad approfondire, spiegando come in assoluto siano il sistema meno efficace, almeno dato il funzionamento attuale delle regolazioni sulla tecnologia (qualcuno ha sentito parlare di social media e protezione dei minori per caso?). E allora avanti con il libero giornalismo, almeno fino a quando sopravvive.
Tempo di lettura> 30 minuti
Il link: Revealed: the names linked to ClothOff, the deepfake pornography app