da dove ottiene le informazioni l'intelligenza artificiale?

Da dove ottiene le sue informazioni l'intelligenza artificiale?

Vi è mai capitato di grattarvi la testa e chiedervi... da dove vengono tutte queste informazioni? Voglio dire, l'intelligenza artificiale non sta certo rovistando tra polverose pile di libri in biblioteca o guardando di nascosto brevi video su YouTube. Eppure, in qualche modo, riesce a trovare risposte a qualsiasi domanda, dai trucchi per preparare le lasagne alla fisica dei buchi neri, come se avesse un archivio inesauribile al suo interno. La realtà è più strana, e forse più intrigante di quanto si possa immaginare. Analizziamola un po' (e magari sfatiamo anche un paio di miti lungo la strada).


È stregoneria? 🌐

Non è stregoneria, anche se a volte sembra così. Quello che succede dietro le quinte è fondamentalmente la previsione di modelli. I modelli linguistici di grandi dimensioni (LLM) non memorizzano i fatti come il tuo cervello conserva la ricetta dei biscotti di tua nonna; piuttosto, sono addestrati a indovinare la parola (token) successiva in base a ciò che è venuto prima [2]. In pratica, questo significa che si agganciano alle relazioni: quali parole stanno insieme, come le frasi prendono solitamente forma, come intere idee sono costruite come un'impalcatura. Ecco perché l'output sembra corretto, anche se - in tutta onestà - è imitazione statistica, non comprensione [4].

Quindi, cosa rende davvero utili le informazioni generate dall'intelligenza artificiale ? Un paio di cose:

  • Diversità dei dati : attingere da innumerevoli fonti, non da un unico flusso ristretto.

  • Aggiornamenti : senza cicli di aggiornamento, il software diventa obsoleto in fretta.

  • Filtraggio : idealmente, cattura i rifiuti prima che si infiltrino (anche se, diciamocelo, quella rete ha dei buchi).

  • Controllo incrociato : basarsi su fonti autorevoli (si pensi alla NASA, all’OMS, alle principali università), che è un elemento imprescindibile nella maggior parte dei manuali di governance dell’IA [3].

Tuttavia, a volte inventa con sicurezza. Quelle cosiddette allucinazioni? In pratica, sciocchezze raffinate, raccontate con faccia seria [2][3].

Articoli che potrebbero interessarti dopo questo:

🔗 L'intelligenza artificiale può predire i numeri della lotteria?
Esplorare miti e fatti sulle previsioni della lotteria basate sull'intelligenza artificiale.

🔗 Cosa significa adottare un approccio olistico all'intelligenza artificiale?
Comprendere l'intelligenza artificiale con prospettive equilibrate su etica e impatto.

🔗 Cosa dice la Bibbia sull'intelligenza artificiale?
Esaminare le prospettive bibliche sulla tecnologia e sulla creazione umana.


Confronto rapido: da dove attinge l'intelligenza artificiale 📊

Non tutte le fonti sono uguali, ma ognuna ha il suo ruolo. Ecco una panoramica.

Tipo di origine Chi lo usa (IA) Costo/Valore Perché funziona (o non funziona...)
Libri e articoli Modelli linguistici di grandi dimensioni Impagabile (più o meno) La conoscenza densa e strutturata invecchia rapidamente.
Siti web e blog Praticamente tutte le IA Gratuito (con rumore) Varietà selvaggia; un mix di genialità e assoluta spazzatura.
Articoli accademici IA ad alta intensità di ricerca A volte a pagamento Rigore e credibilità, ma espressi in un gergo pesante.
Dati utente IA personalizzate Altamente sensibile ⚠️ Abiti eleganti, ma tanti grattacapi per la privacy.
Web in tempo reale IA collegate alla ricerca Gratuito (se online) Mantiene le informazioni aggiornate; lo svantaggio è il rischio di amplificazione delle voci.

L'universo dei dati di addestramento 🌌

Questa è la fase di “apprendimento infantile”. Immaginate di dare a un bambino milioni di libri di fiabe, ritagli di giornale e labirinti di Wikipedia tutti insieme. Ecco come si presenta la pre-formazione. Nel mondo reale, i fornitori mettono insieme dati disponibili pubblicamente, fonti con licenza e testi generati dal formatore [2].

In cima: esempi umani curati: buone risposte, cattive risposte, spinte nella giusta direzione, prima ancora che inizi il rinforzo [1].

Avvertenza sulla trasparenza: le aziende non divulgano ogni dettaglio. Alcuni limiti sono la segretezza (proprietà intellettuale, problemi di sicurezza), quindi si ottiene solo una visione parziale della situazione reale [2].


Ricerca in tempo reale: il condimento extra 🍒

Alcuni modelli ora possono sbirciare al di fuori della loro bolla di addestramento. Questa è la generazione aumentata dal recupero (RAG),che consiste fondamentalmente nel prelevare frammenti da un indice live o da un archivio di documenti e poi integrarli nella risposta [5]. Perfetto per elementi che cambiano rapidamente come i titoli delle notizie o i prezzi delle azioni.

Il problema? Internet è in egual misura genio e spazzatura. Se i filtri o i controlli di provenienza sono deboli, si rischia che dati spazzatura si intrufolino di nuovo, esattamente ciò di cui mettono in guardia i framework di rischio [3].

Una soluzione comune: le aziende collegano i modelli ai propri database interni, in modo che le risposte facciano riferimento a una politica HR vigente o a una documentazione di prodotto aggiornata, anziché essere improvvisate. In questo modo si riducono i momenti di "oh oh" e si ottengono risposte più affidabili.


Fine-Tuning: la fase di perfezionamento dell'IA 🧪

I modelli grezzi pre-addestrati sono macchinosi. Quindi vengono perfezionati:

  • Insegnare loro ad essere utili, innocui, onesti (attraverso l'apprendimento per rinforzo dal feedback umano, RLHF) [1].

  • Levigatura di bordi pericolosi o tossici (allineamento) [1].

  • Adattando il tono, che sia amichevole, formale o scherzosamente sarcastico.

Non si tratta tanto di lucidare un diamante, quanto piuttosto di radunare una valanga statistica affinché si comporti come un interlocutore.


Gli urti e i fallimenti 🚧

Non fingiamo che sia impeccabile:

  • Allucinazioni : risposte chiare ma del tutto sbagliate [2][3].

  • Bias : rispecchia i modelli incorporati nei dati; può persino amplificarli se non controllato [3][4].

  • Nessuna esperienza diretta - può parlare di ricette di zuppe ma non ne ha mai assaggiata una [4].

  • Eccessiva sicurezza - la prosa scorre come se sapesse, anche quando non è così. I modelli di rischio sottolineano l'importanza di segnalare le ipotesi [3].


Perché è come sapere 🧠

Non ha credenze, non ha memoria nel senso umano e certamente non ha un sé. Eppure, poiché concatena le frasi in modo fluido, il tuo cervello lo legge come se lo capisse. Ciò che sta accadendo è semplicemente una previsione del token successivo su vasta scala: elabora trilioni di probabilità in frazioni di secondo [2].

L'"atmosfera intelligente" è un comportamento emergente che i ricercatori chiamano, un po' ironicamente, l' " effetto pappagallo stocastico" [4]


Analogia adatta ai bambini 🎨

Immaginate un pappagallo che ha letto tutti i libri della biblioteca. Non ne comprende le storie, ma sa rielaborare le parole in qualcosa che sembra saggio. A volte ci azzecca in pieno, altre volte è un nonsenso, ma con sufficiente abilità, non si nota sempre la differenza.


Per concludere: da dove provengono le informazioni dell'IA 📌

In parole povere:

  • Dati di formazione massivi (pubblici + con licenza + generati dal formatore) [2].

  • Ottimizzazione con feedback umano per modellare il tono/comportamento [1].

  • Sistemi di recupero quando collegati a flussi di dati in tempo reale [5].

L'IA non "sa" le cose, ma predice il testo. Questo è sia il suo superpotere che il suo tallone d'Achille. In conclusione? Verificate sempre le informazioni importanti con una fonte attendibile [3].


Riferimenti

  1. Ouyang, L. et al. (2022). Addestramento di modelli linguistici a seguire istruzioni con feedback umano (InstructGPT). arXiv.

  2. OpenAI (2023). Rapporto tecnico GPT-4 : combinazione di dati concessi in licenza, pubblici e creati dall'uomo; obiettivo e limitazioni della previsione del token successivo. arXiv.

  3. NIST (2023). AI Risk Management Framework (AI RMF 1.0) - provenienza, affidabilità e controlli del rischio. PDF.

  4. Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). Sui pericoli dei pappagalli stocastici: i modelli linguistici possono essere troppo grandi? PDF.

  5. Lewis, P. et al. (2020). Generazione con recupero aumentato per PNL ad alta intensità di conoscenza. arXiv.


Trova l'ultima intelligenza artificiale nello store ufficiale di AI Assistant

Chi siamo

Torna al blog