In breve: l'intelligenza artificiale generativa accelera principalmente la scoperta di farmaci nelle fasi iniziali, generando molecole o sequenze proteiche candidate, proponendo percorsi di sintesi e individuando ipotesi verificabili, in modo che i team possano eseguire un minor numero di esperimenti "alla cieca". Funziona al meglio quando si impongono vincoli rigorosi e si convalidano i risultati; se usata come un oracolo, può indurre in errore con una certa sicurezza.
Punti chiave:
Accelerazione: usa GenAI per ampliare la generazione di idee, quindi restringila con un filtraggio rigoroso.
Vincoli: richiedono intervalli di proprietà, regole di scaffold e limiti di novità prima della generazione.
Validazione: trattare i risultati come ipotesi; confermare con analisi e modelli ortogonali.
Tracciabilità: registra richieste, output e motivazioni in modo che le decisioni siano verificabili e rivedibili.
Resistenza all'uso improprio: prevenire perdite ed eccessi di sicurezza con governance, controlli di accesso e revisione umana.

Articoli che potrebbero interessarti dopo questo:
🔗 Il ruolo dell'intelligenza artificiale nell'assistenza sanitaria
Come l'intelligenza artificiale migliora la diagnosi, i flussi di lavoro, l'assistenza ai pazienti e i risultati.
🔗 L'intelligenza artificiale sostituirà i radiologi?
Esplora come l'automazione potenzia la radiologia e cosa resta umano.
🔗 L'intelligenza artificiale sostituirà i medici?
Uno sguardo onesto all'impatto dell'intelligenza artificiale sul lavoro e sulla pratica medica.
🔗 I migliori strumenti di laboratorio di intelligenza artificiale per la scoperta scientifica
I migliori strumenti di laboratorio di intelligenza artificiale per accelerare esperimenti, analisi e scoperte.
Il ruolo dell'intelligenza artificiale generativa nella scoperta di farmaci, tutto d'un fiato 😮💨
L'intelligenza artificiale generativa aiuta i team di ricerca farmaceutica a creare molecole candidate, prevedere le proprietà, suggerire modifiche, proporre percorsi di sintesi, esplorare ipotesi biologiche e comprimere i cicli di iterazione, soprattutto nelle fasi iniziali della scoperta e dell'ottimizzazione dei composti candidati. Nature 2023 (revisione sulla scoperta di ligandi) Elsevier 2024 (modelli generativi nella progettazione di farmaci de novo)
E sì, può anche generare con sicurezza assurdità. Fa parte del gioco. Come uno stagista molto entusiasta con un motore a razzo. Guida per i medici (rischio di allucinazioni) npj Medicina Digitale 2025 (allucinazioni + quadro di sicurezza)
Perché questo è più importante di quanto la gente ammetta 💥
Gran parte del lavoro di scoperta consiste nella "ricerca". Ricerca nello spazio chimico, ricerca in biologia, ricerca nella letteratura, ricerca nelle relazioni struttura-funzione. Il problema è che lo spazio chimico è... praticamente infinito. Accounts of Chemical Research 2015 (spazio chimico) Irwin & Shoichet 2009 (scala dello spazio chimico)
Potresti passare più vite solo a provare varianti "ragionevoli".
L'intelligenza artificiale generativa sposta il flusso di lavoro da:
-
"Proviamo a immaginare cosa ci viene in mente"
A:
-
“Generiamo un insieme di opzioni più ampio e intelligente, quindi testiamo le migliori”
Non si tratta di eliminare gli esperimenti. Si tratta di scegliere esperimenti migliori. 🧠 Nature 2023 (revisione sulla scoperta di ligandi)
Inoltre, e questo aspetto è poco discusso, aiuta i team a comunicare tra diverse discipline. Chimici, biologi, esperti di DMPK, informatici... ognuno ha modelli mentali diversi. Un buon sistema generativo può fungere da blocco note condiviso. (Recensione di Frontiers in Drug Discovery 2024)
Cosa rende una buona versione dell'intelligenza artificiale generativa per la scoperta di farmaci? ✅
Non tutte le IA generative sono uguali. Una "buona" versione per questo ambito si concentra meno su dimostrazioni appariscenti e più su un'affidabilità senza fronzoli (in questo caso, la semplicità è una virtù). Nature 2023 (revisione sulla scoperta di ligandi)
Una buona configurazione di intelligenza artificiale generativa in genere prevede:
-
Fondamento del dominio: addestrato o adattato a dati chimici, biologici e farmacologici (non solo testo generico) 🧬 Revisione Elsevier 2024 (modelli generativi)
-
Vincoli di prima generazione: può obbedire a regole come intervalli di lipofilia, vincoli di impalcatura, caratteristiche del sito di legame, obiettivi di selettività JCIM 2024 (modelli di diffusione nella progettazione di farmaci de novo) REINVENT 4 (framework aperto)
-
Consapevolezza delle proprietà: genera molecole che non sono solo nuove, ma anche "non ridicole" in termini di ADMET. ADMETlab 2.0 (perché l'ADMET precoce è importante).
-
Segnalazione dell'incertezza: indica quando si tratta di una supposizione rispetto a quando è certa (anche una banda di confidenza approssimativa è utile). Principi di validazione QSAR dell'OCSE (ambito di applicabilità).
-
Controlli umani nel ciclo: i chimici possono guidare, rifiutare e indirizzare rapidamente i risultati Nature 2023 (flusso di lavoro + contesto tecnologico di scoperta)
-
Tracciabilità: puoi vedere perché un suggerimento è stato dato (almeno in parte), altrimenti stai navigando alla cieca. Linee guida QSAR dell'OCSE (trasparenza del modello + validazione)
-
Sistema di valutazione: docking, QSAR, filtri, controlli di retrosintesi - tutto integrato 🔧 Nature 2023 (revisione della scoperta di ligandi) Apprendimento automatico in CASP (Coley 2018)
-
Controlli di bias e di fuga: per evitare che la memorizzazione dei dati di training si insinui (sì, succede) USENIX 2021 (estrazione dei dati di training) Vogt 2023 (problemi di novità/unicità)
Se la tua IA generativa non riesce a gestire i vincoli, diventa fondamentalmente un generatore di novità. Divertimento alle feste. Meno divertimento in un programma antidroga.
Dove si inserisce l'intelligenza artificiale generativa nel processo di scoperta dei farmaci 🧭
Ecco una semplice mappa mentale. L'intelligenza artificiale generativa può contribuire a quasi tutte le fasi, ma dà il meglio di sé quando l'iterazione è costosa e lo spazio delle ipotesi è enorme. Nature 2023 (revisione sulla scoperta di ligandi)
Punti di contatto comuni:
-
Scoperta e convalida del target (ipotesi, mappatura del percorso, suggerimenti sui biomarcatori) Revisione di Frontiers in Drug Discovery 2024
-
Identificazione dei risultati (aumento dello screening virtuale, generazione di risultati de novo) Nature Biotechnology 2019 (GENTRL)
-
Ottimizzazione del lead (suggerendo analoghi, ottimizzazione multiparametrica) REINVENT 4
-
Supporto preclinico (previsione delle proprietà ADMET, talvolta suggerimenti sulla formulazione) ADMETlab 2.0
-
CMC e pianificazione della sintesi (suggerimenti di retrosintesi, selezione del percorso) AiZynthFinder 2020 Coley 2017 (retrosintesi assistita da computer)
-
Lavoro di conoscenza (sintesi della letteratura, sintesi del panorama competitivo) 📚 Modelli 2025 (LLM in scoperta di farmaci)
In molti programmi, i maggiori successi derivano dall'integrazione del flusso di lavoro, non da un singolo modello "geniale". Il modello è il motore, la pipeline è l'auto. Nature 2023 (revisione sulla scoperta di ligandi)
Tabella comparativa: approcci di intelligenza artificiale generativa più diffusi utilizzati nella scoperta di farmaci 📊
Una tabella leggermente imperfetta, perché la vita reale è leggermente imperfetta.
| Strumento / Approccio | Ideale per (pubblico) | Prezzo-ish | Perché funziona (e quando non funziona) |
|---|---|---|---|
| Generatori di molecole de novo (SMILES, grafici) | Chimica medica + chimica complessa | $$-$$$ | Ottimo nell'esplorare rapidamente nuovi analoghi 😎 - ma può anche generare risultati instabili e inadatti REINVENT 4 GENTRL (Nature Biotech 2019) |
| Generatori di proteine/strutture | Team biologici, biologia strutturale | $$$ | Aiuta a proporre sequenze e strutture, ma "sembra plausibile" non è la stessa cosa di "funziona". AlphaFold (Nature 2021) RFdiffusion (Nature 2023) |
| Progettazione molecolare in stile diffusione | Team di ML avanzati | $$-$$$$ | Forte nel condizionamento dei vincoli e nella diversità - la configurazione può essere... un intero JCIM 2024 (modelli di diffusione) PMC 2025 revisione della diffusione |
| Copiloti di previsione delle proprietà (combinazione QSAR + GenAI) | DMPK, team di progetto | $$ | Utile per il triage e la classificazione, pessimo se preso come oro colato 😬 OCSE (ambito di applicabilità) ADMETlab 2.0 |
| Pianificatori di retrosintesi | Chimica di processo, CMC | $$-$$$ | Velocizza la generazione di percorsi, ma richiede comunque l'intervento umano per la fattibilità e la sicurezza. AiZynthFinder 2020 Coley 2018 (CASP) |
| Copiloti di laboratorio multimodali (testo + dati di analisi) | Team di traduzione | $$$ | Utile per estrarre segnali da insiemi di dati - soggetto a eccessiva sicurezza se i dati sono irregolari Nature 2024 (effetti batch nell'imaging cellulare) npj Digital Medicine 2025 (multimodale nelle biotecnologie) |
| Assistenti di letteratura e ipotesi | Tutti, in pratica | $ | Riduce notevolmente i tempi di lettura, ma le allucinazioni possono essere sfuggenti, come i calzini che scompaiono. Patterns 2025 (LLM in scoperta di farmaci) Guida per i medici (allucinazioni) |
| Modelli di fondamenta personalizzati in-house | Grandi aziende farmaceutiche e biotecnologie ben finanziate | $$$$ | Il miglior controllo + integrazione - ma anche costoso e lento da realizzare (mi dispiace, è vero) Recensione di Frontiers in Drug Discovery 2024 |
Note: i prezzi variano notevolmente a seconda della scala, del calcolo, delle licenze e se il tuo team preferisce un approccio "plug and play" o "costruiamo un'astronave"
Uno sguardo più da vicino: intelligenza artificiale generativa per la scoperta di successi e la progettazione de novo 🧩
Questo è il caso d'uso principale: generare molecole candidate da zero (o da uno scaffold) che corrispondano a un profilo target. Nature Biotechnology 2019 (GENTRL) REINVENT 4
Come funziona in pratica:
-
Definire i vincoli
-
classe target, forma della tasca di legame, ligandi noti
-
intervalli di proprietà (solubilità, logP, PSA, ecc.) Lipinski (contesto della regola del 5)
-
vincoli di novità (evitare zone IP note) 🧠 Vogt 2023 (valutazione della novità)
-
-
Generare candidati
-
saltare sui ponteggi
-
crescita dei frammenti
-
suggerimenti "decora questo nucleo"
-
Generazione multi-obiettivo (legame + permeabilità + non tossico/simile) REINVENT 4 Recensione Elsevier 2024 (modelli generativi)
-
-
Filtrare in modo aggressivo
-
regole di chimica farmaceutica
-
PAINS e filtri di gruppo reattivi Baell & Holloway 2010 (PAINS)
-
controlli di sintetizzabilità AiZynthFinder 2020
-
docking / punteggio (imperfetto ma utile) Nature 2023 (revisione della scoperta del ligando)
-
-
Selezionare un piccolo set per la sintesi
-
gli umani continuano a scegliere, perché a volte gli umani possono sentire l'odore delle sciocchezze
-
La scomoda verità: il valore non sta solo nelle "nuove molecole". Si tratta di nuove molecole che abbiano senso per i vincoli del tuo programma. Quest'ultimo aspetto è fondamentale. Nature 2023 (revisione sulla scoperta di ligandi)
Inoltre, una leggera esagerazione in arrivo: quando fatto bene, può dare l'impressione di aver assunto una squadra di instancabili chimici junior che non dormono mai e non si lamentano mai. D'altro canto, non capiscono nemmeno perché una specifica strategia di protezione sia un incubo, quindi... equilibrio 😅.
Uno sguardo più da vicino: ottimizzazione dei lead con intelligenza artificiale generativa (ottimizzazione multiparametrica) 🎛️
L'ottimizzazione dei lead è il punto in cui i sogni diventano complicati.
Vuoi:
-
potenza aumentata
-
selettività in su
-
stabilità metabolica in aumento
-
solubilità in su
-
segnali di sicurezza abbassati
-
permeabilità “giusta”
-
E comunque essere sintetizzabile
Si tratta di un classico esempio di ottimizzazione multi-obiettivo. L'intelligenza artificiale generativa è straordinariamente brava a proporre una serie di soluzioni di compromesso, piuttosto che fingere che esista una soluzione perfetta. di REINVENT 4 di Elsevier del 2024, modelli generativi)
Modi pratici in cui i team lo utilizzano:
-
Suggerimento analogico: "Crea 30 varianti che riducano la clearance ma mantengano la potenza".
-
Scansione dei sostituenti: esplorazione guidata invece di enumerazione a forza bruta
-
Scaffold hopping: quando un nucleo colpisce un muro (tossico, IP o stabilità)
-
Suggerimenti esplicativi: "Questo gruppo polare potrebbe favorire la solubilità ma potrebbe compromettere la permeabilità" (non sempre corretto, ma utile).
Un avvertimento: i predittori di proprietà possono essere fragili. Se i dati di addestramento non corrispondono alla serie chimica, il modello può essere clamorosamente errato. Anzi, completamente errato. E non se ne curerà. Principi di validazione QSAR dell'OCSE (dominio di applicabilità) Weaver 2008 (dominio di applicabilità QSAR)
Uno sguardo più da vicino: ADMET, tossicità e screening "per favore, non uccidete il programma" 🧯
ADMET è il luogo in cui molti candidati falliscono silenziosamente. L'intelligenza artificiale generativa non risolve i problemi della biologia, ma può ridurre gli errori evitabili. ADMETlab 2.0 Waring 2015 (abbandono)
Ruoli comuni:
-
previsione delle passività metaboliche (siti del metabolismo, tendenze di clearance)
-
segnalazione di probabili motivi di tossicità (avvisi, proxy di intermedi reattivi)
-
stima degli intervalli di solubilità e permeabilità
-
suggerire modifiche per ridurre il rischio hERG o migliorare la stabilità 🧪 FDA (ICH E14/S7B Domande e risposte) EMA (ICH E14/S7B panoramica)
Il modello più efficace tende ad assomigliare a questo: utilizzare GenAI per proporre opzioni, ma utilizzare modelli ed esperimenti specializzati per verificarle.
L'intelligenza artificiale generativa è il motore dell'ideazione. La validazione è ancora presente nei test.
Uno sguardo più da vicino: intelligenza artificiale generativa per l'ingegneria biologica e proteica 🧬✨
La scoperta di farmaci non riguarda solo le piccole molecole. L'intelligenza artificiale generativa viene utilizzata anche per:
-
generazione di sequenze di anticorpi
-
suggerimenti per la maturazione dell'affinità
-
miglioramenti della stabilità proteica
-
ingegneria enzimatica
-
Esplorazione di terapie peptidiche ProteinMPNN (Science 2022) Rives 2021 (modelli di linguaggio proteico)
La generazione di proteine e sequenze può essere potente perché il "linguaggio" delle sequenze si adatta sorprendentemente bene ai metodi di apprendimento automatico. Ma ecco un breve ripasso: si adatta bene... finché non smette di farlo. Perché l'immunogenicità, l'espressione, i modelli di glicosilazione e i vincoli di sviluppabilità possono essere proibitivi. AlphaFold (Nature 2021) ProteinGenerator (Nat Biotech 2024)
Quindi le configurazioni migliori includono:
-
filtri di sviluppabilità
-
punteggio del rischio di immunogenicità
-
vincoli di producibilità
-
cicli di laboratorio umidi per iterazioni rapide 🧫
Se si saltano queste scene, si ottiene una sequenza meravigliosa che si comporta come una diva in produzione.
Uno sguardo più da vicino: pianificazione della sintesi e suggerimenti per la retrosintesi 🧰
L'intelligenza artificiale generativa si sta insinuando anche nelle operazioni chimiche, non solo nell'ideazione delle molecole.
I pianificatori di retrosintesi possono:
-
proporre percorsi verso un composto bersaglio
-
suggerire materiali di partenza disponibili in commercio
-
classificare i percorsi in base al numero di passi o alla fattibilità percepita
-
Aiuta i chimici a escludere rapidamente idee "carine ma impossibili" AiZynthFinder 2020 Coley 2018 (CASP)
Questo può far risparmiare tempo reale, soprattutto quando si esplorano numerose strutture candidate. Tuttavia, in questo caso, il contributo umano è fondamentale perché:
-
cambiamenti nella disponibilità dei reagenti
-
le preoccupazioni sulla sicurezza e sulle dimensioni sono reali
-
alcuni passaggi sembrano corretti sulla carta ma falliscono ripetutamente
Una metafora tutt'altro che perfetta, ma la userò comunque: l'IA per la retrosintesi è come un GPS che per lo più funziona bene, tranne per il fatto che a volte ti fa passare attraverso un lago e insiste che sia una scorciatoia. 🚗🌊 Coley 2017 (retrosintesi assistita da computer)
Dati, modelli multimodali e la realtà frastagliata dei laboratori 🧾🧪
L'intelligenza artificiale generativa ama i dati. I laboratori producono dati. Sulla carta, sembra semplice.
Ah, no.
I dati di laboratorio reali sono:
-
incompleto
-
rumoroso
-
pieno di effetti batch Leek et al. 2010 (effetti batch) Nature 2024 (effetti batch nell'imaging cellulare)
-
sparsi in tutti i formati
-
dotato di convenzioni di denominazione "creative"
I sistemi generativi multimodali possono combinare:
-
risultati del test
-
strutture chimiche
-
immagini (microscopia, istologia)
-
omica (trascrittomica, proteomica)
-
testo (protocolli, ELN, report) npj Medicina Digitale 2025 (multimodale in biotecnologia) Analisi di Immagini Mediche 2025 (IA multimodale in medicina)
Quando funziona, è fantastico. Si possono scoprire schemi non ovvi e proporre esperimenti che un singolo specialista potrebbe non notare.
Quando fallisce, fallisce silenziosamente. Non sbatte la porta. Ti spinge semplicemente verso una conclusione errata e sicura di sé. Ecco perché la governance, la validazione e la revisione del dominio non sono opzionali. Guida per i clinici (allucinazioni) npj Digital Medicine 2025 (allucinazioni + quadro di riferimento per la sicurezza)
Rischi, limitazioni e la sezione "non lasciarti ingannare dall'output fluente" ⚠️
Se dovete ricordare solo una cosa, ricordate questa: l'intelligenza artificiale generativa è persuasiva. Può sembrare giusta pur essendo sbagliata. Guida per i medici (allucinazioni)
Rischi principali:
-
Meccanismi allucinatori: processi biologici plausibili che non corrispondono alla realtà. Guida per i medici (allucinazioni).
-
Perdita di dati: generazione di qualcosa di troppo simile a composti noti USENIX 2021 (estrazione dei dati di addestramento) Vogt 2023 (problemi di novità/unicità)
-
Sovra-ottimizzazione: inseguire punteggi previsti che non si traducono in risultati in vitro. Nature 2023 (revisione sulla scoperta di ligandi).
-
Bias: dati di addestramento distorti verso determinati chemiotipi o target Vogt 2023 (valutazione del modello + bias/novità)
-
Falsa novità: molecole “nuove” che in realtà sono varianti banali (Vogt 2023).
-
Lacune di spiegabilità: difficile giustificare le decisioni alle parti interessate Principi di convalida QSAR dell'OCSE
-
Problemi di sicurezza e di proprietà intellettuale: dettagli sensibili del programma nei prompt 😬 USENIX 2021 (estrazione dei dati di training)
Mitigazioni utili nella pratica:
-
mantenere gli esseri umani nel ciclo decisionale
-
prompt di registro e output per la tracciabilità
-
convalidare con metodi ortogonali (saggi, modelli alternativi)
-
applicare automaticamente vincoli e filtri
-
trattare i risultati come ipotesi, non come tavolette di verità (guida QSAR dell'OCSE)
L'intelligenza artificiale generativa è uno strumento potente. Gli strumenti potenti non ti rendono un falegname... solo che commetti errori più velocemente se non sai cosa stai facendo.
Come i team adottano l'intelligenza artificiale generativa senza caos 🧩🛠️
Spesso i team vogliono utilizzare questa soluzione senza trasformare l'organizzazione in una fiera della scienza. Un percorso pratico per l'adozione è il seguente:
-
Iniziare con un collo di bottiglia (espansione dei risultati, generazione di analoghi, selezione della letteratura) Nature 2023 (revisione della scoperta del ligando)
-
Crea un ciclo di valutazione rigoroso (filtri + docking + controlli delle proprietà + revisione chimica) REINVENTA 4 AiZynthFinder 2020
-
Misurare i risultati (tempo risparmiato, tasso di successo, riduzione dell'abbandono) Waring 2015 (abbandono)
-
Integrazione con strumenti esistenti (ELN, registro dei composti, database di analisi) Risorsa ELN di Edimburgo
-
Creare regole di utilizzo (cosa può essere richiesto, cosa rimane offline, rivedere i passaggi) USENIX 2021 (rischio di estrazione dati)
-
Addestrare le persone con delicatezza (sul serio, la maggior parte degli errori deriva da un uso improprio, non dal modello) Guida per i clinici (allucinazioni)
Inoltre, non sottovalutate la cultura. Se i chimici hanno la sensazione che l'intelligenza artificiale venga loro imposta, la ignoreranno. Se fa risparmiare loro tempo e rispetta le loro competenze, la adotteranno in fretta. Gli umani sono strani così 🙂.
Qual è il ruolo dell'intelligenza artificiale generativa nella scoperta di farmaci se si allarga la visuale? 🔭
In una prospettiva più ampia, il ruolo non è "sostituire gli scienziati", bensì "ampliare la capacità di analisi scientifica". Nature 2023 (revisione sulla scoperta di ligandi)
Aiuta i team a:
-
esplorare più ipotesi a settimana
-
proporre più strutture candidate per ciclo
-
dare priorità agli esperimenti in modo più intelligente
-
comprimere i cicli di iterazione tra progettazione e test
-
condividere la conoscenza attraverso i silos Patterns 2025 (LLM nella scoperta di farmaci)
E forse la cosa più sottovalutata: aiuta a non sprecare la costosa creatività umana in compiti ripetitivi. Le persone dovrebbero pensare a meccanismi, strategie e interpretazione, non passare giorni a generare manualmente elenchi di varianti. Nature 2023 (revisione della scoperta dei ligandi)
Quindi sì, il ruolo dell'intelligenza artificiale generativa nella scoperta di farmaci è quello di acceleratore, generatore, filtro e, a volte, di creatore di problemi. Ma prezioso.
Riepilogo finale 🧾✅
L'intelligenza artificiale generativa sta diventando una capacità fondamentale nella moderna scoperta di farmaci perché può generare molecole, ipotesi, sequenze e percorsi più velocemente degli esseri umani e può aiutare i team a scegliere esperimenti migliori. ( Recensione di Frontiers in Drug Discovery 2024 , Nature 2023 - revisione sulla scoperta di ligandi)
Punti riassuntivi:
-
È ideale per iniziali di scoperta e ottimizzazione dei lead ⚙️ REINVENT 4
-
Supporta piccole molecole e farmaci biologici GENTRL (Nature Biotech 2019) ProteinMPNN (Science 2022)
-
Aumenta la produttività ampliando l'imbuto delle idee Nature 2023 (revisione della scoperta del ligando)
-
Sono necessari vincoli, validazione e l'intervento umano per evitare sciocchezze sicure di sé Principi QSAR dell'OCSE Guida per i medici (allucinazioni)
-
I maggiori vantaggi derivano dall'integrazione del flusso di lavoro, non dalla schiuma del marketing Nature 2023 (revisione della scoperta del ligando)
Se lo si considera un collaboratore, non un oracolo, può davvero far progredire i programmi. E se lo si considera un oracolo... beh, si potrebbe finire per seguire quel GPS di nuovo nel lago.
Esempio pratico: Creazione di un flusso di lavoro per la generazione di molecole basato sui vincoli 🧪
Scenario
Un piccolo team biotecnologico, immaginario ma realistico, sta lavorando su un bersaglio per una malattia infiammatoria. Hanno già ottenuto 42 risultati promettenti, seppur deboli, dallo screening, ma la maggior parte presenta una scarsa solubilità e alcuni si trovano troppo vicini ai brevetti della concorrenza.
Invece di chiedere a un modello generativo di "trovare molecole migliori" - il che equivale sostanzialmente a ricevere un'elegante nonsenso - il team crea un flusso di lavoro rigoroso per l'espansione dei risultati.
L'obiettivo è semplice: generare un insieme più ampio di analoghi, filtrarli rigorosamente e inviare alla revisione di chimica farmaceutica solo i candidati più validi.
Di cosa ha bisogno l'assistente
Il team fornisce il sistema:
Profilo del bersaglio e informazioni sui ligandi noti
le 42 strutture colpite confermate
limiti delle proprietà per peso molecolare, logP, TPSA, solubilità e clearance prevista
scaffold bloccati e soglie di similarità per evitare la violazione della proprietà intellettuale
DOLORI e filtri di gruppo reattivi Baell & Holloway 2010
La previsione ADMET controlla ADMETlab 2.0
Verifiche di fattibilità della retrosintesi con AiZynthFinder 2020
Regole di revisione umana per la selezione finale
Il punto cruciale è che il modello non può ottimizzare la potenza in modo autonomo. Deve trovare un equilibrio tra potenza, novità, sviluppabilità e sintetizzabilità.
Esempio di istruzione
Genera 150 idee analoghe basate su queste strutture di successo confermate. Mantieni il peso molecolare tra 300 e 480, il logP previsto tra 1,5 e 4,0, il TPSA inferiore a 110 ed evita gli scaffold bloccati elencati nel file IP. Dai priorità alle strutture senza avvisi PAINS, senza gruppi reattivi evidenti e con un percorso di sintesi plausibile di cinque passaggi o meno. Per ogni molecola, spiega la modifica principale, il miglioramento della proprietà previsto, il rischio chiave e se il composto deve essere rifiutato, rivisto o prioritario.
Come testarlo
Il team non si fida del primo risultato. Eseguono un piccolo ciclo di valutazione:
Verificare se le molecole generate rispettano i vincoli di proprietà
Rimuovi i quasi-duplicati e le strutture troppo simili a composti noti
Esegui i filtri PAINS, gruppo reattivo e chimica farmaceutica di base
Eseguire un secondo modello di proprietà per confrontare le previsioni ADMET
Chiedi a due chimici di valutare in modo indipendente i 30 migliori candidati
Inviare alla discussione di sintesi solo i candidati con il punteggio più alto
Una domanda di prova utile è: "Prenderemmo comunque in considerazione questa molecola se l'IA non ce l'avesse suggerita?"
Quando la risposta è no, il team chiede il perché. A volte questo fa emergere una buona idea nuova. Altre volte rivela un'illusione basata su modelli preesistenti.
Risultato
Risultato puramente illustrativo, non si tratta di un caso di studio aziendale reale.
In base ai tempi impiegati per tre attività di espansione dei risultati, il flusso di lavoro manuale ha richiesto circa 5 ore per creare e valutare 60 idee analoghe. Il flusso di lavoro GenAI basato sui vincoli ha prodotto 150 candidati iniziali in circa 55 minuti.
Dopo la fase di filtraggio, solo 27 candidati hanno superato la fase di valutazione finale. Di questi, i chimici ne hanno indicati 9 come meritevoli di un'analisi più approfondita, 12 come "interessanti ma rischiosi" e 6 come da scartare dopo la prima valutazione.
Ciò significa che il risultato di valore non è stato "150 nuove molecole". Il risultato di valore è stato l'individuazione di 9 candidati valutabili in meno di un'ora, con una chiara traccia di controllo che mostrava quali vincoli ciascun candidato ha superato o meno.
Un team potrebbe verificarlo monitorando:
tempo impiegato per ciclo di progettazione
numero di strutture generate
percentuale rimossa dai filtri
tasso di accettazione del chimico
numero di candidati selezionati per la sintesi
numero successivamente confermato attivo nel test
Cosa può andare storto?
Il modello potrebbe ottimizzare i risultati in base ai filtri anziché proporre una chimica realmente valida.
Un candidato può apparire eccellente nelle previsioni ADMET ma fallire immediatamente in un test reale. Principi di validazione QSAR dell'OCSE
Le proposte di retrosintesi possono sembrare plausibili se basate su reagenti non disponibili, condizioni difficili o sostanze chimiche pericolose.
Il filtro per le novità potrebbe eliminare composti validi in modo troppo aggressivo, oppure lasciare passare molecole che sono ancora troppo simili a IP già noti.
L'errore più grande è considerare la lista classificata come verità assoluta. Si tratta solo di un elenco di ipotesi in ordine di priorità.
Da portare via in modo pratico
Il miglior utilizzo pratico dell'intelligenza artificiale generativa nella scoperta di farmaci non è "premi un pulsante e ottieni il farmaco". Si tratta piuttosto di una fabbrica di idee controllata: generare idee su vasta scala, filtrarle in modo rigoroso, documentare ogni decisione e lasciare che siano gli scienziati a prendere la decisione finale.
Domande frequenti
Qual è il ruolo dell'intelligenza artificiale generativa nella scoperta dei farmaci?
L'intelligenza artificiale generativa amplia principalmente l'imbuto delle idee nella fase di scoperta precoce e nell'ottimizzazione dei lead proponendo molecole candidate, sequenze proteiche, percorsi di sintesi e ipotesi biologiche. Il valore è meno quello di "sostituire gli esperimenti" e più quello di "scegliere esperimenti migliori" generando numerose opzioni e poi filtrandole in modo rigoroso. Funziona meglio come acceleratore all'interno di un flusso di lavoro disciplinato, non come un decision maker autonomo.
In quale ambito l'intelligenza artificiale generativa funziona meglio nel processo di scoperta dei farmaci?
Tende a fornire il massimo valore laddove lo spazio di ipotesi è vasto e l'iterazione è costosa, come nell'identificazione dei risultati, nella progettazione de novo e nell'ottimizzazione dei lead. I team lo utilizzano anche per il triage ADMET, i suggerimenti per la retrosintesi e il supporto alla letteratura o alle ipotesi. I maggiori vantaggi derivano solitamente dall'integrazione della generazione con filtri, punteggio e revisione umana, piuttosto che dall'aspettarsi che un singolo modello sia "intelligente"
Come si impostano i vincoli affinché i modelli generativi non producano molecole inutili?
Un approccio pratico consiste nel definire i vincoli prima della generazione: intervalli di proprietà (come solubilità o target logP), regole per scaffold o sottostruttura, caratteristiche del sito di legame e limiti di novità. Successivamente, applicare filtri di chimica farmaceutica (inclusi PAINS/gruppi reattivi) e controlli di sintetizzabilità. La generazione basata sui vincoli è particolarmente utile con la progettazione molecolare in stile diffusione e framework come REINVENT 4, in cui è possibile codificare obiettivi multi-obiettivo.
In che modo i team dovrebbero convalidare i risultati di GenAI per evitare allucinazioni ed eccesso di sicurezza?
Trattare ogni output come un'ipotesi, non una conclusione, e convalidare con saggi e modelli ortogonali. Generare coppie con filtraggio aggressivo, docking o punteggio ove appropriato, e controlli del dominio di applicabilità per i predittori in stile QSAR. Rendere visibile l'incertezza quando possibile, perché i modelli possono essere con certezza errati su chimica fuori distribuzione o affermazioni biologiche incerte. La revisione "human-in-the-loop" rimane una caratteristica fondamentale per la sicurezza.
Come si possono prevenire le perdite di dati, i rischi di proprietà intellettuale e gli output "memorizzati"?
Utilizzare controlli di governance e di accesso per evitare che i dettagli sensibili del programma vengano inseriti casualmente nei prompt e registrare prompt/output per verificarne la verificabilità. Applicare controlli di novità e similarità in modo che i candidati generati non si trovino troppo vicini a composti noti o aree protette. Mantenere regole chiare su quali dati sono consentiti nei sistemi esterni e preferire ambienti controllati per i lavori ad alta sensibilità. La revisione umana aiuta a individuare tempestivamente i suggerimenti "troppo familiari".
Come viene utilizzata l'intelligenza artificiale generativa per l'ottimizzazione dei lead e la messa a punto multiparametrica?
Nell'ottimizzazione dei lead, l'intelligenza artificiale generativa è preziosa perché può proporre molteplici soluzioni di compromesso invece di inseguire un singolo composto "perfetto". I flussi di lavoro comuni includono suggerimenti analogici, scansione guidata dei sostituenti e scaffold hopping quando vincoli di potenza, tossicità o IP bloccano il progresso. I predittori di proprietà possono essere fragili, quindi i team in genere classificano i candidati con più modelli e poi confermano sperimentalmente le opzioni migliori.
L'intelligenza artificiale generativa può essere utile anche per l'ingegneria biologica e proteica?
Sì, i team lo utilizzano per la generazione di sequenze di anticorpi, idee di maturazione dell'affinità, miglioramenti della stabilità ed esplorazione di enzimi o peptidi. La generazione di proteine/sequenze può sembrare plausibile senza essere sviluppabile, quindi è importante applicare filtri di sviluppabilità, immunogenicità e producibilità. Strumenti strutturali come AlphaFold possono supportare il ragionamento, ma una "struttura plausibile" non è ancora una prova di espressione, funzione o sicurezza. I cicli di laboratorio rimangono essenziali.
In che modo l'intelligenza artificiale generativa supporta la pianificazione della sintesi e la retrosintesi?
I pianificatori di retrosintesi possono suggerire percorsi, materiali di partenza e classifiche dei percorsi per accelerare l'ideazione ed escludere rapidamente percorsi non fattibili. Strumenti e approcci come la pianificazione in stile AiZynthFinder sono più efficaci se abbinati a verifiche di fattibilità reali da parte di chimici. Disponibilità, sicurezza, vincoli di scalabilità e "reazioni su carta" che falliscono nella pratica richiedono comunque il giudizio umano. Usato in questo modo, consente di risparmiare tempo senza pretendere di risolvere il problema chimico.
Riferimenti
-
Nature - Revisione della scoperta del ligando (2023) - nature.com
-
Nature Biotechnology - GENTRL (2019) - nature.com
-
Natura - AlphaFold (2021) - nature.com
-
Natura - RFdiffusion (2023) - nature.com
-
Nature Biotechnology - ProteinGenerator (2024) - nature.com
-
Nature Communications - Effetti batch nell'imaging cellulare (2024) - nature.com
-
npj Digital Medicine - Quadro di riferimento per l'allucinazione e la sicurezza (2025) - nature.com
-
npj Digital Medicine - Multimodale in biotecnologie (2025) - nature.com
-
Scienza - ProteinMPNN (2022) - science.org
-
Modelli cellulari - LLM nella scoperta di farmaci (2025) - cell.com
-
ScienceDirect (Elsevier) - Modelli generativi nella progettazione di farmaci de novo (2024) - sciencedirect.com
-
ScienceDirect (Elsevier) - Vogt (2023): preoccupazioni relative a novità/unicità - sciencedirect.com
-
Analisi delle immagini mediche (ScienceDirect) - Intelligenza artificiale multimodale in medicina (2025) - sciencedirect.com
-
PubMed Central - Guida per i medici (rischio di allucinazioni) - nih.gov
-
Racconti di ricerca chimica (Pubblicazioni ACS) - Spazio chimico (2015) - acs.org
-
PubMed Central - Irwin & Shoichet (2009): scala dello spazio chimico - nih.gov
-
Frontiers in Drug Discovery (PubMed Central) - Revisione (2024) - nih.gov
-
Journal of Chemical Information and Modeling (Pubblicazioni ACS) - Modelli di diffusione nella progettazione di farmaci de novo (2024) - acs.org
-
PubMed Central - REINVENT 4 (framework aperto) - nih.gov
-
PubMed Central - ADMETlab 2.0 (primi argomenti ADMET) - nih.gov
-
OCSE - Principi per la convalida a fini normativi dei modelli (Q)SAR - oecd.org
-
OCSE - Documento guida sulla convalida dei modelli (Q)SAR - oecd.org
-
Accounts of Chemical Research (Pubblicazioni ACS) - Pianificazione della sintesi assistita da computer / CASP (Coley, 2018) - acs.org
-
ACS Central Science (Pubblicazioni ACS) - Retrosintesi assistita da computer (Coley, 2017) - acs.org
-
PubMed Central - AiZynthFinder (2020) - nih.gov
-
PubMed - Lipinski: Contesto della regola del 5 - nih.gov
-
Rivista di chimica medicinale (pubblicazioni ACS) - Baell & Holloway (2010): DOLORI - acs.org
-
PubMed - Waring (2015): attrito - nih.gov
-
PubMed - Rives (2021): modelli di linguaggio proteico - nih.gov
-
PubMed Central - Leek et al. (2010): effetti batch - nih.gov
-
PubMed Central - Revisione della diffusione (2025) - nih.gov
-
FDA - E14 e S7B: valutazione clinica e non clinica del prolungamento dell'intervallo QT/QTc e del potenziale proaritmico (domande e risposte) - fda.gov
-
Agenzia europea per i medicinali - Panoramica della linea guida ICH E14/S7B - europa.eu
-
USENIX - Carlini et al. (2021): estrazione di dati di addestramento da modelli linguistici - usenix.org
-
Università di Edimburgo – Servizi di ricerca digitale - Risorsa: quaderno di laboratorio elettronico (ELN) - ed.ac.uk
-
ScienceDirect (Elsevier) - Weaver (2008): dominio di applicabilità QSAR - sciencedirect.com