Occhi spalancati: Come il framework *Autoresearch* di Karpathy potrebbe democratizzare la ricerca sul glaucoma — Un progetto per la scoperta guidata dai pazienti e dall'IA nel ripristino della vista

Occhi spalancati: Come il framework Autoresearch di Karpathy potrebbe democratizzare la ricerca sul glaucoma

Introduzione

Il glaucoma è una neuropatia ottica cronica che distrugge progressivamente le cellule gangliari della retina (RGC) e porta a una perdita irreversibile della vista. Colpisce milioni di persone in tutto il mondo – si stimavano 64,3 milioni di persone nel 2013, con una proiezione di oltre 110 milioni entro il 2040 (physionet.org). È preoccupante che circa la metà di tutti i casi rimanga non diagnosticata fino a quando la perdita della vista non è già iniziata (physionet.org). La cura tradizionale del glaucoma si concentra sulla riduzione della pressione intraoculare (PIO) tramite farmaci o interventi chirurgici, ma questi trattamenti non possono invertire il danno o prevenire completamente la cecità (pmc.ncbi.nlm.nih.gov) (physionet.org). Di conseguenza, vi è un'urgente necessità di nuove scoperte in aree come la neuroprotezione, la rigenerazione delle RGC/nervo ottico e le terapie geniche e cellulari innovative. Tuttavia, la ricerca accademica e farmaceutica su questi fronti rimane sottofinanziata, in parte perché si tratta di sforzi a lungo termine e ad alto rischio. Nel frattempo, i progressi nel machine learning (ML) e nell'intelligenza artificiale (IA) stanno potenziando nuovi approcci all'analisi dei dati e alla progettazione generativa.

Recenti lavori (ad esempio, il progetto “autoresearch” di Andrej Karpathy (www.theneuron.ai) (medium.com)) suggeriscono che gli agenti AI possono eseguire autonomamente centinaia di piccoli esperimenti su una singola GPU basandosi solo su semplici istruzioni di alto livello. In questo paradigma, un essere umano scrive un breve program.md che descrive l'obiettivo della ricerca, e un agente AI modifica iterativamente il modello o gli iperparametri, eseguendo cicli di addestramento di 5 minuti, mantenendo le modifiche riuscite e scartando le altre (medium.com) (www.theneuron.ai). Durante la notte, questo ciclo può eseguire circa 100 esperimenti, esplorando l'architettura e lo spazio dei parametri senza codifica manuale.

Questo articolo esplora come il framework autoresearch di Karpathy potrebbe essere applicato alla ricerca sul glaucoma da pazienti motivati, assistenti, scienziati cittadini e sviluppatori open-source. Esamineremo le aree di ricerca sul glaucoma meno esplorate (neuroprotezione, rigenerazione, ecc.) e identificheremo i compiti di machine learning in ciascun dominio dove la sperimentazione su piccoli modelli potrebbe realisticamente aiutare. Per ogni compito suggeriamo specifici dataset pubblici, modelli/architetture di base, metriche di valutazione e delineiamo come potrebbero apparire le istruzioni program.md dell'agente. Discuteremo quindi i passi pratici per una comunità per impostare e condividere tali esperimenti, incluse le considerazioni hardware, la preparazione dei dati e le piattaforme di collaborazione. Esamineremo il contesto specifico delle terapie di ripristino della vista e se i cicli in stile autoresearch potrebbero accelerare l'ottimizzazione di protesi neurali o altri interventi. Infine, affronteremo come le ipotesi generate dai cittadini potrebbero essere validate e escalate ai clinici, e presenteremo una roadmap concreta di 90 giorni per il lancio di un'iniziativa di autoresearch guidata dai pazienti – inclusi i modi per evitare le insidie del “teatro della ricerca” e garantire un impatto reale. Per tutto il testo, citeremo fonti attuali sulla ricerca sul glaucoma e sull'IA nella visione, puntando a una guida equilibrata, realistica e accessibile.

1. Il Panorama della Ricerca sul Glaucoma e i Bisogni Insoddisfatti

La ricerca sul glaucoma si estende su più fronti – dalla comprensione dei meccanismi della malattia allo sviluppo di nuove terapie per la neuroprotezione e il ripristino della vista. Molte aree promettenti sono sottofinanziate:

Neuroprotezione: Interventi che proteggono le RGC dalla morte (indipendentemente dalla PIO). Esempi includono fattori neurotrofici e supporto metabolico. Per esempio, gli impianti che rilasciano il fattore neurotrofico ciliare (CNTF) hanno mostrato potenziale in studi iniziali (pmc.ncbi.nlm.nih.gov), e altre molecole come il fattore di crescita nervoso e la citicolina sono in fase di indagine (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Tuttavia, questi non sono ancora cure standard e sono necessari ulteriori lavori per tradurli in pratica clinica. Una revisione del 2025 avverte che le terapie neuroprotettive per il glaucoma sono un “trattamento futuro” che necessita di ulteriori studi (pmc.ncbi.nlm.nih.gov), riflettendo un bisogno insoddisfatto.
Rigenerazione delle RGC e Rigenerazione del Nervo Ottico: Una volta che le RGC e i loro assoni muoiono, la medicina attuale non ha modo di invertire il processo. Alcuni studi sugli animali utilizzano terapie geniche per riprogrammare le RGC o stimolarne la ricrescita. Per esempio, la repressione basata su CRISPR di PTEN (un regolatore di crescita negativo) ha promosso la ricrescita degli assoni nelle cellule neurali di ratto (pmc.ncbi.nlm.nih.gov), e gli esperimenti di co-delezione di PTEN e SOCS3 hanno portato a una rigenerazione sostenuta del nervo ottico nei topi (pmc.ncbi.nlm.nih.gov). Tuttavia, queste scoperte rimangono in modelli di laboratorio. La biologia sottostante – ad esempio, come ricapitolare lo sviluppo retinico o bypassare gli inibitori della crescita – è complessa. C'è un'enorme domanda di modalità (piccole molecole, geni, biomateriali) che potrebbero stimolare la sopravvivenza delle RGC o la ricrescita degli assoni, ma il progresso verso gli studi sull'uomo è lento.
Terapie Geniche e Cellulari: Nuove tecnologie come CRISPR, vettori virali e RGC derivate da cellule staminali sono promettenti per il glaucoma. Le strategie includono l'editing genetico per ridurre la PIO (ad esempio, mirando alla produzione di umore acqueo) o modulare le vie neurodegenerative (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Le cellule staminali potrebbero (teoricamente) sostituire le cellule del trabecolato o le RGC perdute e secernere fattori protettivi (pubmed.ncbi.nlm.nih.gov). Lavori iniziali hanno dimostrato che alcuni fattori di trascrizione (ad esempio, Oct4-Sox2-Klf4) possono riprogrammare cellule non-RGC in neuroni simili a RGC nei topi (ripristinando la vista in caso di lesione del nervo ottico) (pmc.ncbi.nlm.nih.gov). Tuttavia, questi approcci affrontano sfide di sicurezza e di somministrazione prima di raggiungere i pazienti. Diverse recenti revisioni evidenziano la terapia genica come una frontiera entusiasmante ma non ancora clinica per il glaucoma (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). In sintesi, le innovazioni molecolari e cellulari stanno avanzando, ma le risorse e i dati degli studi sono limitati – creando un'opportunità per l'esplorazione computazionale (ad esempio, la progettazione di costrutti virali ottimali o la previsione di modifiche geniche efficaci).
Stimolazione Elettrica e Optogenetica per il Ripristino della Vista: Per i pazienti con glaucoma avanzato (o malattie combinate come la retinite pigmentosa), protesi visive artificiali o terapie optogenetiche mirano a bypassare le RGC danneggiate. Impianti retinici (array di elettrodi epiretinici o sottoretinici) e impianti corticali hanno generato percezioni artificiali (“fosfeni”), ma la risoluzione è bassa e i risultati variano ampiamente. Una recente revisione del 2025 sull'IA nelle protesi visive rileva che “gli algoritmi AI mostrano promesse nell'ottimizzare la visione protesica, in particolare attraverso una migliore estrazione della salienza dell'immagine e strategie di stimolazione,” sebbene finora la maggior parte degli studi siano simulazioni (pmc.ncbi.nlm.nih.gov). In altre parole, il machine learning può aiutare a trasformare le immagini della telecamera in schemi di stimolazione che sono più informativi dati i limiti del dispositivo. La optogenetica (rendere le cellule retiniche sopravvissute sensibili alla luce) e gli impulsi di stimolazione elettrica transcorneale (TES) sono anche in fase di sperimentazione per la perdita della vista correlata al glaucoma. Tutte queste aree necessitano di un'estesa ottimizzazione dei parametri (ad esempio, schemi spaziotemporali di stimolazione, vettori di espressione genica) — compiti potenzialmente adatti per la ricerca ML autonoma.
Meccanismi Indipendenti dalla PIO: Molte persone continuano a perdere la vista nonostante la PIO sia ben controllata. Fattori come un alterato flusso sanguigno oculare, disfunzione neurovascolare o stress metabolico nella testa del nervo ottico sono riconosciuti ma non completamente compresi. Studi genetici suggeriscono componenti significative “indipendenti dalla PIO” del rischio di glaucoma (pubmed.ncbi.nlm.nih.gov) (pubmed.ncbi.nlm.nih.gov). Sono urgentemente necessari biomarcatori di questi processi (oltre alla pressione). Inoltre, la metà dei pazienti con glaucoma ha una malattia a “tensione normale”, evidenziando che una PIO elevata non è l'unico colpevole. La ricerca su fattori vascolari o altre vie di danno è in corso ma frammentata. La modellazione computazionale o il mining di grandi dataset (ad esempio, studi di associazione genome-wide) potrebbero aiutare a identificare nuovi meccanismi o bersagli terapeutici in questo dominio.
Scoperta di Biomarcatori tramite Imaging e Campi Visivi: La diagnosi precoce e il monitoraggio del glaucoma spesso si basano sull'imaging (foto del fundus, OCT) e su test funzionali (campi visivi). Algoritmi avanzati potrebbero scoprire biomarcatori sottili che i clinici umani non rilevano. Per esempio, il deep learning ha iniziato a rilevare la perdita pre-perimetrica del campo visivo (cambiamenti invisibili all'analisi standard del campo) (pmc.ncbi.nlm.nih.gov). Allo stesso modo, l'AI è stata utilizzata per analizzare i profili di spessore dello strato OCT per prevedere il glaucoma prima di un danno evidente. Tuttavia, non esistono ancora biomarcatori AI ampiamente accettati che siano utilizzati clinicamente per lo screening o la stratificazione del rischio. I colli di bottiglia computazionali qui includono la necessità di grandi dataset ben etichettati e protocolli di validazione robusti (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Le sfide pubbliche (REFUGE, AIROGS, ecc.) hanno iniziato a standardizzare i dati, ma la copertura della malattia in fase iniziale è scarsa (pmc.ncbi.nlm.nih.gov). Ulteriori scoperte guidate dalla macchina di biomarcatori multimodali (che combinano OCT, campi visivi, genetica, ecc.) rimangono una frontiera aperta.

Dove può aiutare l'ML con modelli di piccole dimensioni? Molti dei problemi sopra descritti sono di alto livello. I colli di bottiglia sono spesso la scarsità di dati, molte variabili interagenti e una biologia che si muove lentamente. Dove un agente autoresearch eccelle è nell'automazione di esperimenti su piccola scala su dati disponibili. Per esempio, se esiste un modesto dataset di scansioni OCT con e senza glaucoma precoce, uno scienziato cittadino può impostare un ciclo rapido di test del modello per trovare quale architettura li distingue meglio. Allo stesso modo, piccoli transformer su genomica o letteratura potrebbero suggerire nuovi geni o candidati farmaci. La chiave è concentrarsi su compiti specifici con metriche definite (accuratezza della classificazione, AUC, perdita) e iterare rapidamente. Le aree con dati pubblici limitati (ad esempio, parametri TES o nuove combinazioni geniche) potrebbero basarsi su dati sintetici o proxy. Nella prossima sezione, mappiamo specifici compiti ML nel glaucoma all'approccio di autoresearch.

2. Mappatura di Autoresearch ai Problemi del Glaucoma

Il framework autoresearch di Karpathy è agnostico al dominio: può eseguire esperimenti in qualsiasi compito ML fornito da un prepare.py e train.py con una metrica di valutazione ben definita. Identifichiamo diversi compiti concreti legati al glaucoma e specifichiamo come un agente potrebbe affrontare ciascuno. Ogni caso d'uso di seguito include: un dataset disponibile pubblicamente (se possibile), un modello o un'architettura di partenza, una metrica di valutazione e uno schizzo delle istruzioni program.md.

2.1 Analisi delle Immagini OCT (Rilevamento e Segmentazione Strutturale)

Compito: Rilevamento Precoce del Glaucoma da Scansioni OCT. L'imaging OCT fornisce viste trasversali degli strati retinici. L'assottigliamento dello strato delle fibre nervose retiniche (RNFL) e del complesso delle cellule gangliari (GCC) può precedere la perdita del campo visivo. Possiamo trattarlo come un compito di classificazione (glaucoma vs sano) o di regressione (ad esempio, spessore RNFL in uscita).
- Dataset: Una recente pubblicazione, SYN-OCT (www.nature.com), è un dataset sintetico di 200.000 immagini OCT circumpapillari (100k glaucoma, 100k normali) generate da GAN. Ogni immagine ha associati spessore RNFL e maschere di segmentazione. Questi sono disponibili pubblicamente su Zenodo (www.nature.com). (Sebbene sintetici, sono statisticamente validati per imitare OCT reali (www.nature.com).) In alternativa, si potrebbe utilizzare il dataset OCT-DL (www.nature.com) (2064 immagini di varie malattie retiniche) o raccolte OCT cliniche più piccole.
- Modello: Iniziare con una piccola rete neurale convoluzionale (CNN). Per la classificazione, un modello con ~ 3-5 strati convoluzionali (ad esempio, analogo a ResNet-18 troncato, o una piccola CNN personalizzata) può funzionare. Per la segmentazione di RNFL/GCC, un encoder-decoder come una minuscola U-Net (con profondità 3-4) è adatto. Il train.py iniziale potrebbe implementare una semplice CNN e un ciclo di addestramento, con iperparametri predefiniti.
- Metrica: Se si esegue la classificazione del glaucoma su OCT, utilizzare AUC (Area Sotto la Curva ROC) o accuratezza su una suddivisione di validazione. Per la segmentazione, utilizzare il coefficiente di Dice o IoU sulle maschere dello strato RNFL (SYN-OCT fornisce le maschere (www.nature.com))).
- Esempio program.md:
  
  "Obiettivo: Massimizzare l'AUC di validazione per il rilevamento del glaucoma da immagini OCT. Modifiche consentite: numero di strati conv, conteggio dei filtri, dimensioni del kernel, funzioni di attivazione, tasso di apprendimento, scelta dell'ottimizzatore, dimensione del batch, ecc. Dopo ogni ciclo di addestramento di 5 minuti, valutare l'AUC sul set di validazione. Se l'AUC migliora, mantenere la modifica; altrimenti annullare." (medium.com) (www.theneuron.ai). L'agente proverà quindi variazioni (ad esempio, aggiungendo strati, regolando la larghezza, passando da Adam a RMSProp) per migliorare l'AUC.
Compito: Segmentazione degli Strati RNFL/GCC. Misurare con precisione lo spessore dell'RNFL è cruciale. Utilizzando scansioni OCT sintetiche (con segmentazioni fornite) o qualsiasi OCT reale con strati annotati, si può inquadrare questo come un compito di segmentazione.
- Dataset: SYN-OCT fornisce nuovamente le maschere di segmentazione RNFL (www.nature.com). Un'altra fonte: alcuni gruppi accademici hanno etichettato scansioni B-scan OCT (spesso proprietarie). Se necessario, si potrebbero usare dataset generici di segmentazione OCT (come la sfida del fluido retinico OCT di Duke (www.nature.com)) come proxy.
- Modello: Una piccola CNN simile a U-Net, magari anche con canali ridotti da una baseline. Ad esempio, usare 3 blocchi di down/up, partendo con 16 filtri. L'agente è autorizzato a cambiare profondità e larghezza.
- Metrica: Punteggio Dice o IoU medio della maschera RNFL prevista rispetto alla verità.
- Esempio program.md:
  
  "Obiettivo: Massimizzare il punteggio Dice per la segmentazione dello strato RNFL su OCT. Il modello di base è una U-Net a 3 blocchi. L'agente può variare il numero di filtri, aggiungere dropout o cambiare il tasso di apprendimento. Addestrare per 5 minuti ogni prova e calcolare il Dice sulla validazione. Mantenere le modifiche che aumentano il Dice."
Compito: Previsione della Progressione tramite OCT Seriale. Utilizzando OCT sequenziali, prevedere l'assottigliamento futuro. Se esistono dati OCT longitudinali (ad esempio, UK Biobank o dati di cliniche private), l'obiettivo potrebbe essere prevedere il cambiamento dell'RNFL o un'etichetta binaria “progressore rapido”.
- Dataset: I dati OCT longitudinali pubblici specifici per il glaucoma sono scarsi. Tuttavia, si potrebbero riutilizzare i dati delle sfide SR OCT (o immagini SYN-OCT con progressione simulata) per simulare questo compito. In alternativa, utilizzare le immagini OCT della UK Biobank (sebbene non specifiche per il glaucoma e non facilmente accessibili agli scienziati cittadini). Per illustrazione, si supponga un dataset di scansioni OCT al tempo 0 e al tempo 1 con etichette.
- Modello: Una CNN siamese o concatenata che prende coppie di immagini OCT, producendo la probabilità di progressione. Iniziare alimentando il tempo 0 e prevedendo il cut-off del tempo 1.
- Metrica: AUC per la classificazione binaria della progressione, o MSE se si tenta di prevedere il cambiamento di spessore.
- Esempio program.md:
  
  "Obiettivo: Identificare gli occhi che avranno una rapida perdita di RNFL. Input: OCT di base; etichetta: >5μm di assottigliamento dopo 1 anno. Utilizziamo un classificatore CNN. I cambiamenti consentiti includono profondità della rete, tasso di apprendimento, aumento. Utilizzare l'AUC di validazione come metrica."

2.2 Analisi del Campo Visivo (CV)

Compito: Prevedere la Futura Perdita del Campo Visivo. Dati uno o più test del campo visivo di Humphrey passati (valori di sensibilità punto per punto), prevedere la sensibilità futura o il tasso di progressione. Questo è un classico problema di gestione del glaucoma.
- Dataset: Il dataset GRAPE (www.nature.com) (2023) fornisce un follow-up longitudinale di 263 occhi (1115 registrazioni) con CV e fundus/OCT, inclusa la progressione annotata. Un'altra risorsa è il database longitudinale UH Visual Field (UWHVF) degli Stati Uniti (www.nature.com) (28.943 campi da molti pazienti). Tuttavia, GRAPE è ben curato e pubblico con entrambi i CV e gli esiti.
- Modello: Un approccio semplice è una rete feed-forward (completamente connessa) sui dati del CV a 54 punti (o compressa in indici globali). Per la previsione della progressione, un MLP più piccolo o una CNN 1D possono gestire le 54 o 30 caratteristiche di input. Un'altra idea: trattare la griglia 8x8 come una minuscola immagine e utilizzare una piccola CNN (ad esempio, kernel 3x3).
- Metrica: Se si prevedono la deviazione media futura o i valori dei punti, utilizzare MSE (più basso è meglio). Se si classifica “progressore rapido vs no”, utilizzare AUC.
- Esempio program.md:
  
  "Obiettivo: Minimizzare l'MSE del campo visivo previsto. In alternativa, massimizzare l'AUC per la classificazione della perdita rapida. Modello di base: percettrone a 2 strati su 54 valori di CV. L'agente può regolare la dimensione nascosta, l'attivazione o aggiungere dropout. Dopo ogni addestramento di 5 minuti, calcolare la metrica sul set di validazione."
Compito: Identificare i Progressori Rapidi. Utilizzando una serie di CV passati, classificare quali occhi perderanno la vista rapidamente.
- Dataset: Utilizzare lo stato di progressione annotato in GRAPE (www.nature.com) (hanno contrassegnato gli occhi come progrediti). Oppure prendere UWHVF e etichettare il decile superiore di perdita di MD come “rapido”.
- Modello: Potrebbe concatenare le caratteristiche da due o tre campi consecutivi (o differenze) in una piccola rete. Eventualmente includere la PIO di base e l'età se disponibili.
- Metrica: AUC per distinguere progressori rapidi vs lenti.
- Esempio program.md:
  
  "Obiettivo: Massimizzare l'AUC per prevedere una rapida progressione del campo. Caratteristiche di input: differenze di secondo ordine di CV1 e CV2, più PIO. Utilizzare una piccola rete FC. L'agente può ottimizzare le larghezze degli strati, il tasso di apprendimento, la dimensione del batch."

2.3 Screening di Farmaci/Composti (Scoperta di Candidati In Silico)

Compito: Prevedere Composti Candidati Neuroprotettivi/Rigenerativi. Utilizzare l'ML per trovare piccole molecole che potrebbero proteggere le RGC o incoraggiare la rigenerazione. Per esempio, molti composti noti (come nicotinamide, valproato) mostrano effetti neuroprotettivi. Possiamo addestrare modelli per riconoscere chemotipi correlati all'efficacia nota e quindi cercare nello spazio chimico.
- Dataset: Questo è difficile a causa della mancanza di un database dedicato ai farmaci per il glaucoma. Come proxy, si potrebbero usare dataset MolNet (ad esempio, inibizione HIV, permeabilità BBB) o qualsiasi dataset di bioattività. In alternativa, compilare un elenco di composti testati in modelli di lesione del nervo ottico (da literature mining) con etichette. In pratica, si potrebbe iniziare con una proprietà più generica (ad esempio, dati di penetrazione della barriera emato-encefalica da MoleculeNet).
- Modello: Un piccolo transformer o una rete neurale a grafo su stringhe SMILES. Un transformer (come GPT-2 style) con pochi strati o una semplice rete convoluzionale a grafo (ad esempio, 3 strati GCN) può essere implementato nel train.py.
- Metrica: Se trattiamo come classificazione (attivo vs inattivo), utilizzare AUROC. Se si prevede l'affinità o il logP, utilizzare RMSE.
- Esempio program.md:
  
  "Obiettivo: Massimizzare l'ROC-AUC di classificazione per l'identificazione di composti neuroprotettivi. Modello di base: piccolo transformer su SMILES. L'agente può regolare il numero di strati del transformer, il dropout, il tasso di apprendimento o utilizzare featurizzazioni alternative (ad esempio, input di impronte digitali). Dopo ogni 5 minuti, valutare l'AUC sulle molecole di validazione."

(Nota: Poiché i dati pubblici per la neuroprotezione effettiva sono scarsi, questo compito è più illustrativo. In pratica, gli scienziati cittadini potrebbero creare un dataset personalizzato di composti neuroprotettivi noti vs controlli e seguire questo schema.)

2.4 Modellazione di Reti Regolatorie Geniche (RGC a Singola Cella)

Compito: Identificare Combinazioni di TF Rigenerative. Utilizzare dati di RNA-seq a singola cellula da RGC per apprendere i pattern trascrizionali della crescita rigenerativa. Per esempio, alcuni sottotipi di RGC si rigenerano meglio di altri. Un modello ML potrebbe prevedere un'etichetta di “stato rigenerativo”, e si potrebbe ispezionare quali fattori di trascrizione sono importanti.
- Dataset: Uno studio del 2018 fornisce trascrittomi di RGC a singola cellula (accesso GEO GSE115404) (pmc.ncbi.nlm.nih.gov), identificando distinti sottotipi di RGC. Possiamo usare questo dataset (o un sottoinsieme) dove le cellule sono etichettate per sottotipo o per condizione sperimentale (ad esempio, pre- vs post-lesione).
- Modello: Un piccolo transformer o MLP che opera su vettori di espressione genica (ogni cellula ha migliaia di abbondanze geniche). Praticamente, si preselezionerebbero i ~500 geni più importanti (ad esempio, geni altamente variabili). Il train.py potrebbe implementare un mini-transformer (ad esempio, 4 strati, embedding 256) o un semplice percettrone a 2 strati.
- Metrica: Se si usa l'analisi non supervisionata, si potrebbe usare il punteggio silhouette, ma più semplicemente, se si etichettano le cellule come “in rigenerazione” vs “non” (se esistono etichette), usare l'accuratezza/AUC di classificazione.
- Esempio program.md:
  
  "Obiettivo: Costruire un modello che distingua i profili di espressione genica delle RGC in rigenerazione da quelli non in rigenerazione. Iniziare con un transformer a 3 strati. L'agente può cambiare la dimensione dell'embedding, la profondità, il tasso di apprendimento o aggiungere batchnorm. Ottimizzare l'accuratezza di validazione." Dopo le esecuzioni, i pesi di attenzione o le caratteristiche apprese del modello migliore potrebbero evidenziare fattori di trascrizione chiave per la sperimentazione.

2.5 Analisi del Segnale Elettrofisiologico

Compito: Rilevare la Disfunzione Subclinica delle RGC tramite ERG. L'elettroretinogramma a pattern (pERG) o altri segnali elettrofisiologici possono rivelare la salute delle RGC. Per esempio, risposte ERG ritardate o ridotte possono precedere difetti del campo visivo. Possiamo tentare di classificare i segnali come “normali” vs “sospetti di glaucoma”.
- Dataset: I dataset pubblici di ERG nel glaucoma sono rari. Si potrebbe usare un surrogato: un dataset da animali (degenerazione retinica) o segnali sintetici. Se non disponibile, anche dataset elettrofisiologici 1D generici (ad esempio, ECG) potrebbero illustrare la pipeline.
- Modello: Una CNN 1D (ad esempio, 2 strati convoluzionali seguiti da FC) sui dati della serie temporale. In alternativa, può essere usato un LSTM se le sequenze sono più lunghe.
- Metrica: Accuratezza o AUC nella classificazione di una disfunzione sottile vs normale. Eventualmente F1 se le classi sono sbilanciate.
- Esempio program.md:
  
  "Obiettivo: Massimizzare l'accuratezza di validazione per la classificazione delle tracce ERG (sane vs pattern di glaucoma precoce). Utilizzare una CNN 1D. L'agente può regolare le dimensioni dei filtri, lo stride o aggiungere uno strato ricorrente. Mantenere qualsiasi modifica che migliori l'accuratezza."

2.6 Estrazione di Conoscenze dalla Letteratura (Generazione di Ipotesi)

Compito: Ottimizzare un Piccolo Modello Linguistico per Rilevare Nuove Intuizioni. Con migliaia di articoli di ricerca sul glaucoma in PubMed, un agente ML potrebbe cercare connessioni o candidati per il riposizionamento. Ad esempio, collegare percorsi neuroprotettivi a farmaci esistenti. Possiamo trattarlo come un problema di modellazione linguistica o come un problema di recupero.
- Dataset: Compilare un corpus di abstract relativi al glaucoma (ad esempio, usare la ricerca PubMed per “glaucoma gene therapy” ecc). Si possono scaricare ~10.000 abstract tramite le API NCBI. Per un inizio più semplice, utilizzare articoli ad accesso aperto PMC sul glaucoma.
- Modello: Un piccolo modello linguistico transformer (ad esempio, GPT-2 a 6 strati) o anche BERT ottimizzato. Ai fini dell'autoresearch, probabilmente ottimizzeremo un modello causale (GPT) sul testo.
- Metrica: Di solito, si ottimizza la perdita di validazione (perplessità). Se si esegue una classificazione (ad esempio, dato un abstract, prevedere un'etichetta per un farmaco o un percorso), usare accuratezza/AUC.
- Esempio program.md:
  
  "Obiettivo: Minimizzare la perplessità di validazione di un piccolo GPT-2 sul corpus della letteratura sul glaucoma. Utilizzare cicli di ottimizzazione di 5 minuti. L'agente può variare il numero di strati, la dimensione nascosta, il tasso di apprendimento, la lunghezza del contesto. Mantenere le modifiche che riducono la perplessità." Una volta addestrato, si può chiedere a questo modello di generare ipotesi (ad esempio, “Principali farmaci candidati riutilizzabili per la neuroprotezione nel glaucoma: ...”).

In ciascuno di questi domini, la chiave è che una singola GPU e brevi esecuzioni consentono molti tentativi. Non ci aspettiamo che l'agente scriva nuovi algoritmi da zero, ma che modifichi uno script di addestramento esistente. Il ruolo umano è scrivere program.md per guidare la ricerca dell'agente verso un obiettivo specifico per il glaucoma (come massimizzare l'AUC su un dataset del fundus o prevedere lo spessore dell'RNFL). Gli esempi sopra illustrano come train.py potrebbe essere inizialmente impostato e come program.md suggerisce di migliorare una metrica scelta (medium.com) (www.theneuron.ai).

3. Guida Pratica all'Implementazione della Scienza dei Cittadini

Come possono individui motivati con risorse limitate (ad esempio, una singola RTX 3060 o un MacBook con Apple Silicon) applicare autoresearch ai problemi del glaucoma? La buona notizia è che il repository di Karpathy è piccolo e fornisce indicazioni per la scalabilità. Ecco i passaggi e i suggerimenti chiave:

Configurazione dell'Ambiente: Clonare il repository karpathy/autoresearch. Avrai bisogno di un Python moderno e idealmente di un accesso a un LLM (l'agente stesso è tipicamente un LLM pre-addestrato come GPT-4 o Claude che modifica il codice). Per le GPU, installare PyTorch con il supporto CUDA/metal appropriato. Per Apple Silicon, utilizzare una delle fork (ad esempio, MLX) o una build di PyTorch per M1/M2 (vedi la documentazione del repository). Su Windows/Linux con una 3060 o 4070, funziona il normale PyTorch CUDA.
Configurazione per GPU di Piccole Dimensioni: L'autoresearch predefinito utilizza un modello simile a GPT con circa 50 milioni di parametri e sequenze di lunghezza 1024 (medium.com), che potrebbe essere pesante. Per una GTX 3060 (12GB), dovresti ridurre le dimensioni del modello e la lunghezza della sequenza. In train.py, impostare MAX_SEQ_LEN=512 o anche 256. Ridurre il numero di strati e la larghezza (il GPT medio ha circa 8 strati; prova 4 strati, 256 di larghezza). Le istruzioni nella comunità menzionano di abbassare “DEPTH”, “WIDTH”, ecc. Puoi anche ridurre la memoria dell'ottimizzatore utilizzando dimensioni del batch più piccole (anche 16 o 8). L'agente può comunque mutare questi parametri, ma dargli un punto di partenza più piccolo garantisce esecuzioni inferiori a 5 minuti. Il README di autoresearch GitHub e le discussioni sui problemi notano anche che i chip Mac M1 possono gestire sequenze più corte (ad esempio, 256 token) a causa della memoria limitata; una scalatura simile si applica a qualsiasi GPU.
Preparazione dei Dati sul Glaucoma: I dati di ogni compito devono essere caricati e suddivisi. I dataset pubblici sul glaucoma includono:
- Dataset del Fundus: ORIGA(-light) (650 immagini etichettate (pubmed.ncbi.nlm.nih.gov)), RIM-ONE DL (485 immagini con segmentazioni cup/disc (github.com)), REFUGE (oltre 1200 immagini, con suddivisioni training/test (refuge.grand-challenge.org)), il nuovo Hillel Yaffe Glaucoma Dataset (HYGD) con circa 1200 immagini del fundus e etichette di alta qualità (physionet.org). EyePACS/AIROGS (decine di migliaia di immagini retiniche) è anch'esso accessibile pubblicamente tramite registrazione (ad esempio Kaggle).
- Dataset OCT: SYN-OCT (200k B-scan sintetici con maschere RNFL (www.nature.com) (www.nature.com)), OCTDL (2064 immagini di varie malattie retiniche (www.nature.com)), e altri da sfide pubbliche.
- Dati del Campo Visivo: GRAPE (263 occhi, CV longitudinale più immagini (www.nature.com)). UWHVF (28k test del CV) è aperto se scaricato dal repository dell'Università di Washington (www.nature.com). Alcune sfide Kaggle includono dati del CV.
- Elettrofisiologia: Non è noto un grande dataset ERG pubblico sul glaucoma, ma si potrebbe iniziare con qualsiasi dato di segnale norm vs glaucoma accessibile.
- Dati Chimici/Genetici: Dataset standard come MoleculeNet (per i composti) o GEO (per i geni) possono essere riutilizzati. Ad esempio, scaricare i conteggi raw di GSE115404 (tramite query GEO (pmc.ncbi.nlm.nih.gov)) e pre-elaborare le matrici di espressione.
Per ciascuno, è necessario un prepare.py che carichi i dati e definisca train_set, val_set e una funzione di valutazione. Il template di Karpathy si aspetta che prepare.py produca dati di training e una routine di valutazione che restituisca una perdita o una metrica. Ad esempio, prepare.py per RIM-ONE potrebbe caricare immagini e CC etichettati come glaucoma, dividerli in cartelle train/val e definire una funzione che calcola l'AUC di validazione. FARE RIFERIMENTO a [14†L71-L79] per come è strutturato RIM-ONE.
Adattamento dei Dati per Piccole Scale: Se i dataset sono grandi (come EyePACS o SYN-OCT), puoi sottocampionare per creare un dataset “minuscolo” di poche centinaia di esempi (il modello può comunque imparare qualcosa di prezioso su un piccolo corpus). Il repository autoresearch menziona persino l'uso di dataset minuscoli in stile “TinyStories” per eseguire su hardware minuscolo. Ad esempio, scegli 500 immagini da ORIGA (bilanciate), o 1000 campi CV da GRAPE. Allo stesso modo, per il linguaggio, si potrebbe usare un sottoinsieme di 5.000 abstract di articoli PubMed sul glaucoma. La chiave è un dataset fisso su cui l'agente itera. Assicurati di pre-mischiare e dividere 80/20 in modo che ogni esecuzione di 5 minuti veda la stessa suddivisione train/val.
Strategie per la Scrittura di program.md: La comunità dovrebbe condividere diversi prompt program.md (come “ricette”) nel controllo di versione. Ogni file potrebbe codificare una strategia di ricerca. Per esempio, una strategia potrebbe dire “aumenta la profondità della rete se profondità <6, altrimenti riduci il tasso di apprendimento”, mentre un'altra potrebbe dire “concentrati sulle modifiche all'aumento dei dati”. Nel tempo, i gruppi possono confrontare quali strategie hanno prodotto metriche migliori sulle classifiche. Un buon program.md include un obiettivo (ad esempio, massimizzare l'AUC o minimizzare la perdita di validazione) e suggerimenti sulle mutazioni consentite (strati, filtri, LR). L'LLM dell'agente utilizza queste istruzioni per proporre modifiche al codice. Mantenere le metriche standardizzate (ad esempio, riportare sempre l'AUC per i compiti di classificazione del glaucoma) in modo che gli esperimenti siano comparabili.
Collaborazione della Comunità: Per rendere questo sforzo scalabile, una comunità di scienza dei cittadini dovrebbe organizzarsi:
- Log di Esperimenti Condivisi: Pubblicare i risultati di ogni esperimento (ad esempio, “Esecuzione #27 del programma-v1 ha raggiunto Val AUC=0.82 con larghezza=4, profondità=3”).
- Metriche Standardizzate: Definire le metriche per ogni compito: ad esempio, “AUC glaucoma OCT”, “AUC progressione CV”, “AUC attributo”, ecc. Una classifica condivisa (simile al val_bpb di autoresearch) può tenere traccia dei punteggi migliori. Per esempio, uno Slack o GitHub Actions potrebbe raccogliere il miglior AUC di ogni agente settimanalmente.
- program.md con Controllo di Versione: Ospitare tutti i program.md in un repository GitHub. I membri possono fare fork e proporre nuove strategie (tramite pull request) mantenendo le versioni storiche. In questo modo si possono testare in parallelo più approcci (ad esempio, “program_word2vec.md” vs “program_transformer.md”).
- Condivisione di Dati e Codice: Utilizzare repository pubblici o notebook per gli script di preparazione dei dati e condividere le modifiche a train.py trovate dall'agente (per riprodurre in framework ML standard). Il collegamento alle fonti dei dataset originali (Kaggle, PhysioNet, Zenodo) assicura che altri possano scaricare gli stessi dati.

Abbassando le barriere tecniche (l'agente modifica il codice, l'utente modifica le istruzioni in Markdown) e coordinando gli sforzi (log condivisi, classifiche), gli scienziati cittadini possono esplorare collettivamente le scelte di iperparametri/modelli per questi problemi di ML sul glaucoma. In sostanza, investono la creatività umana nella definizione degli obiettivi, e lasciano che l'agente esegua il lavoro di 100 esperimenti durante la notte per ogni obiettivo (medium.com) (www.theneuron.ai).

4. Specificamente il Ripristino della Vista

Il ripristino della vista – recuperare la vista dopo un danno – è un obiettivo particolarmente entusiasmante per l'ottimizzazione guidata dall'IA. La ricerca attuale sul ripristino della vista assistito dall'IA include impianti retinici, protesi corticali e optogenetica. Ecco come un ciclo di autoresearch potrebbe inserirsi:

Ottimizzazione della Codifica delle Protesi Visive: Le protesi moderne (impianti retinici o telecamere collegate a matrici di elettrodi) cercano di tradurre un'immagine della telecamera in schemi di stimolazione elettrica che il cervello interpreta come vista. La sfida è che la “larghezza di banda” degli elettrodi è molto limitata (spesso solo decine o poche centinaia di punti) (pmc.ncbi.nlm.nih.gov). Un modello ML (una piccola CNN o transformer) può essere addestrato a mappare le immagini di input a mappe di stimolazione ideali, ma i migliori iperparametri o architetture per questa traduzione sono sconosciuti. Un agente autoresearch potrebbe eseguire 100 variazioni di un modello di “encoder neurale” in poche ore. Ad esempio, impostare un dataset di coppie immagine→stimolazione (fosfeni simulati o dati del paziente) e fare in modo che l'agente ottimizzi la rete dell'encoder per minimizzare una perdita di ricostruzione o massimizzare una metrica di utilità (integrità del contrasto, accuratezza del riconoscimento). L'agente potrebbe provare ad aggiungere strati di attenzione, cambiare le dimensioni della convoluzione o ottimizzare i tassi di apprendimento. Nel corso di molte esecuzioni, si potrebbero trovare piccole reti che producono output protesici più salienti. Alcuni lavori recenti utilizzano già l'IA per estrarre la salienza visiva per le protesi (pmc.ncbi.nlm.nih.gov); autoresearch potrebbe automatizzare l'ottimizzazione di tali pipeline.
Schemi di Stimolazione Optogenetica: Nella terapia optogenetica, le RGC sopravvissute o altre cellule retiniche vengono rese fotosensibili (tramite geni introdotti). Gli input di una telecamera devono quindi essere codificati in impulsi luminosi. Anche qui, un modello ML può controllare i pattern. Si potrebbe inquadrare un compito giocattolo: una piccola rete trasforma l'immagine della telecamera in una mappa di intensità luminosa (stesse dimensioni delle cellule). L'obiettivo dell'agente potrebbe essere massimizzare una metrica di stimolazione efficace (ad esempio, massimizzare l'attivazione delle cellule bersaglio in una retina simulata). Ogni prova potrebbe eseguire una rapida simulazione della risposta. Nel corso delle iterazioni, l'agente potrebbe esplorare durate degli impulsi o filtri spaziali. Ad esempio, regolare l'aggressività di un filtro passa-alto sull'input della telecamera potrebbe essere vantaggioso per alcuni pattern. Il punto è che molti parametri analogici (kernel dei filtri, non linearità, codifica temporale degli impulsi) possono essere controllati automaticamente.
Ottimizzazione degli Schemi di Impulsi (TES e Impianti): Anche domini non legati al machine learning possono beneficiare di una ricerca rapida. Per esempio, uno studio recente (Xie et al. 2025) ha scoperto che durate di impulsi più brevi e l'inserimento di intervalli interfase hanno migliorato significativamente l'attivazione corticale per gli impianti retinici (pmc.ncbi.nlm.nih.gov). Ciò suggerisce che lo spazio dei parametri della stimolazione elettrica ha effetti forti e non intuitivi. Un agente autoresearch potrebbe trattare i parametri del protocollo di stimolazione (durata della fase, frequenza, intervallo) come “parametri di rete” ed eseguire molti piccoli esperimenti (ciascuno simulato o empirico) per massimizzare la risposta corticale. Ad esempio, impostare un modello elettrico semplificato (o utilizzare dati di potenziali evocati registrati) in prepare.py e lasciare che l'agente modifichi i parametri di train.py come il timing degli impulsi per massimizzare un'ampiezza di risposta definita. Questo è simile all'automatizzazione di ciò che i neuroscienziati appassionati fanno manualmente.
Progettazione di Vettori Virali e Geometria degli Scaffold: Nello sviluppo di terapie più esplorative, l'approccio a ciclo dell'agente potrebbe anche affrontare ottimizzazioni biomediche. Ad esempio, la progettazione di capsidi virali AAV o promotori per colpire le RGC potrebbe essere guidata da piccoli modelli predittivi (ad esempio, regressione logistica su caratteristiche di sequenza). Autoresearch potrebbe provare ripetutamente a modificare un modello che predice il tropismo o l'espressione (addestrato su, ad esempio, piccole librerie virali) per migliorare tale previsione. Allo stesso modo, se qualcuno ha un codice di simulazione per la crescita in scaffold nervosi (per la riparazione del nervo ottico), l'agente potrebbe modificare i parametri geometrici per massimizzare l'estensione dell'assone. Questi sono avanzati, ma concettualmente si adattano – l'“agente come sperimentatore” potrebbe regolare i parametri del modello o della simulazione per risultati migliorati.

In sintesi, qualsiasi aspetto della protesi visiva o del ripristino che si basa su algoritmi parametrizzati potrebbe essere migliorato tramite rapide iterazioni. È importante sottolineare che la limitazione è che in genere abbiamo solo dati di simulazione per molti di questi compiti; il test effettivo su centinaia di varianti sui pazienti non è possibile. Ma autoresearch può operare in silico per proporre i migliori candidati per successivi test clinici. Come ha notato la revisione sulle protesi, “garantire che i fosfeni siano generati in modo affidabile in posizioni precise… è una sfida importante” e “i modelli guidati dall'IA hanno mostrato potenziale” in quest'area (pmc.ncbi.nlm.nih.gov). Autoresearch potrebbe accelerare significativamente la ricerca delle migliori configurazioni di questi modelli AI.

5. Passare all'Impatto Clinico

I risultati computazionali devono in ultima analisi riconnettersi alla ricerca e alla cura del glaucoma reali. Come possono le idee generate da autoresearch guidata dai pazienti essere validate e progredite?

Collaborazione con Gruppi di Ricerca: Gli scienziati cittadini dovrebbero contattare i consorzi di ricerca sul glaucoma consolidati. Esempi includono l'International Glaucoma Genetics Consortium (IGGC) e il consorzio NEIGHBORHOOD, che raccolgono dati genetici e clinici (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). I risultati di autoresearch (ad esempio, un nuovo gene candidato o un'ipotesi di riposizionamento di farmaci) potrebbero essere condivisi con tali gruppi per un follow-up sperimentale. Laboratori di coltura tissutale (ad esempio, presso le principali università) o ricercatori del sonno potrebbero testare composti sulla sopravvivenza delle RGC. I clinici accademici possono correlare qualsiasi biomarcatore o classificatore di immagini con i dati dei loro pazienti sotto IRB. Avviare dialoghi tra gruppi in stile hackathon e laboratori formali è fondamentale.
Coinvolgimento delle Organizzazioni di Advocacy dei Pazienti: Gruppi come la Glaucoma Research Foundation o la Cure Glaucoma Foundation spesso finanziano l'innovazione centrata sul paziente. Potrebbero sponsorizzare progetti proof-of-concept o concorsi cittadini che utilizzano autoresearch. Queste organizzazioni hanno reti di clinici e potrebbero aiutare a indirizzare i risultati promettenti dei modelli alla clinica. Ad esempio, se un agente segnala un farmaco esistente approvato dalla FDA come neuroprotettivo, un gruppo di advocacy potrebbe assistere nella creazione di un piccolo studio secondo i protocolli appropriati. Evidenziare i successi richiederà l'inquadramento degli output come ipotesi (non consigli medici) e la garanzia di trasparenza.
Salvaguardie Etiche e di Sicurezza: Gli scienziati cittadini devono utilizzare solo dati pubblici de-identificati o dati completamente sintetici. Qualsiasi utilizzo di registri effettivi dei pazienti richiede un protocollo approvato dall'IRB (e probabilmente il consenso del paziente). Gli output dei cicli di autoresearch dovrebbero essere chiaramente etichettati come generatori di ipotesi. Per esempio, “Questo modello suggerisce che il Farmaco X può proteggere le RGC – è necessaria la validazione sperimentale.” Le decisioni mediche critiche devono rimanere ai medici. I rischi includono la distribuzione involontaria di modelli che prevedono esiti personali (progressione del glaucoma) – sono necessarie chiare avvertenze per non trattarli come strumenti diagnostici. Le migliori pratiche sulla privacy dei dati (ad esempio, l'uso di campi aggregati o anonimizzati) sono un must.
Precedenti nella Scienza dei Cittadini: Non è senza precedenti che gli amatori contribuiscano alla ricerca medica/neuroscientifica. Il progetto Eyewire (il gioco di mappatura neuronale crowdsourcing del MIT) ha mobilitato volontari per ricostruire circuiti neurali retinici (www.citizenscience.gov). In oftalmologia, i non esperti hanno contribuito ad annotare immagini in sfide finanziate da OpenAI (ad esempio, dataset etichettati per malattie oculari). Al di fuori della cura degli occhi, giochi come Foldit (puzzle di ripiegamento delle proteine) e Galaxy Zoo (classificazione delle galassie) mostrano che la partecipazione dei cittadini può risolvere problemi scientifici difficili. Questi successi incoraggiano l'idea che molte mani (e ora IA) possano effettivamente aiutare la ricerca complessa. L'approccio autoresearch è come dare a ogni persona un assistente di laboratorio potenziato dall'IA: i precedenti sforzi di crowdsourcing utilizzavano solo gli umani per analizzare compiti fissi, mentre qui l'umano stabilisce l'obiettivo e l'IA fa l'iterazione.

Essendo trasparente, cauto e collaborativo, un'iniziativa di autoresearch basata sulla scienza dei cittadini può guadagnare fiducia. Dovrebbe enfatizzare “la generazione di piste, non di prescrizioni”. Se la comunità documenta i metodi e condivide il codice apertamente, i ricercatori professionisti possono riprodurre i risultati. Ad esempio, se qualcuno trova una nuova combinazione di fattori protettivi per le RGC, potrebbe pubblicarla in un preprint o avvisare un laboratorio. Riferimenti in stile citazione (come facciamo qui) aiutano a creare un ponte: ad esempio, “Abbiamo trattato la vostra lista di farmaci candidati nel contesto di percorsi noti (pmc.ncbi.nlm.nih.gov).” In definitiva, questa è una forma di scienza aperta – guidata dai pazienti ma scientificamente rigorosa. Se vengono mantenuti gli standard etici, tale innovazione di base ha un grande potenziale per innescare nuove collaborazioni e, in ultima analisi, alimentare la ricerca oftalmologica sottoposta a peer-review.

6. Una Roadmap Concreta di 90 Giorni

Un piano focalizzato e a tempo limitato può radunare una comunità di 10-50 persone (con almeno una GPU o Apple Silicon ciascuno) per lanciare uno sforzo di autoresearch-for-glaucoma. Ecco un piano a fasi suggerito:

Settimana 1-2: Formazione e Configurazione
- Reclutamento e Avvio: Creare un canale di comunicazione (ad esempio, Slack o Discord) e un repository GitHub per il progetto. Pubblicizzare nei forum per pazienti affetti da glaucoma, gruppi di biohacker e meetup di intelligenza artificiale.
- Controllo Hardware: Assicurarsi che tutti possano installare PyTorch e clonare il repository di Karpathy (o la fork Maple). Organizzare una sessione di configurazione in cui ogni membro esegue un ciclo di autoresearch di esempio su un dataset giocattolo (ad esempio, un sottoinsieme di CIFAR-10) per verificare l'ambiente.
- Selezione del Dataset: Decidere 1-3 compiti iniziali (ad esempio, classificazione OCT, progressione CV). Per ciascuno, assegnare un piccolo team per preparare i dati: ad esempio, un team scarica le immagini RIM-ONE (github.com), un altro recupera i campi GRAPE (www.nature.com), un altro raccoglie abstract dalla letteratura. I team dovrebbero dividere i dati 80/20 e creare stub prepare.py.
- Modelli di Riferimento: Per ogni compito, finalizzare un semplice train.py: ad esempio, una minuscola CNN per RIM-ONE, un MLP per i CV. Scegliere le metriche di valutazione (AUC, Dice, MSE).
- Bozza Iniziale di program.md: Ogni team scrive un file di istruzioni iniziale (program.md) che dichiara l'obiettivo e le modifiche consentite. Ad esempio, per RIM-ONE: “massimizzare l'AUC di rilevamento del glaucoma”, per GRAPE: “minimizzare l'MSE del CV”.
Settimana 3-6: Primi Cicli di Esperimenti
- Eseguire Cicli di Autoresearch: Ogni sottogruppo esegue l'agente sul proprio compito durante la notte (circa 100 esecuzioni di 5 minuti). Utilizzare un singolo program.md per iniziare, quindi lasciare che i partecipanti aggiungano variazioni (ad esempio, “program_temp1.md”).
- Raccogliere i Risultati: Ogni mattina, i team esaminano i log (il repository registra automaticamente ogni esecuzione). Registrare la migliore metrica raggiunta, i parametri del modello in quel momento e qualsiasi modifica notevole trovata dall'agente. Per trasparenza, caricare questi risultati su GitHub condiviso (magari in formato CSV o JSON).
- Iterazione e Feedback: Confrontare le esecuzioni. Qualche strategia ha superato significativamente il riferimento? Se un sottoteam vede pochi progressi, dovrebbe modificare program.md (ad esempio, essere più aggressivo con i cambiamenti del tasso di apprendimento). Ogni fine settimana, sintetizzare i risultati in una riunione della comunità.
- Strumenti: Utilizzare Git per il controllo di versione su program.md e sui template di codice. Considerare un foglio Google condiviso o una tabella wiki per le classifiche (ad esempio, “OCT-AUC: migliore=0.85 di Alice; VF-RMSE: migliore=2.1 di Bob”). Questo motiva una sana competizione e trasparenza.
Settimana 7-12: Affinamento e Divulgazione
- Affinare gli Esperimenti: Basandosi sui primi risultati, affinare i compiti promettenti. Per esempio, forse il classificatore RIM-ONE ha superato 0.90 AUC – ora provare ad aggiungere l'aumento dei dati o una rete leggermente più profonda. Incoraggiare la ramificazione: alcuni possono provare architetture diverse (ad esempio, Vision Transformer tiny invece di CNN). Gli agenti possono eseguire più varianti di program.md in parallelo.
- Sintesi dei Risultati: Creare brevi rapporti su ogni dominio (OCT, CV, ecc.), riassumendo ciò che ha funzionato. Ad esempio, “Abbiamo migliorato il Dice di segmentazione GCC da 0.60 a 0.75 passando da attivazione ReLU a GELU.” Utilizzare un linguaggio comprensibile ai non esperti (glossario per i termini ML).
- Presentazione alla Comunità: Entro la settimana 10, scrivere un post di blog o una presentazione che riassuma l'iniziativa finora. Evidenziare eventuali risultati non banali (anche i risultati “nulli” sono utili da condividere). Invitare feedback dai forum online; magari contattare un ricercatore chiedendo commenti (“Abbiamo scoperto che X modifiche alla rete neurale aiutano a classificare il glaucoma precoce – qualche idea se ciò si allinea con la fisiologia?”).
- Pianificare la Divulgazione: Identificare uno o due laboratori o clinici di oftalmologia interessati a collaborare. Contattarli con i risultati iniziali. Ad esempio, connettersi con gli autori del dataset HYGD o con il team GRAPE su Twitter/LinkedIn, menzionare le vostre scoperte come cittadini. Esplorare le possibilità di co-validazione (ad esempio, inviare loro i pesi del modello addestrato per testare sui loro dati).
Oltre le 12 Settimane: Passi Successivi
- Continuare a ciclare sui compiti più promettenti e su quelli nuovi. Ad esempio, se RIM-ONE produce buoni risultati, il prossimo compito sarà REFUGE. Magari costruire modelli compositi (ensemble di CNN).
- Ufficializzare una pagina del progetto o un preprint che descriva lo sforzo.
- Considerare l'organizzazione di un hackathon per coinvolgere più menti, possibilmente in collaborazione con un'organizzazione benefica per il glaucoma.

Strutturando in questo modo, la comunità può fare progressi costanti, imparare insieme e iniziare a creare un ponte con gli esperti entro la fine dei 90 giorni.

7. Rischi, Limitazioni e Valutazione Onesta

L'idea di autoresearch per il glaucoma è ambiziosa, quindi richiede onestà riguardo ai potenziali inconvenienti:

Rischio di Overfitting e Pattern Spuri: I modelli piccoli su dataset piccoli e rumorosi spesso si attaccano a coincidenze. Un agente potrebbe trovare una modifica che migliora l'AUC di validazione semplicemente sovra-adattandosi a idiosincrasie. Per esempio, se un sottoinsieme di immagini avesse un sottile segno di annotazione, la rete potrebbe usarlo invece delle vere caratteristiche del glaucoma. Questo porta a una “follia della discesa del gradiente”. Per mitigare:
- Utilizzare sempre set di test held-out (completamente separati da qualsiasi ottimizzazione) per la valutazione finale.
- Limitare la complessità: mantenere i modelli modesti e verificare se l'agente approfondisce o allarga eccessivamente la rete senza motivo.
- Se un modello raggiunge un punteggio quasi perfetto troppo rapidamente, metterlo in discussione.
- Utilizzare controlli di sanità mentale: ad esempio, mescolare le etichette e vedere se l'AUC scende a un valore casuale (se no, c'è una fuga di dati).
Bias e Qualità dei Dati: I dataset pubblici sul glaucoma provengono spesso da popolazioni ristrette (ad esempio, ORIGA da Singapore) (pubmed.ncbi.nlm.nih.gov). Un modello ottimizzato per questi potrebbe non generalizzare. Gli esperimenti dei cittadini dovrebbero annotare questa limitazione. Idealmente, più dataset (da diverse coorti) vengono utilizzati per verificare se i risultati sono robusti.
False Piste (“Teatro della Ricerca”): Eseguire tonnellate di esperimenti sembra produttivo, ma se ogni miglioramento è solo su dataset sintetici o triviali, potrebbe non giovare ai pazienti. Per evitare questo:
- Concentrarsi su compiti con rilevanza clinica (ad esempio, rilevamento precoce da OCT di routine).
- Collegare i risultati a misure reali quando possibile (ad esempio, AUC per la progressione, non solo un piccolo delta di perdita).
- Dare priorità all'interpretabilità: se l'agente “trova” un nuovo biomarcatore, cercare di assicurarsi che abbia senso (ad esempio, si sta concentrando su cambiamenti anatomici noti?).
Nessuna Garanzia Clinica: Deve essere cristallino: l'output di questi cicli è generazione di ipotesi, non consigli medici. Un modello che suggerisce un nuovo farmaco deve essere verificato in laboratorio prima di qualsiasi utilizzo sul paziente. Fare affermazioni eccessive è pericoloso. Etichettare tutti i risultati condivisi con avvertenze: “Questa è un'esplorazione AI e non una scoperta sottoposta a peer-review.”
Limitazione del “Modello Piccolo”: Reti molto piccole hanno capacità limitate. Possono perdere pattern complessi. Al contrario, i modelli grandi spesso producono scoperte ma richiedono enormi quantità di dati. Qui accettiamo un ambito limitato: la speranza è che anche piccoli miglioramenti possano guidare la ricerca. Ma non dobbiamo aspettarci che questi modelli sostituiscano il deep learning su dati massicci. Sono migliori per provare rapidamente idee ovvie.
Affidabilità dell'Agente: L'agente (ad esempio, GPT-4) potrebbe allucinare o deviare. È importante che i risultati siano riproducibili: dopo un'esecuzione dell'agente, un essere umano dovrebbe verificare quali modifiche sono state mantenute e rieseguire l'addestramento per confermare la metrica. Mantenere l'agente onesto includendo affermazioni in program.md come “accetta solo miglioramenti effettivi nella metrica di valutazione”.

Nonostante queste sfide, la salvaguardia chiave è la trasparenza e il follow-up critico. Documentare tutto. Quando un modello mostra un pattern, verificarlo. Se molti scienziati cittadini vedono la stessa anomalia (ad esempio, tutti i modelli ad alto AUC per un compito OCT enfatizzano la regione retinica nasale), ciò rafforza il caso. L'obiettivo è accelerare la fase di generazione di idee, non evitare una scienza accurata in seguito.

Conclusione

Il glaucoma è una malattia complessa e silenziosa che porta alla cecità, con molte esigenze di ricerca insoddisfatte – dalla protezione dei neuroni al ripristino della vista. Allo stesso tempo, l'IA ha democratizzato la sperimentazione: una persona con una GPU e una certa determinazione può eseguire ricerche automatizzate di iperparametri che richiederebbero settimane a team umani. Il framework autoresearch di Karpathy consegna essenzialmente a ogni cittadino un assistente di laboratorio AI. Scrivendo obiettivi chiari e di alto livello in Markdown, i ricercatori della comunità possono lasciare che un agente macini prodotti e vada dritto a piste promettenti.

Abbiamo delineato come questo può essere fatto in pratica: identificando i compiti di ML sul glaucoma, selezionando i dati (immagini del fundus e OCT, campi visivi, dataset molecolari), definendo modelli e metriche e utilizzando istruzioni di programma per guidare la ricerca. Abbiamo abbozzato una roadmap di 90 giorni per la comunità e notato i ponti con i clinici per garantire che un output prezioso possa informare la scienza reale del glaucoma. L'approccio è molto di “scienza dei cittadini”: aprire gli strumenti di scoperta scientifica in modo accessibile, pur continuando a fare affidamento sulla supervisione di esperti dove conta.

Citazioni: Abbiamo fatto riferimento alle ultime risorse sia nella ricerca sul glaucoma che nell'IA. Fatti chiave (prevalenza della malattia, metà non diagnosticata (physionet.org)), terapie promettenti (impianti CNTF (pmc.ncbi.nlm.nih.gov), editing genetico (pmc.ncbi.nlm.nih.gov)), e insidie oscure (AI nell'imaging (pmc.ncbi.nlm.nih.gov)) sono basati sulla letteratura attuale. Autoresearch stesso è descritto nel walkthrough di Karpathy (medium.com) e nella revisione (www.theneuron.ai). Questi dovrebbero conferire credibilità alla visione qui delineata.

Alla fine di tutto, speriamo che il lettore si senta potenziato: se sei un paziente, un assistente o un appassionato hobbista, potresti far parte del progresso della ricerca sul glaucoma. Gli strumenti e i dati esistono, i problemi sono chiari e, con coordinamento e un agente AI, possiamo accelerare l'apprendimento. Come ogni ricerca, il viaggio avrà falsi inizi, ma anche i fallimenti ci insegnano qualcosa – spesso orientando le menti umane verso gli approcci giusti. Con gli occhi ben aperti sia sulle possibilità che sulle insidie, l'autoresearch guidata dai cittadini potrebbe diventare un potente complemento alla scienza tradizionale del glaucoma.

Inizia Qui

Il modo più semplice per immergerti nell'autoresearch per il glaucoma oggi: Esegui una minuscola classificazione su immagini del fundus ORIGA.

Ottieni i dati: Scarica il dataset ORIGA-light (650 immagini del fundus retinico etichettate normali vs glaucoma) (pubmed.ncbi.nlm.nih.gov). Dividi circa 80% per il training / 20% per la validazione.
Modello iniziale: Usa o adatta lo script di esempio da [karpathy/autoresearch] per la classificazione delle immagini. Ad esempio, un po' di codice per caricare le immagini ORIGA e addestrare una piccola CNN (2-3 strati conv) per distinguere il glaucoma dal sano.
Scrivi program.md: In testo, imposta l'obiettivo su “massimizzare l'AUC di validazione per il rilevamento del glaucoma”, e istruisci l'agente che può modificare la profondità del modello, il tasso di apprendimento, ecc. Per esempio:

Obiettivo: Massimizzare l'AUC su glaucoma vs normale per il dataset ORIGA.

L'agente dovrebbe provare a regolare le dimensioni degli strati convoluzionali, il numero di filtri e il tasso di apprendimento. Ogni prova consiste in 5 minuti di addestramento. Se l'AUC di validazione migliora, mantenere la modifica. Ripetere.
Esegui il ciclo: Avvia autoresearch (indirizzalo al tuo prepare.py, train.py e program.md). Lascia che giri per diverse ore o durante la notte sulla tua RTX 3060. Eseguirà circa 100 esperimenti automaticamente.
Controlla i risultati: Esamina la console o il log per vedere il miglior AUC di validazione raggiunto (dovrebbe essere >0.8 se tutto va bene). Ora hai un modello e uno script di addestramento che l'agente AI ha affinato.

Questo semplice esperimento del fine settimana ti offre già un'esperienza diretta nella costruzione di una pipeline ML senza scrivere nuovo codice a mano. Documenta ciò che hai provato e condividi il tuo program.md e i risultati con la comunità. Ogni piccolo successo (aumenti di AUC, modifiche interessanti della rete) è un tassello. Stai letteralmente istruendo un'IA a fare ricerca sul problema del glaucoma di tua scelta – e così facendo, impari sia la data science del glaucoma sia hai speranza di fare la differenza nella comprensione o nel trattamento della perdita della vista.

Buona fortuna! Mantieni le domande e le scoperte open-source, e ricorda: questi sono strumenti di ricerca-giocattolo, non consigli medici. Controlla attentamente le tue esecuzioni e goditi il processo di scoperta.

**`

Occhi spalancati: Come il framework Autoresearch di Karpathy potrebbe democratizzare la ricerca sul glaucoma — Un progetto per la scoperta guidata dai pazienti e dall'IA nel ripristino della vista