Öppna ögon: Hur Karpathys *Autoresearch*-ramverk kan demokratisera glaukomforskning — En ritning för patientledd, AI-driven upptäckt inom synrestaurering

Öppna ögon: Hur Karpathys Autoresearch-ramverk kan demokratisera glaukomforskning

Introduktion

Glaukom är en kronisk optisk neuropati som progressivt förstör retinala ganglieceller (RGC) och leder till irreversibel synförlust. Det drabbar miljontals människor världen över – uppskattningsvis 64,3 miljoner människor år 2013, och beräknas stiga till över 110 miljoner år 2040 (physionet.org). Oroande är att ungefär hälften av alla fall förblir odiagnostiserade tills synförlusten redan har börjat (physionet.org). Traditionell glaukomvård fokuserar på att sänka intraokulärt tryck (IOP) genom mediciner eller kirurgi, men dessa behandlingar kan varken reparera skador eller helt förhindra blindhet (pmc.ncbi.nlm.nih.gov) (physionet.org). Som ett resultat finns det ett akut behov av nya upptäckter inom områden som neuroprotektion, RGC/synnervsregenerering och innovativa gen- och cellterapier. Akademisk och läkemedelsforskning inom dessa områden är dock fortfarande underfinansierad, delvis eftersom det är långsiktiga, högriskprojekt. Samtidigt möjliggör framsteg inom maskininlärning (ML) och artificiell intelligens (AI) nya angreppssätt för dataanalys och generativ design.

Nylig forskning (till exempel Andrej Karpathys projekt ”autoresearch” (www.theneuron.ai) (medium.com)) tyder på att AI-agenter autonomt kan köra hundratals små experiment på en enda GPU baserat enbart på enkla instruktioner på hög nivå. I detta paradigm skriver en människa en kort program.md som beskriver forskningsmålet, och en AI-agent justerar iterativt modellen eller hyperparametrarna, kör 5-minuters träningskörningar, behåller framgångsrika ändringar och kasserar andra (medium.com) (www.theneuron.ai). Under en natt kan denna slinga utföra omkring 100 experiment, som utforskar arkitektur- och parameterutrymmet utan manuell kodning.

Denna artikel undersöker hur Karpathys autoresearch-ramverk skulle kunna tillämpas på glaukomforskning av motiverade patienter, vårdgivare, medborgarforskare och open-source-utvecklare. Vi kommer att granska underutforskade områden inom glaukomforskning (neuroprotektion, regenerering, etc.) och identifiera maskininlärningsuppgifter inom varje domän där experiment med små modeller rimligen skulle kunna hjälpa. För varje uppgift föreslår vi specifika offentliga datamängder, baslinjemodeller/arkitekturer, utvärderingsmått och beskriver hur agentens program.md-instruktioner skulle kunna se ut. Vi diskuterar sedan praktiska steg för en gemenskap att sätta upp och dela sådana experiment, inklusive hårdvaruöverväganden, dataförberedelse och samarbetsplattformar. Vi granskar det specifika sammanhanget för synrestaurerings-terapier och huruvida autoresearch-liknande loopar kan påskynda optimeringen av neurala proteser eller andra interventioner. Slutligen behandlar vi hur medborgargenererade hypoteser kan valideras och eskaleras till kliniker, och presenterar en konkret 90-dagars färdplan för att lansera ett patientlett autoresearch-initiativ – inklusive hur man undviker fallgroparna med ”forskningsscenariet” och säkerställer verklig inverkan. Genomgående citerar vi aktuella källor om glaukomforskning och AI inom synområdet, med syfte att erbjuda en balanserad, realistisk och tillgänglig guide.

1. Glaukomforskningslandskapet och ouppfyllda behov

Glaukomforskning spänner över flera fronter – från att förstå sjukdomsmekanismer till att utveckla nya terapier för neuroprotektion och synrestaurering. Många lovande områden är underfinansierade:

Neuroprotektion: Interventioner som skyddar RGC från att dö (oberoende av IOP). Exempel inkluderar neurotrofiska faktorer och metaboliskt stöd. Till exempel har implantat som frisätter ciliärt neurotrofiskt faktor (CNTF) visat potential i tidiga studier (pmc.ncbi.nlm.nih.gov), och andra molekyler som nervtillväxtfaktor och citikolin undersöks (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Dessa är dock ännu inte standardvård, och mer arbete behövs för att omsätta dem till patienter. En översikt från 2025 varnar för att neuroprotektiva glaukomterapier är en ”framtida behandling” som behöver ytterligare studier (pmc.ncbi.nlm.nih.gov), vilket återspeglar ett ouppfyllt behov.
RGC-regenerering & Synnervsregenerering: När RGC och deras axoner dör har nuvarande medicin ingen möjlighet att vända detta. Vissa djurstudier använder genterapi för att omprogrammera RGC eller stimulera återväxt. Till exempel har CRISPR-baserad repression av PTEN (en negativ tillväxtregulator) främjat axonåterväxt i råttnervceller (pmc.ncbi.nlm.nih.gov), och experiment med att kodeletera PTEN och SOCS3 drev ihållande synnervsregenerering hos möss (pmc.ncbi.nlm.nih.gov). Dessa genombrott förblir dock i laboratoriemodeller. Den underliggande biologin – t.ex. hur man återskapar retinal utveckling eller kringgår tillväxthämmare – är komplex. Det finns en enorm efterfrågan på modaliteter (små molekyler, gener, biomaterial) som skulle kunna stimulera RGC-överlevnad eller axonåterväxt, men framstegen till mänskliga studier är långsamma.
Gen- och cellterapier: Nya tekniker som CRISPR, virala vektorer och stamcellsderiverade RGC har potential för glaukom. Strategier inkluderar genredigering för att minska IOP (t.ex. inriktning på produktion av kammarvatten) eller modulera neurodegenerativa vägar (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Stamceller skulle (teoretiskt) kunna ersätta förlorade trabekelverksceller eller RGC och utsöndra skyddande faktorer (pubmed.ncbi.nlm.nih.gov). Tidiga studier har visat att vissa transkriptionsfaktorer (t.ex. Oct4-Sox2-Klf4) kan omprogrammera icke-RGC till RGC-liknande nervceller hos möss (återställer synen vid synnervsskada) (pmc.ncbi.nlm.nih.gov). Dessa metoder står dock inför säkerhets- och leveransutmaningar innan de når patienter. Flera nyliga översikter belyser genterapi som en spännande men ännu inte klinisk front för glaukom (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Sammanfattningsvis utvecklas molekylära och cellulära innovationer, men resurser och studiedata är begränsade – vilket skapar en möjlighet för beräkningsmässig utforskning (t.ex. design av optimala virala konstruktioner eller förutsägelse av effektiva genredigeringar).
Elektrisk och optogenetisk stimulering för synrestaurering: För patienter med avancerat glaukom (eller kombinerade sjukdomar som retinitis pigmentosa) syftar konstgjorda synproteser eller optogenetiska terapier till att kringgå skadade RGC. Retinala implantat (epiretinala eller subretinala elektroduppsättningar) och kortikala implantat har genererat artificiella perceptioner (”fosfener”), men upplösningen är låg och resultaten varierar kraftigt. En nylig översikt från 2025 om AI i visuella proteser konstaterar att ”AI-algoritmer visar lovande resultat för att optimera protetisk syn, särskilt genom förbättrad extraktion av bildsälta och stimuleringsstrategier,” även om de flesta studier hittills är simuleringar (pmc.ncbi.nlm.nih.gov). Med andra ord kan maskininlärning hjälpa till att omvandla kamerabilder till stimuleringsmönster som är mest informativa med tanke på enhetens begränsningar. Optogenetik (som gör överlevande retinala celler ljuskänsliga) och transkorneal elektrisk stimulering (TES) pulser prövas också för glaukomrelaterad synförlust. Alla dessa områden kräver omfattande parameterjustering (t.ex. spatiotemporala stimuleringsmönster, genexpressionsvektorer) — uppgifter som potentiellt är lämpliga för autonom ML-sökning.
IOP-oberoende mekanismer: Många människor fortsätter att förlora synen trots välkontrollerat IOP. Faktorer som nedsatt okulär blodcirkulation, neurovaskulär dysfunktion eller metabolisk stress i synnervshuvudet är erkända men inte fullt förstådda. Genetiska studier tyder på betydande ”IOP-oberoende” komponenter av glaukomrisk (pubmed.ncbi.nlm.nih.gov) (pubmed.ncbi.nlm.nih.gov). Biomarkörer för dessa processer (utöver tryck) behövs akut. Dessutom har hälften av glaukompatienterna ”normaltrycksglaukom”, vilket understryker att högt IOP inte är den enda boven. Forskning om vaskulära faktorer eller andra skadevägar pågår men är fragmenterad. Beräkningsmodellering eller datamining av stora datamängder (t.ex. genomgång av hela genomet för associationsstudier) skulle kunna hjälpa till att identifiera nya mekanismer eller terapeutiska mål inom detta område.
Biomarkörupptäckt via avbildning och synfält: Tidig upptäckt och övervakning av glaukom bygger ofta på avbildning (fundusfoton, OCT) och funktionella tester (synfält). Avancerade algoritmer skulle kunna upptäcka subtila biomarkörer som mänskliga kliniker missar. Till exempel har djupinlärning börjat upptäcka preperimetrisk synfältsförlust (förändringar osynliga vid standard synfältsanalys) (pmc.ncbi.nlm.nih.gov). På liknande sätt har AI använts för att analysera OCT-lagertjockleksprofiler för att förutsäga glaukom innan uppenbar skada. Det finns dock ännu inga allmänt accepterade AI-biomarkörer som används kliniskt för screening eller riskstratifiering. Beräkningsmässiga flaskhalsar här inkluderar behovet av stora, välmärkta datamängder och robusta valideringsprotokoll (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Offentliga utmaningar (REFUGE, AIROGS, etc.) har börjat standardisera data, men täckningen av tidigt stadium av sjukdomen är bristfällig (pmc.ncbi.nlm.nih.gov). Ytterligare maskindriven upptäckt av multimodala biomarkörer (som kombinerar OCT, synfält, genetik, etc.) förblir en öppen front.

Var kan ML med små modeller hjälpa? Många av ovanstående beskriver problem på hög nivå. Flaskhalsarna är ofta databrist, många interagerande variabler och långsamt föränderlig biologi. Där en autoresearch-agent utmärker sig är i automatisering av småskaliga experiment på tillgängliga data. Till exempel, om det finns en blygsam datamängd med OCT-skanningar med och utan tidigt glaukom, kan en medborgarforskare sätta upp en snabb modelltestningsloop för att hitta vilken arkitektur som bäst skiljer dem åt. På samma sätt skulle små transformermodeller på genomik eller litteratur kunna föreslå nya gen- eller läkemedelskandidater. Nyckeln är att fokusera på snäva uppgifter med definierade mått (klassificeringsnoggrannhet, AUC, förlust) och iterera snabbt. Områden med begränsad offentlig data (t.ex. TES-parametrar eller nya gen-cocktails) kan förlita sig på syntetisk data eller proxydata. I nästa avsnitt kartlägger vi specifika ML-uppgifter inom glaukom till autoresearch-tillvägagångssättet.

2. Kartläggning av Autoresearch till glaukomproblem

Karpathys autoresearch-ramverk är domänagnostiskt: det kan köra experiment i vilken ML-uppgift som helst, förutsatt att en prepare.py och train.py finns med ett väldefinierat utvärderingsmått. Vi identifierar flera konkreta glaukomrelaterade uppgifter och specificerar hur en agent skulle kunna hantera var och en. Varje användningsfall nedan inkluderar: en offentligt tillgänglig datamängd (om möjligt), en startmodell eller arkitektur, ett utvärderingsmått och en skiss över program.md-instruktioner.

2.1 OCT-bildanalys (strukturell detektion och segmentering)

Uppgift: Tidig glaukomdetektion från OCT-skanningar. OCT-avbildning ger tvärsnittsvyer av retinala lager. Förtunning av retinala nervfiberlagret (RNFL) och gangliecellskomplexet (GCC) kan föregå synfältsförlust. Vi kan behandla detta som en klassificeringsuppgift (glaukom vs frisk) eller regression (t.ex. utdata RNFL-tjocklek).
- Datamängd: En nylig release, SYN-OCT (www.nature.com), är en syntetisk datamängd med 200 000 cirkumpapillära OCT-bilder (100k glaukom, 100k normal) genererade av GANs. Varje bild har associerad RNFL-tjocklek och segmenteringsmasker. Dessa är offentligt tillgängliga på Zenodo (www.nature.com). (Även om de är syntetiska, är de statistiskt validerade för att efterlikna verklig OCT (www.nature.com).) Alternativt kan man använda OCT-DL-datamängden (www.nature.com) (2064 bilder av olika retinala sjukdomar) eller mindre kliniska OCT-samlingar.
- Modell: Börja med ett litet konvolutionellt neuralt nätverk (CNN). För klassificering kan en modell med ~ 3–5 konvolutionella lager (t.ex. analogt med en trunkerad ResNet-18, eller en anpassad liten CNN) fungera. För segmentering av RNFL/GCC är en kodar-avkodar som ett litet U-Net (med djup 3–4) lämplig. Den initiala train.py skulle kunna implementera ett enkelt CNN och en träningsloop, med standardhyperparametrar.
- Mått: Om glaukomklassificering görs på OCT, använd AUC (Area Under ROC) eller noggrannhet på en valideringsdelning. För segmentering, använd Dice-koefficienten eller IoU på RNFL-lagermasker (SYN-OCT tillhandahåller masker (www.nature.com)).
- Exempel program.md:
  
  "Mål: Maximera validerings-AUC för att detektera glaukom från OCT-bilder. Tillåtna modifieringar: antal konvolutionslager, filterantal, kärnstorlekar, aktiveringsfunktioner, inlärningshastighet, val av optimerare, batchstorlek etc. Efter varje 5-minuters träningskörning, utvärdera AUC på den undanhållna uppsättningen. Om AUC förbättras, behåll ändringen; annars återgå." (medium.com) (www.theneuron.ai).
  Agenten kommer därmed att prova variationer (t.ex. lägga till lager, justera bredd, byta från Adam till RMSProp) för att förbättra AUC.
Uppgift: Segmentering av RNFL/GCC-lager. Att exakt mäta RNFL-tjocklek är avgörande. Genom att använda syntetiska OCT-skanningar (med tillhandahållna segmenteringar) eller någon verklig OCT med annoterade lager, kan man formulera detta som en segmenteringsuppgift.
- Datamängd: SYN-OCT tillhandahåller återigen RNFL-segmenteringsmasker (www.nature.com). En annan källa: vissa akademiska grupper har märkt OCT B-skanningar (dock ofta proprietära). Vid behov kan man använda generiska OCT-segmenteringsdatauppsättningar (som Duke retina OCT fluid challenge (www.nature.com)) som proxy.
- Modell: En liten U-Net-liknande CNN, kanske till och med kanaltrimad från en baslinje. T.ex., använd 3 ned/upp-block, börja med 16 filter. Agenten får ändra djup och bredd.
- Mått: Dice-poäng eller medel-IoU för den förutsagda RNFL-masken jämfört med sanningen.
- Exempel program.md:
  
  "Mål: Maximera Dice-poängen för RNFL-lagersegmentering på OCT. Basmodellen är ett 3-blocks U-Net. Agenten kan variera antalet filter, lägga till dropout eller ändra inlärningshastighet. Träna i 5 minuter per försök och beräkna Dice på validering. Behåll modifieringar som ökar Dice."
Uppgift: Förutsägelse av progression via seriell OCT. Med hjälp av sekventiell OCT, förutsäga framtida förtunning. Om longitudinella OCT-data finns (t.ex. UK Biobank eller privata klinikdata), skulle målet kunna vara att förutsäga RNFL-förändring eller en binär ”snabb progressor”-etikett.
- Datamängd: Offentliga longitudinella OCT-data specifika för glaukom är knappa. Man skulle dock kunna återanvända SR OCT-utmaningsdata (eller SYN-OCT-bilder med simulerad progression) för att simulera denna uppgift. Alternativt kan UK Biobank OCT-bilder användas (dock inte glaukomspecifika och inte lättillgängliga för medborgarforskare). För att illustrera, anta en datamängd med OCT-skanningar vid tidpunkt0 och tidpunkt1 med etiketter.
- Modell: Ett siamesiskt eller sammanfogat CNN som tar par av OCT-bilder och utdata sannolikheten för progression. Börja med att mata in tidpunkt0 och förutsäga tidpunkt1-gränsen.
- Mått: AUC för binär progressionsklassificering, eller MSE om man försöker förutsäga tjockleksförändring.
- Exempel program.md:
  
  "Mål: Identifiera ögon som kommer att få snabb RNFL-förlust. Input: baslinje-OCT; etikett: >5μm förtunning efter 1 år. Vi använder en CNN-klassificerare. Tillåtna ändringar inkluderar nätverksdjup, inlärningshastighet, augmentation. Använd validerings-AUC som mått."

2.2 Synfältsanalys (VF)

Uppgift: Förutsäga framtida synfältsförlust. Med tanke på ett eller flera tidigare Humphrey-synfältstest (punktvisa känslighetsvärden), prognostisera framtida känslighet eller progressionshastighet. Detta är ett klassiskt problem inom glaukomhantering.
- Datamängd: GRAPE-datamängden (www.nature.com) (2023) tillhandahåller longitudinell uppföljning av 263 ögon (1115 register) med VF och fundus/OCT, inklusive annoterad progression. En annan resurs är USA:s UH Visual Field (UWHVF) longitudinella databas (www.nature.com) (28 943 synfält från många patienter). GRAPE är dock välkurerad och offentlig med både VF och resultat.
- Modell: Ett enkelt tillvägagångssätt är ett feed-forward-nätverk (fullt kopplat) på 54-punkts VF-data (eller komprimera till globala index). För progressionsförutsägelse kan ett mindre MLP eller 1D-CNN hantera 54 eller 30 inputfunktioner. En annan idé: behandla 8×8-rutnätet som en liten bild och använd ett litet CNN (t.ex. 3×3 kärnor).
- Mått: Om man förutsäger framtida medelavvikelse eller punktvärden, använd MSE (lägre är bättre). Om man klassificerar ”snabb progressor vs inte”, använd AUC.
- Exempel program.md:
  
  "Mål: Minimera MSE för förutsagt synfält. Alternativt, maximera AUC för att klassificera snabb förlust. Basmodell: 2-lager perceptron på 54 VF-värden. Agenten kan justera dold storlek, aktivering eller lägga till dropout. Efter varje 5-minuters träning, beräkna måttet på val-uppsättningen."
Uppgift: Identifiera snabba progressorer. Använd en serie tidigare VF för att klassificera vilka ögon som snabbt kommer att förlora synen.
- Datamängd: Använd den annoterade progressionsstatusen i GRAPE (www.nature.com) (de markerade ögon som progredierade). Eller ta UWHVF och etikettera de översta decilen av MD-förlust som ”snabb”.
- Modell: Kan sammanfoga funktioner från två eller tre konsekutiva fält (eller skillnader) till ett litet nätverk. Möjligen inkludera baslinje-IOP och ålder om tillgängligt.
- Mått: AUC för att skilja snabba från långsamma progressorer.
- Exempel program.md:
  
  "Mål: Maximera AUC för att förutsäga snabb fältprogression. Inputfunktioner: andra ordningens skillnader mellan VF1 & VF2, plus IOP. Använd litet FC-nätverk. Agenten kan justera lagerbredder, inlärningshastighet, batchstorlek."

2.3 Läkemedels-/föreningsscreening (In Silico kandidatupptäckt)

Uppgift: Förutsäga kandidater för neuroprotektiva/regenerativa föreningar. Använd ML för att hitta små molekyler som kan skydda RGC eller uppmuntra regenerering. Till exempel visar många kända föreningar (som nikotinamid, valproat) neuroprotektiva effekter. Vi kan träna modeller för att känna igen kemotyper korrelerade med känd effekt och sedan söka i det kemiska rummet.
- Datamängd: Detta är utmanande på grund av bristen på en dedikerad läkemedelsdatabas för glaukom. Som en proxy kan man använda MolNet-datamängder (t.ex. HIV-hämning, BBB-permeabilitet) eller någon bioaktivitetsdatamängd. Alternativt kan man sammanställa en lista över föreningar testade i synnervsskademodeller (från litteraturgranskning) med etiketter. I praktiken kan man börja med en mer generisk egenskap (t.ex. data om blod-hjärnbarriärpenetration från MoleculeNet).
- Modell: En liten transformer eller grafiskt neuralt nätverk på SMILES-strängar. En transformer (i GPT-2-stil) med få lager eller ett enkelt grafiskt konvolutionellt nätverk (t.ex. 3 GCN-lager) kan implementeras i train.py.
- Mått: Om vi behandlar detta som klassificering (aktiv vs inaktiv), använd AUROC. Om vi förutsäger affinitet eller logP, använd RMSE.
- Exempel program.md:
  
  "Mål: Maximera klassificerings-ROC-AUC för att identifiera neuroprotektiva liknande föreningar. Basmodell: liten transformer på SMILES. Agenten kan justera antal transformerlager, dropout, inlärningshastighet, eller använda alternativa featuriseringar (t.ex. fingeravtrycksinput). Efter varje 5-minutare, utvärdera AUC på valideringsmolekyler."

(Obs: Eftersom offentlig data för faktisk neuroprotektion är knapp, är denna uppgift mer illustrativ. I praktiken skulle medborgarforskare kunna skapa en anpassad datamängd med kända neuroprotektiva föreningar kontra kontroller och följa detta mönster.)

2.4 Modellering av genregleringsnätverk (encells RGC)

Uppgift: Identifiera regenerativa TF-kombinationer. Använd encells-RNA-seq-data från RGC för att lära sig transkriptionella mönster för regenerativ tillväxt. Till exempel regenererar vissa RGC-subtyper bättre än andra. En ML-modell skulle kunna förutsäga en ”regenerativ tillstånd”-etikett, och man skulle kunna undersöka vilka transkriptionsfaktorer som är viktiga.
- Datamängd: En studie från 2018 tillhandahåller RGC encells-transkriptom (GEO-accession GSE115404) (pmc.ncbi.nlm.nih.gov), som identifierar distinkta RGC-subtyper. Vi kan använda denna datamängd (eller ett subset) där celler är märkta efter subtyp eller efter experimentellt tillstånd (t.ex. före- vs efterskada).
- Modell: En liten transformer eller MLP som opererar på genexpressionsvektorer (varje cell har tusentals genöverflöd). Praktiskt sett skulle man förvälja de översta ~500 generna (t.ex. mycket variabla gener). train.py skulle kunna implementera en mini-transformer (t.ex. 4 lager, inbäddning 256) eller enkel 2-lager perceptron.
- Mått: Om man använder oövervakad analys kan man använda silhuettpoäng, men enklare, om man märker celler som ”regenererande” vs ”icke” (om etiketter finns), använd klassificeringsnoggrannhet/AUC.
- Exempel program.md:
  
  "Mål: Bygg en modell som skiljer regenererande från icke-regenererande RGC-genexpressionsprofiler. Börja med en 3-lagerstransformer. Agenten kan ändra inbäddningsdimension, djup, inlärningshastighet eller lägga till batchnorm. Optimera valideringsnoggrannheten."
  Efter körningar kan den bästa modellens uppmärksamhetsvikter eller inlärda funktioner lyfta fram nyckeltranskriptionsfaktorer för experiment.

2.5 Elektrofysiologisk signalanalys

Uppgift: Detektera subklinisk RGC-dysfunktion via ERG. Mönsterelektroretinogram (pERG) eller andra elektrofysiologiska signaler kan avslöja RGC-hälsa. Till exempel kan fördröjda eller reducerade ERG-svar föregå synfältsdefekter. Vi kan försöka klassificera signaler som ”normala” vs ”glaukommisstänkta”.
- Datamängd: Offentliga ERG-datamängder inom glaukom är sällsynta. Man skulle kunna använda en surrogat: en datamängd från djur (retinal degeneration) eller syntetiska signaler. Om otillgängligt, skulle även generiska 1D elektrofysiologidatamängder (t.ex. EKG) kunna illustrera pipelinen.
- Modell: Ett 1D CNN (t.ex. 2 konvolutionslager följt av FC) på tidsseriedatan. Alternativt kan en LSTM användas om sekvenserna är längre.
- Mått: Noggrannhet eller AUC vid klassificering av en subtil dysfunktion vs normal. Möjligen F1 om klasserna är obalanserade.
- Exempel program.md:
  
  "Mål: Maximera valideringsnoggrannheten för att klassificera ERG-spår (frisk vs tidigt glaukommönster). Använd ett 1D CNN. Agenten kan justera filterstorlekar, steg eller lägga till ett rekurrent lager. Behåll alla ändringar som förbättrar noggrannheten."

2.6 Litteraturgranskning (hypotesgenerering)

Uppgift: Finjustera en liten språkmodell för att upptäcka nya insikter. Med tusentals glaukomforskningsartiklar i PubMed skulle en ML-agent kunna leta efter samband eller återanvända kandidater. Till exempel, länka neuroprotektiva vägar till befintliga läkemedel. Vi kan behandla detta som ett språkmodelleringsproblem eller som ett hämtningsproblem.
- Datamängd: Sammanställ en korpus av glaukomrelaterade abstracts (t.ex. använd PubMed-sökning för ”glaukom genterapi” etc). Man kan ladda ner ~10 000 abstracts via NCBI API:er. För en enklare start, använd PMC:s open access-artiklar om glaukom.
- Modell: En liten transformerande språkmodell (t.ex. 6-lagers GPT-2) eller till och med BERT finjusterad. För autoresearch-ändamål finjusterar vi sannolikt en kausal modell (GPT) på texten.
- Mått: Standardmässigt optimeras valideringsförlust (perplexity). Om klassificering görs (t.ex. givet abstract, förutsäga en etikett för ett läkemedel eller en väg), använd noggrannhet/AUC.
- Exempel program.md:
  
  "Mål: Minimera valideringsperplexiteten för en liten GPT-2 på glaukomlitteraturkorpusen. Använd 5-minuters finjusteringskörningar. Agenten kan variera antal lager, dold storlek, inlärningshastighet, kontextlängd. Behåll ändringar som minskar perplexiteten."
  När modellen väl är tränad kan man be den generera hypoteser (t.ex. ”Toppkandidater för ompositionerbara läkemedel för neuroprotektion vid glaukom: ...”).

Inom var och en av dessa domäner är nyckeln att en enda GPU och korta körningar tillåter många försök. Vi förväntar oss inte att agenten ska koda nya algoritmer från grunden utan att finjustera ett befintligt träningsskript. Människans roll är att skriva program.md för att styra agentens sökning mot ett glaukomspecifikt mål (som att maximera AUC på en fundusdatamängd eller förutsäga RNFL-tjocklek). Exemplen ovan illustrerar hur train.py initialt skulle kunna ställas in och hur program.md uppmanar till att förbättra ett valt mått (medium.com) (www.theneuron.ai).

3. Praktisk guide för implementering av medborgarforskning

Hur kan motiverade individer med begränsade resurser (t.ex. en enda RTX 3060 eller en MacBook med Apple Silicon) faktiskt tillämpa autoresearch på glaukomproblem? Den goda nyheten är att Karpathys repo är liten och innehåller vägledning för att skala ner. Här är viktiga steg och tips:

Miljöinställningar: Klona karpathy/autoresearch-repot. Du behöver en modern Python och helst LLM-åtkomst (agenten i sig är vanligtvis en förtränad LLM som GPT-4 eller Claude som redigerar koden). För GPU:er, installera PyTorch med korrekt CUDA/metal-stöd. För Apple Silicon, använd en av forken (t.ex. MLX) eller en PyTorch-build för M1/M2 (se repots dokumentation). På Windows/Linux med en 3060 eller 4070 fungerar normal PyTorch CUDA.
Konfigurering för liten GPU: Standard-autoresearch använder en GPT-liknande modell med ~50M parametrar och sekvenser med längd 1024 (medium.com), vilket kan vara tungt. För en GTX 3060 (12GB) bör du minska modellstorlek och sekvenslängd. I train.py, ställ in MAX_SEQ_LEN=512 eller till och med 256. Minska antalet lager och bredd (den medelstora GPT är ~8 lager; prova 4 lager, 256 bredd). Instruktionerna i gemenskapen nämner att sänka ”DEPTH”, ”WIDTH” etc. Du kan också minska optimerarens minne genom att använda mindre batchstorlekar (även 16 eller 8). Agenten kan fortfarande mutera dessa parametrar, men att ge den en mindre startpunkt säkerställer körningar under 5 minuter. autoresearch GitHub README och diskussioner om problem noterar också att Mac M1-chips kan hantera kortare sekvenser (t.ex. 256 tokens) på grund av begränsat minne; liknande skalning gäller för alla GPU:er.
Förberedelse av glaukomdata: Varje uppgifts data måste laddas och delas. Offentliga glaukomdatamängder inkluderar:
- Fundusdatamängder: ORIGA(-light) (650 märkta bilder (pubmed.ncbi.nlm.nih.gov)), RIM-ONE DL (485 bilder med kopp/skivsegmenteringar (github.com)), REFUGE (1200+ bilder, med tränings-/testdelningar (refuge.grand-challenge.org)), den nya Hillel Yaffe Glaukom Dataset (HYGD) med ~1200 fundusbilder och högkvalitativa etiketter (physionet.org). EyePACS/AIROGS (tiotusentals retinala bilder) är också offentligt tillgänglig via registrering (t.ex. Kaggle).
- OCT-datamängder: SYN-OCT (200k syntetiska B-skanningar med RNFL-masker (www.nature.com) (www.nature.com)), OCTDL (2064 bilder av olika retinala sjukdomar (www.nature.com)), och andra från offentliga utmaningar.
- Synfältsdata: GRAPE (263 ögon longitudinell VF plus bilder (www.nature.com)). UWHVF (28k VF-tester) är öppen om du laddar ner från University of Washingtons arkiv (www.nature.com). Vissa Kaggle-utmaningar inkluderar VF-data.
- Elektrofysiologi: Ingen stor öppen ERG-datamängd för glaukom är känd, men man skulle kunna börja med tillgängliga normal- vs glaukom-signaldata.
- Kemiska/Gendata: Standarddatamängder som MoleculeNet (för föreningar) eller GEO (för gener) kan återanvändas. T.ex. ladda ner GSE115404 råa räkningar (via GEO-fråga (pmc.ncbi.nlm.nih.gov)) och förbehandla till expressionsmatriser.
För varje behöver du en prepare.py som laddar data och definierar train_set, val_set och en utvärderingsfunktion. Karpathys mall förväntar sig att prepare.py utdata träningsdata och en utvärderingsrutin som returnerar en förlust eller ett mått. Till exempel kan prepare.py för RIM-ONE ladda bilder och CC märkta som glaukom, dela upp i tränings-/valideringsmappar och definiera en funktion som beräknar validerings-AUC. SE [14†L71-L79] för hur RIM-ONE är strukturerad.
Anpassa data för liten skala: Om datamängder är stora (som EyePACS eller SYN-OCT), kan du ta ett delprov för att skapa en ”liten” datamängd med några hundra exempel (modellen kan fortfarande lära sig något värdefullt på en liten korpus). Autoresearch-repot nämner till och med att använda ”TinyStories”-liknande små datamängder för att köra på liten hårdvara. Till exempel, välj 500 bilder från ORIGA (balanserade), eller 1000 VF-fält från GRAPE. På samma sätt, för språk, skulle man kunna använda ett delmängd av 5 000 abstracts från PubMed-glaukomartiklar. Nyckeln är en fast datamängd som agenten itererar över. Se till att förhandsskakta och dela 80/20 så att varje 5-minuters körning ser samma tränings-/valideringsdelning.
Skriva program.md-strategier: Gemenskapen bör dela olika program.md-prompter (som ”recept”) i versionskontroll. Varje fil skulle kunna koda en forskningsstrategi. Till exempel kan en strategi säga ”öka nätverksdjupet om djup <6, annars minska inlärningshastigheten”, medan en annan kan säga ”fokusera på förändringar i dataaugmentation”. Med tiden kan grupper jämföra vilka strategier som gav bättre mått på topplistor. En bra program.md inkluderar ett mål (t.ex. maximera AUC eller minimera valideringsförlust) och antyder tillåtna mutationer (lager, filter, LR). Agentens LLM använder dessa instruktioner för att föreslå kodändringar. Håll måtten standardiserade (t.ex. rapportera alltid AUC för glaukomklassificeringsuppgifter) så att experimenten är jämförbara.
Gemenskapssamarbete: För att göra denna insats skalbar bör en medborgarforskargemenskap organisera sig:
- Delade experimentloggar: Posta varje experiments resultat (t.ex. ”Körning #27 av program-v1 uppnådde Val AUC=0.82 med bredd=4, djup=3”).
- Standardiserade mått: Definiera mått för varje uppgift: t.ex. ”OCT glaukom AUC”, ”VF progressions AUC”, ”Attribut AUC”, etc. En delad topplista (liknande autoresearchs val_bpb) kan spåra toppresultat. Till exempel kan Slack eller GitHub Actions samla varje agents bästa AUC veckovis.
- Versionskontrollerad program.md: Host alla program.md i ett GitHub-repo. Medlemmar kan forka och föreslå nya strategier (via pull-förfrågningar) samtidigt som historiska versioner bevaras. På så sätt kan flera metoder testas parallellt (t.ex. ”program_word2vec.md” vs ”program_transformer.md”).
- Delning av data och kod: Använd offentliga repos eller notebooks för databeredningsskript, och dela train.py-modifieringar som hittats av agenten (för att reproducera i standard ML-ramverk). Länkning till de ursprungliga datakällorna (Kaggle, PhysioNet, Zenodo) säkerställer att andra kan ladda ner samma data.

Genom att sänka tekniska hinder (agenten redigerar kod, användaren redigerar instruktioner i Markdown), och genom att koordinera insatser (delade loggar, topplistor), kan medborgarforskare kollektivt utforska hyperparameter-/modellval för dessa glaukom-ML-problem. I huvudsak investerar de mänsklig kreativitet i att definiera mål, och låter agenten köra den mödosamma processen med 100 experiment över natten per mål (medium.com) (www.theneuron.ai).

4. Synrestaurering specifikt

Synrestaurering – att återfå synen efter skada – är ett särskilt spännande mål för AI-driven optimering. Nuvarande AI-assisterad synrestaureringsforskning inkluderar retinala implantat, kortikala proteser och optogenetik. Här är hur en autoresearch-loop skulle kunna passa in:

Optimering av visuell proteskodning: Moderna proteser (retinala implantat eller kameror kopplade till elektroduppsättningar) försöker översätta en kamerabild till elektriska stimuleringsmönster som hjärnan tolkar som syn. Utmaningen är att elektrodernas ”bandbredd” är mycket begränsad (ofta bara tiotals till några hundra punkter) (pmc.ncbi.nlm.nih.gov). En ML-modell (en liten CNN eller transformer) kan tränas för att mappa inmatningsbilder till ideala stimuleringskartor, men de bästa hyperparametrarna eller arkitekturerna för denna översättning är okända. En autoresearch-agent skulle kunna köra 100 variationer av en ”neural kodare”-modell på timmar. Till exempel, sätt upp en datamängd med bild→stimuleringspar (antingen simulerade fosfener eller patientdata) och låt agenten optimera kodarnätverket för att minimera en rekonstruktionsförlust eller maximera ett nyttomått (kontrastintakthet, igenkänningsnoggrannhet). Agenten kan försöka lägga till uppmärksamhetslager, ändra konvolutionsstorlekar eller justera inlärningshastigheter. Efter många körningar kan man hitta små nätverk som levererar mer framträdande protetiska utgångar. Vissa nyliga studier använder redan AI för att extrahera visuell sälta för proteser (pmc.ncbi.nlm.nih.gov); autoresearch skulle kunna automatisera justeringen av sådana pipelines.
Optogenetiska stimuleringsmönster: Vid optogenetisk terapi görs överlevande RGC eller andra retinala celler ljuskänsliga (via introducerade gener). Ingångarna från en kamera måste sedan kodas till ljuspulser. Här igen kan en ML-modell styra mönster. Man skulle kunna formulera en leksaksuppgift: ett litet nätverk omvandlar kamerabild till en ljusintensitetskarta (samma dimensioner som celler). Agentens mål skulle kunna vara att maximera något mått på effektiv stimulering (t.ex. maximera aktiveringen av målceller i en simulerad näthinna). Varje försök kan köra en snabb simulering av svaret. Över iterationer kan agenten utforska pulsvaraktigheter eller spatiala filter. Till exempel kan justering av aggressiviteten hos ett högpassfilter på kamerainmatningen vara fördelaktig för vissa mönster. Poängen är att många analoga parametrar (filterkärnor, icke-linjäritet, temporal pulskodning) kan svepas automatiskt.
Pulsmönsteroptimering (TES och implantat): Även icke-maskininlärningsdomäner kan dra nytta av snabb sökning. Till exempel fann en nylig studie (Xie et al. 2025) att kortare pulslängder och införande av interfasintervaller signifikant förbättrade kortikal aktivering för retinala implantat (pmc.ncbi.nlm.nih.gov). Detta tyder på att parameterutrymmet för elektrisk stimulering har starka, icke-intuitiva effekter. En autoresearch-agent skulle kunna behandla stimuleringsprotokollets parametrar (faslängd, frekvens, intervall) som ”nätverksparametrar” och köra många små experiment (var och en simulerad eller empirisk) för att maximera kortikal respons. För instans, sätt upp en förenklad elektrisk modell (eller använd inspelade framkallade potentialdata) i prepare.py och låt agenten justera train.py-parametrar som pulstider för att maximera en definierad responsamplitud. Detta liknar att automatisera vad hängivna neuroforskare gör manuellt.
Viral vektordesign och scaffoldgeometri: I mer utforskande terapiutveckling skulle agentens loop-strategi också kunna hantera biomedicinska optimeringar. Till exempel skulle designen av AAV virala kapsider eller promotorer för att rikta in sig på RGC kunna styras av små prediktiva modeller (t.ex. logistisk regression på sekvensfunktioner). Autoresearch skulle upprepade gånger kunna försöka modifiera en modell som förutsäger tropism eller expression (tränad på t.ex. små virala bibliotek) för att förbättra den förutsägelsen. På liknande sätt, om någon har simuleringskod för tillväxt i nervställningar (för synnervsreparation), skulle agenten kunna justera geometriska parametrar för att maximera axonutbredningen. Dessa är avancerade, men konceptuellt passande – ”agenten som experimenterare” skulle kunna justera modell- eller simuleringsparametrar för förbättrade resultat.

Sammanfattningsvis kan varje aspekt av synproteser eller synrestaurering som bygger på parameteriserade algoritmer förbättras genom snabba iterationer. Viktigt är att begränsningen är att vi generellt bara har simuleringsdata för många av dessa uppgifter; faktisk patienttestning av hundratals varianter är inte möjlig. Men autoresearch kan fungera in silico för att föreslå de bästa kandidaterna för senare klinisk testning. Som protesöversikten noterade, ”att säkerställa att fosfener genereras pålitligt på precisa platser… är en viktig utmaning” och ”AI-drivna modeller har visat potential” inom detta område (pmc.ncbi.nlm.nih.gov). Autoresearch skulle kunna avsevärt påskynda att hitta de bästa konfigurationerna för dessa AI-modeller.

5. Att bygga broar till klinisk inverkan

Beräkningsresultat måste i slutändan kopplas tillbaka till verklig glaukomforskning och vård. Hur kan idéer genererade av patientledd autoresearch valideras och utvecklas?

Samarbete med forskargrupper: Medborgarforskare bör kontakta etablerade glaukomforskningskonsortier. Exempel inkluderar International Glaucoma Genetics Consortium (IGGC) och NEIGHBORHOOD-konsortiet, som samlar genetiska och kliniska data (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Fynd från autoresearch (t.ex. en ny kandidatgen eller hypotes om återanvändning av läkemedel) skulle kunna delas med sådana grupper för experimentell uppföljning. Vävnadskulturlaboratorier (t.ex. vid stora universitet) eller sömnforskare kan testa föreningar på RGC-överlevnad. Akademiska kliniker kan korrelera vilken biomarkör eller bildklassificerare som helst med deras patientdata under IRB. Att inleda dialoger mellan hackathon-liknande grupper och formella laboratorier är avgörande.
Engagera patientintresseorganisationer: Grupper som Glaucoma Research Foundation eller Cure Glaucoma Foundation finansierar ofta patientcentrerad innovation. De skulle kunna sponsra proof-of-concept-projekt eller medborgartävlingar med hjälp av autoresearch. Dessa organisationer har kliniska nätverk och skulle kunna hjälpa till att vägleda lovande modellresultat till kliniken. Till exempel, om en agent flaggar ett befintligt FDA-godkänt läkemedel som neuroprotektivt, skulle en intresseorganisation kunna hjälpa till att sätta upp en liten studie under korrekta protokoll. Att lyfta fram framgångar kommer att kräva att resultaten formuleras som hypoteser (inte medicinsk rådgivning) och att transparens säkerställs.
Etiska och säkerhetsmässiga skyddsmekanismer: Medborgarforskare måste använda endast avidentifierad offentlig data eller helt syntetisk data. All användning av faktiska patientjournaler kräver ett IRB-godkänt protokoll (och sannolikt patientmedgivande). Utdata från autoresearch-loopar bör tydligt märkas som hypotesgenererande. Till exempel, ”Denna modell antyder att läkemedel X kan skydda RGC – experimentell validering behövs.” Kritiska medicinska beslut måste förbli hos läkare. Risker inkluderar att oavsiktligt distribuera modeller som förutsäger personliga resultat (glaukomprogression) – uttryckliga friskrivningar är nödvändiga för att inte behandla dessa som diagnostiska verktyg. Bästa praxis för datasekretess (t.ex. att använda aggregerade eller anonymiserade fält) är ett måste.
Precedenser inom medborgarforskning: Det är inte oöverträffat att amatörer bidrar till medicinsk/neurovetenskaplig forskning. Eyewire-projektet (MIT:s crowdsourcade neuronkarteringsspel) mobiliserade volontärer för att rekonstruera retinala neurala kretsar (www.citizenscience.gov). Inom oftalmologi har icke-experter hjälpt till att annotera bilder i OpenAI-finansierade utmaningar (t.ex. märkta datamängder för ögonsjukdomar). Utanför ögonvården visar spel som Foldit (proteinfällningspussel) och Galaxy Zoo (klassificering av galaxer) att medborgardeltagande kan lösa svåra vetenskapliga problem. Dessa framgångar uppmuntrar idén att många händer (och nu AI) faktiskt kan bidra till komplex forskning. Autoresearch-metoden är som att ge varje person en AI-driven laboratorieassistent: tidigare crowdsourcade insatser använde endast människor för att analysera fasta uppgifter, medan här sätter människan målet och AI utför iterationen.

Genom att vara transparent, försiktig och samarbetande kan ett medborgarforskningsinitiativ inom autoresearch förtjäna förtroende. Det bör betona ”generering av ledtrådar, inte recept.” Om gemenskapen dokumenterar metoder och delar kod öppet, kan professionella forskare reproducera fynd. Till exempel, om någon hittar en ny kombination av RGC-skyddande faktorer, skulle de kunna publicera det i ett preprint eller varna ett laboratorium. Citeringsliknande referenser (som vi gör här) hjälper till att bygga broar: t.ex. ”Vi behandlade din lista över kandidatläkemedel i sammanhanget av kända vägar (pmc.ncbi.nlm.nih.gov).” I slutändan är detta en form av öppen vetenskap – patientdriven men vetenskapligt rigorös. Om etiska standarder upprätthålls, har sådan gräsrotsinnovation stor potential att väcka nya samarbeten och i slutändan bidra till peer-reviewed oftalmologisk forskning.

6. En konkret 90-dagars färdplan

En fokuserad, tidsbegränsad plan kan mobilisera en gemenskap av 10–50 personer (med minst en GPU eller Apple Silicon vardera) för att lansera en autoresearch-för-glaukom-insats. Här är en föreslagen fasindelad plan:

Vecka 1–2: Formation & Konfigurering
- Rekrytering och start: Skapa en kommunikationskanal (t.ex. Slack eller Discord) och ett GitHub-repo för projektet. Publicera på glaukompatientforum, biohackergrupper och AI-träffar.
- Hårdvarukontroll: Säkerställ att alla kan installera PyTorch och klona Karpathys repo (eller Maple-forken). Håll en installationssession där varje medlem kör en autoresearch-exempelloop på en leksaksdataset (t.ex. CIFAR-10-subset) för att verifiera miljön.
- Datamängdsval: Bestäm 1–3 initiala uppgifter (t.ex. OCT-klassificering, VF-progression). För varje uppgift, tilldela ett litet team att förbereda data: t.ex. ett team laddar ner RIM-ONE-bilder (github.com), ett annat hämtar GRAPE-fält (www.nature.com), ett annat samlar litteraturabstract. Teamen bör dela data 80/20 och skapa prepare.py-stubs.
- Baslinjemodeller: För varje uppgift, färdigställ en enkel train.py: t.ex. ett litet CNN för RIM-ONE, en MLP för VF. Välj utvärderingsmått (AUC, Dice, MSE).
- Inledande program.md-utkast: Varje team skriver en initial instruktionsfil (program.md) som anger målet och tillåtna ändringar. T.ex. för RIM-ONE: ”maximera glaukomdetektions-AUC”, för GRAPE: ”minimera VF MSE.”
Vecka 3–6: Första experimentcyklerna
- Kör Autoresearch-loopar: Varje undergrupp kör agenten på sin uppgift över natten (ungefär 100 5-minuters körningar). Använd en enda program.md för att starta, låt sedan deltagarna lägga till variationer (t.ex. ”program_temp1.md”).
- Samla resultat: Varje morgon granskar teamen loggarna (repot loggar automatiskt varje körning). Anteckna det bästa uppnådda måttet, modellparametrarna vid den tidpunkten och eventuella anmärkningsvärda ändringar som agenten hittade. För transparens, pusha dessa resultat till den delade GitHub (kanske i CSV eller JSON).
- Iteration & Feedback: Jämför körningar. Överträffade någon strategi baslinjen signifikant? Om ett subteam ser liten framsteg, bör de justera program.md (t.ex. vara mer aggressiva med inlärningshastighetsändringar). Varje helg, sammanfatta fynd i ett gemenskapsmöte.
- Verktyg: Använd Git för versionskontroll av program.md och kodmallarna. Överväg ett delat Google Sheet eller en wiki-tabell för topplistor (t.ex. ”OCT-AUC: bäst=0.85 av Alice; VF-RMSE: bäst=2.1 av Bob”). Detta motiverar sund konkurrens och transparens.
Vecka 7–12: Förfining och Uppsökande verksamhet
- Förfina experiment: Baserat på tidiga resultat, förfina lovande uppgifter. Till exempel, kanske RIM-ONE-klassificeraren toppade 0.90 AUC – prova nu att lägga till data augmentation eller ett något djupare nätverk. Uppmuntra förgreningar: vissa kan prova olika arkitekturer (t.ex. Vision Transformer tiny istället för CNN). Agenter kan köra flera program.md-varianter parallellt.
- Resultatsyntes: Skapa korta rapporter om varje domän (OCT, VF, etc.), som sammanfattar vad som fungerade. Till exempel, ”Vi förbättrade GCC-segmenteringens Dice från 0.60 till 0.75 genom att byta från ReLU till GELU-aktivering.” Använd lekmansspråk så att icke-experter kan följa (ordlista för ML-termer).
- Gemenskapspresentation: Vid vecka 10, skriv ett blogginlägg eller en bildlek som sammanfattar initiativet hittills. Belys eventuella icke-triviala fynd (även ”null”-resultat är användbara att dela). Bjud in feedback från onlineforum; kanske kontakta en forskare och be om kommentarer (”Vi fann att X neurala nätverksjusteringar hjälper till att klassificera tidigt glaukom – några idéer om detta stämmer överens med fysiologin?”).
- Planera uppsökande verksamhet: Identifiera ett eller två oftalmologilaboratorier eller kliniker intresserade av samarbete. Kontakta dem med de initiala resultaten. Till exempel, anslut med författarna till HYGD-datamängden eller GRAPE-teamet på Twitter/LinkedIn, nämn dina medborgarfynd. Utforska möjligheter för samvalidering (t.ex. skicka dem de tränade modellvikterna för att testa på deras data).
Efter 12 veckor: Nästa steg
- Fortsätt loopa på de mest lovande uppgifterna och nya. Till exempel, om RIM-ONE ger bra resultat, ta dig an REFUGE härnäst. Kanske bygg sammansatta modeller (ensemble av CNN).
- Formalisera en projektsida eller ett preprint som beskriver insatsen.
- Överväg att organisera en hackathon för att få in fler sinnen, eventuellt i samarbete med en glaukomvälgörenhetsorganisation.

Genom att strukturera på detta sätt kan gemenskapen göra stadiga framsteg, lära sig tillsammans och börja bygga broar till experter inom 90 dagar.

7. Risker, begränsningar och ärlig bedömning

Idén med autoresearch för glaukom är ambitiös, så den kräver ärlighet om potentiella fallgropar:

Risk för överanpassning och falska mönster: Små modeller på små, brusiga datamängder fastnar ofta vid tillfälligheter. En agent kan hitta en justering som förbättrar validerings-AUC helt enkelt genom att överanpassa sig till särdrag. Till exempel, om ett delmängd av bilder hade ett subtilt annotationsmärke, kan nätverket använda det istället för sanna glaukomfunktioner. Detta leder till ”gradient descent-lureri”. För att mildra:
- Använd alltid undanhållna testuppsättningar (helt åtskilda från all finjustering) för slutlig utvärdering.
- Begränsa komplexiteten: håll modellerna blygsamma, och se om agenten överdrivet fördjupar eller breddar nätverket bortom rimlighet.
- Om en modell uppnår nästan perfekt poäng för snabbt, ifrågasätt det.
- Använd sunt förnuft: t.ex. blanda etiketter och se om AUC sjunker till slumpmässigt (om inte, finns det läckage).
Bias och datakvalitet: Offentliga glaukomdatamängder kommer ofta från smala populationer (t.ex. ORIGA från Singapore) (pubmed.ncbi.nlm.nih.gov). En modell tränad på dessa kanske inte generaliserar. Medborgarexperiment bör notera denna begränsning. Helst bör flera datamängder (från olika kohorter) användas för att kontrollera om resultaten är robusta.
Falska ledtrådar (”Forskningsscenariot”): Att köra massor av experiment känns produktivt, men om varje förbättring endast sker på syntetiska eller triviala datamängder, kanske det inte gynnar patienter. För att undvika detta:
- Fokusera på uppgifter med klinisk relevans (t.ex. tidig upptäckt från rutinmässig OCT).
- Koppla resultat till verkliga mått när det är möjligt (t.ex. AUC för progression, inte bara liten förlustdelta).
- Prioritera tolkningsbarhet: om agenten ”hittar” en ny biomarkör, försök att säkerställa att den är logisk (t.ex. fokuserar den på kända anatomiska förändringar?).
Ingen klinisk garanti: Det måste vara kristallklart: utdata från dessa loopar är hypotesgenerering, inte medicinsk rådgivning. En modell som föreslår ett nytt läkemedel måste granskas i laboratoriet innan någon patientanvändning. Överdrivna påståenden är farliga. Märk alla delade resultat med friskrivningar: ”Detta är en AI-utforskning och inte ett peer-reviewed fynd.”
Begränsning av ”liten modell”: Mycket små nätverk har begränsad kapacitet. De kan missa komplexa mönster. Däremot ser stora modeller ofta genombrott men kräver enorma datamängder. Här accepterar vi begränsad räckvidd: hoppet är att även små förbättringar kan vägleda forskningen. Men vi bör inte förvänta oss att dessa modeller ersätter djupinlärning på massiva data. De är bäst på att snabbt prova uppenbara idéer.
Agentens trovärdighet: Agenten (t.ex. GPT-4) kan hallucinera eller avvika. Det är viktigt att resultaten är reproducerbara: efter en agentkörning bör en människa kontrollera vilka ändringar som behölls och köra om träningen för att bekräfta måttet. Håll agenten ärlig genom att inkludera uttalanden i program.md som ”acceptera endast faktiska förbättringar i utvärderingsmåttet”.

Trots dessa utmaningar är den viktigaste skyddsåtgärden transparens och kritisk uppföljning. Dokumentera allt. När en modell visar ett mönster, verifiera det. Om många medborgarforskare ser samma anomali (t.ex. alla modeller med hög AUC för en OCT-uppgift betonar näshinnan), stärker det fallet. Målet är att påskynda fasen för idégenerering, inte att undvika noggrann vetenskap därefter.

Slutsats

Glaukom är en komplex, tyst blindsjukdom med många ouppfyllda forskningsbehov – från att skydda nervceller till att återställa synen. Samtidigt har AI demokratiserat experiment: en person med en GPU och viss beslutsamhet kan köra automatiserade hyperparameter-sökningar som skulle ta team veckor manuellt. Karpathys autoresearch-ramverk ger i huvudsak varje medborgare en AI-laboratorieassistent. Genom att skriva tydliga mål på hög nivå i Markdown kan samhällsforskare låta en agent bearbeta produkter och gå direkt till lovande ledtrådar.

Vi har beskrivit hur detta kan göras i praktiken: identifiera glaukom-ML-uppgifter, välja data (fundus- och OCT-bilder, synfält, molekylära datamängder), definiera modeller och mått, och använda programinstruktioner för att vägleda sökningen. Vi skissade en 90-dagars färdplan för gemenskapen och noterade broar till kliniker för att säkerställa att värdefulla resultat kan informera verklig glaukomvetenskap. Tillvägagångssättet är i hög grad ”medborgarforskning”: att öppna upp vetenskapliga upptäcktsverktyg på ett tillgängligt sätt, samtidigt som det fortfarande förlitar sig på expertövervakning där det behövs.

Citat: Vi har refererat till de senaste resurserna inom både glaukomforskning och AI. Nyckelfakta (sjukdomsprevalens, hälften odiagnostiserade (physionet.org)), lovande terapier (CNTF-implantat (pmc.ncbi.nlm.nih.gov), genredigering (pmc.ncbi.nlm.nih.gov)), och tvivelaktiga fallgropar (AI i bildbehandling (pmc.ncbi.nlm.nih.gov)) är förankrade i aktuell litteratur. Autoresearch i sig beskrivs i Karpathys genomgång (medium.com) och översikt (www.theneuron.ai). Dessa bör ge trovärdighet åt den vision som presenteras här.

I slutet av det hela hoppas vi att läsaren känner sig bemyndigad: om du är patient, vårdgivare eller en passionerad hobbyist, kan du vara en del av att driva glaukomforskningen framåt. Verktygen och datan finns, problemen är tydliga, och med koordination och en AI-agent kan vi påskynda lärandet. Som med all forskning kommer resan att ha falska starter, men även misslyckanden lär oss något – ofta styr de mänskliga sinnena mot rätt tillvägagångssätt. Med vidöppna ögon för både möjligheterna och fallgroparna, skulle medborgarlett autoresearch kunna bli ett kraftfullt komplement till traditionell glaukomvetenskap.

Börja här

Det enklaste sättet att doppa tårna i autoresearch för glaukom idag: Kör en liten klassificering på ORIGA fundusbilder.

Skaffa data: Ladda ner ORIGA-light-datamängden (650 retinala fundusbilder märkta normal vs glaukom) (pubmed.ncbi.nlm.nih.gov). Dela upp ~80% träning / 20% validering.
Initial modell: Använd eller anpassa exempelskriptet från [karpathy/autoresearch] för bildklassificering. Till exempel, en bit kod för att ladda ORIGA-bilder och träna ett litet CNN (2–3 konvolutionslager) för att skilja glaukom från frisk.
Skriv program.md: Skriv i text att målet är att ”maximera validerings-AUC för glaukomdetektion”, och instruera agenten att den får justera modelldjup, inlärningshastighet, etc. Till exempel:

Mål: Maximera AUC på glaukom vs normal för ORIGA-datamängden.

Agenten ska försöka justera storlekar på konvolutionslager, antal filter och inlärningshastighet. Varje försök är 5 minuters träning. Om validerings-AUC förbättras, behåll ändringen. Upprepa.
Kör loopen: Starta autoresearch (pekas den mot din prepare.py, train.py och program.md). Låt den köras i flera timmar eller över natten på din RTX 3060. Den kommer att utföra ~100 experiment automatiskt.
Kontrollera resultat: Granska konsolen eller loggen för att se den bästa uppnådda validerings-AUC (bör vara >0.8 om allt går bra). Du har nu en modell och ett träningsskript som AI-agenten förfinade.

Detta enkla helgexperiment ger dig redan förstahandserfarenhet av att bygga en ML-pipeline utan att skriva ny kod för hand. Dokumentera vad du försökte och dela din program.md och dina resultat med gemenskapen. Varje liten framgång (AUC-ökningar, intressanta nätverksförändringar) är en byggsten. Du instruerar bokstavligen en AI att forska om ditt valda glaukomproblem – och genom att göra det lär du dig både glaukomdatavetenskap och får hopp om att göra skillnad i att förstå eller behandla synförlust.

Lycka till! Håll frågor och fynd open source, och kom ihåg: detta är forsknings-leksaksverktyg, inte medicinsk rådgivning. Kontrollera dina körningar noggrant och njut av upptäcktsresan.

**`

Öppna ögon: Hur Karpathys Autoresearch-ramverk kan demokratisera glaukomforskning — En ritning för patientledd, AI-driven upptäckt inom synrestaurering