Augen weit offen: Wie Karpathys Autoresearch-Framework die Glaukomforschung demokratisieren könnte

Einführung

Glaukom ist eine chronische Optikusneuropathie, die fortschreitend die retinalen Ganglienzellen (RGCs) zerstört und zu irreversiblem Sehverlust führt. Es betrifft Millionen Menschen weltweit – schätzungsweise 64,3 Millionen Menschen im Jahr 2013, wobei ein Anstieg auf über 110 Millionen bis 2040 prognostiziert wird (physionet.org). Besorgniserregend ist, dass etwa die Hälfte aller Fälle undiagnostiziert bleibt, bis der Sehverlust bereits eingesetzt hat (physionet.org). Die traditionelle Glaukombehandlung konzentriert sich auf die Senkung des intraokularen Drucks (IOD) durch Medikamente oder Operationen, aber diese Behandlungen können Schäden nicht rückgängig machen oder Blindheit vollständig verhindern (pmc.ncbi.nlm.nih.gov) (physionet.org). Folglich besteht ein dringender Bedarf an neuen Entdeckungen in Bereichen wie Neuroprotektion, RGC-/Sehnerv-Regeneration sowie innovativen Gen- und Zelltherapien. Die akademische und pharmazeutische Forschung an diesen Grenzen ist jedoch unterfinanziert, teils weil es sich um langfristige, risikoreiche Bemühungen handelt. Gleichzeitig ermöglichen Fortschritte im Maschinellen Lernen (ML) und der Künstlichen Intelligenz (KI) neue Ansätze zur Datenanalyse und zum generativen Design.

Jüngste Arbeiten (zum Beispiel Andrej Karpathys „Autoresearch“-Projekt (www.theneuron.ai) (medium.com)) deuten darauf hin, dass KI-Agenten autonom Hunderte kleiner Experimente auf einer einzelnen GPU durchführen können, basierend auf einfachen übergeordneten Anweisungen. In diesem Paradigma schreibt ein Mensch eine kurze program.md, die das Forschungsziel beschreibt, und ein KI-Agent passt iterativ das Modell oder die Hyperparameter an, führt 5-minütige Trainingsläufe durch, behält erfolgreiche Änderungen bei und verwirft andere (medium.com) (www.theneuron.ai). Über Nacht kann diese Schleife etwa 100 Experimente durchführen und den Architektur- und Parameterraum ohne manuelles Codieren erkunden.

Dieser Artikel untersucht, wie Karpathys Autoresearch-Framework auf die Glaukomforschung von motivierten Patienten, Pflegekräften, Bürgerwissenschaftlern und Open-Source-Entwicklern angewendet werden könnte. Wir werden untererforschte Glaukomforschungsbereiche (Neuroprotektion, Regeneration usw.) beleuchten und maschinelle Lernaufgaben in jedem Bereich identifizieren, bei denen Experimente mit kleinen Modellen plausibel helfen könnten. Für jede Aufgabe schlagen wir spezifische öffentliche Datensätze, Basismodelle/-architekturen, Bewertungsmetriken vor und skizzieren, wie die program.md-Anweisungen des Agenten aussehen könnten. Anschließend erörtern wir praktische Schritte für eine Gemeinschaft, um solche Experimente einzurichten und zu teilen, einschließlich Hardwareüberlegungen, Datenvorbereitung und Kollaborationsplattformen. Wir untersuchen den spezifischen Kontext von Sehrestaurations-Therapien und ob Autoresearch-ähnliche Schleifen die Optimierung neuronaler Prothesen oder anderer Interventionen beschleunigen könnten. Schließlich behandeln wir, wie von Bürgern generierte Hypothesen validiert und an Kliniker weitergeleitet werden könnten, und legen einen konkreten 90-Tage-Fahrplan für den Start einer patientengeführten Autoresearch-Initiative dar – einschließlich der Vermeidung von Fallstricken des „Forschungstheaters“ und der Sicherstellung echter Wirkung. Durchweg zitieren wir aktuelle Quellen zur Glaukomforschung und KI in der Vision, um einen ausgewogenen, realistischen und zugänglichen Leitfaden zu bieten.

1. Die Glaukom-Forschungslandschaft und ungedeckte Bedürfnisse

Die Glaukomforschung erstreckt sich über mehrere Fronten – vom Verständnis der Krankheitsmechanismen bis zur Entwicklung neuer Therapien für Neuroprotektion und Sehrestauration. Viele vielversprechende Bereiche sind unterfinanziert:

Neuroprotektion: Interventionen, die RGCs vor dem Absterben schützen (unabhängig vom IOD). Beispiele sind neurotrophe Faktoren und metabolische Unterstützung. Zum Beispiel haben Implantate, die Ciliar-Neurotropher-Faktor (CNTF) freisetzen, in frühen Studien Potenzial gezeigt (pmc.ncbi.nlm.nih.gov), und andere Moleküle wie Nervenwachstumsfaktor und Citicolin werden untersucht (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Diese sind jedoch noch keine Standardversorgung, und es bedarf weiterer Arbeit, um sie für Patienten nutzbar zu machen. Ein Review von 2025 warnt, dass neuroprotektive Glaukomtherapien eine „zukünftige Behandlung“ sind, die weiterer Studien bedarf (pmc.ncbi.nlm.nih.gov), was einen ungedeckten Bedarf widerspiegelt.
RGC-Regeneration & Sehnerv-Regeneration: Sobald RGCs und ihre Axone absterben, gibt es in der aktuellen Medizin keine Möglichkeit, dies rückgängig zu machen. Einige Tierstudien nutzen Gentherapien, um RGCs neu zu programmieren oder das Nachwachsen zu stimulieren. Zum Beispiel hat die CRISPR-basierte Repression von PTEN (einem negativen Wachstumsregulator) das Axon-Nachwachsen in neuronalen Zellen von Ratten gefördert (pmc.ncbi.nlm.nih.gov), und Experimente, die PTEN und SOCS3 gleichzeitig deletierten, führten zu einer anhaltenden Regeneration des Sehnervs bei Mäusen (pmc.ncbi.nlm.nih.gov). Diese Durchbrüche bleiben jedoch in Labormodellen. Die zugrundeliegende Biologie – z.B. wie die Netzhautentwicklung rekapituliert oder Wachstumshemmer umgangen werden können – ist komplex. Es besteht eine enorme Nachfrage nach Modalitäten (kleine Moleküle, Gene, Biomaterialien), die das Überleben von RGCs oder das Nachwachsen von Axonen stimulieren könnten, aber der Fortschritt zu Humanstudien ist langsam.
Gen- und Zelltherapien: Neue Technologien wie CRISPR, virale Vektoren und aus Stammzellen gewonnene RGCs sind vielversprechend für das Glaukom. Strategien umfassen die Genbearbeitung zur Reduzierung des IOD (z.B. durch gezielte Beeinflussung der Kammerwasserproduktion) oder zur Modulation neurodegenerativer Signalwege (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Stammzellen könnten (theoretisch) verlorene Zellen des Trabekelmaschenwerks oder RGCs ersetzen und schützende Faktoren sezernieren (pubmed.ncbi.nlm.nih.gov). Frühe Arbeiten haben gezeigt, dass bestimmte Transkriptionsfaktoren (z.B. Oct4-Sox2-Klf4) Nicht-RGCs in RGC-ähnliche Neuronen bei Mäusen umprogrammieren können (wodurch das Sehvermögen bei Sehnervenverletzungen wiederhergestellt wird) (pmc.ncbi.nlm.nih.gov). Doch diese Ansätze stehen vor Sicherheits- und Lieferherausforderungen, bevor sie Patienten erreichen. Mehrere neuere Reviews heben die Gentherapie als eine spannende, aber noch nicht klinische Grenze für das Glaukom hervor (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Zusammenfassend lässt sich sagen, dass molekulare und zelluläre Innovationen voranschreiten, aber Ressourcen und Studiendaten begrenzt sind – was eine Gelegenheit für computergestützte Erkundungen schafft (z.B. das Design optimaler viraler Konstrukte oder die Vorhersage effektiver Gen-Edits).
Elektrische und optogenetische Stimulation zur Sehrestauration: Für Patienten mit fortgeschrittenem Glaukom (oder kombinierten Erkrankungen wie Retinitis pigmentosa) zielen künstliche Sehprothesen oder optogenetische Therapien darauf ab, geschädigte RGCs zu umgehen. Netzhautimplantate (epiretinale oder subretinale Elektrodenarrays) und kortikale Implantate haben künstliche Wahrnehmungen („Phosphene“) erzeugt, aber die Auflösung ist gering und die Ergebnisse variieren stark. Ein aktuelles Review von 2025 über KI bei visuellen Prothesen stellt fest, dass „KI-Algorithmen vielversprechend bei der Optimierung der prothetischen Vision sind, insbesondere durch verbesserte Extraktion der Bildsalienz und Stimulationsstrategien“, obwohl die meisten Studien bisher Simulationen sind (pmc.ncbi.nlm.nih.gov). Mit anderen Worten, maschinelles Lernen kann dabei helfen, Kamerabilder in Stimulationsmuster umzuwandeln, die angesichts der Grenzen des Geräts am informativsten sind. Optogenetik (Überempfindlichmachung überlebender Netzhautzellen für Licht) und transkorneale elektrische Stimulation (TES)-Pulse werden ebenfalls für glaukombedingten Sehverlust erprobt. All diese Bereiche erfordern eine umfangreiche Parameterabstimmung (z.B. spatiotemporale Stimulationsmuster, Genexpressionsvektoren) – Aufgaben, die potenziell für eine autonome ML-Suche geeignet sind.
IOD-unabhängige Mechanismen: Viele Menschen verlieren weiterhin ihr Sehvermögen trotz gut kontrolliertem IOD. Faktoren wie eine beeinträchtigte okuläre Durchblutung, neurovaskuläre Dysfunktion oder metabolischer Stress im Sehnervkopf sind bekannt, aber nicht vollständig verstanden. Genetische Studien deuten auf signifikante „IOD-unabhängige“ Komponenten des Glaukomrisikos hin (pubmed.ncbi.nlm.nih.gov) (pubmed.ncbi.nlm.nih.gov). Biomarker dieser Prozesse (über den Druck hinaus) werden dringend benötigt. Auch die Hälfte der Glaukompatienten leidet an einem „Normaldruckglaukom“, was hervorhebt, dass ein hoher IOD nicht der einzige Übeltäter ist. Die Forschung an vaskulären Faktoren oder anderen Schädigungspfaden ist im Gange, aber fragmentiert. Computergestützte Modellierung oder das Mining großer Datensätze (z.B. Genom-weite Assoziationsstudien) könnten helfen, neuartige Mechanismen oder therapeutische Ziele in diesem Bereich zu identifizieren.
Biomarker-Entdeckung mittels Bildgebung und Gesichtsfeldtests: Die Früherkennung und Überwachung des Glaukoms beruhen oft auf Bildgebung (Fundusfotos, OCT) und Funktionstests (Gesichtsfelder). Fortgeschrittene Algorithmen könnten subtile Biomarker aufdecken, die menschliche Kliniker übersehen. Zum Beispiel hat Deep Learning begonnen, präperimetrische Gesichtsfeldverluste (Veränderungen, die für die Standard-Gesichtsfeldanalyse unsichtbar sind) zu erkennen (pmc.ncbi.nlm.nih.gov). Ähnlich wurde KI zur Analyse von OCT-Schichtdickenprofilen verwendet, um Glaukom vor offensichtlichen Schäden vorherzusagen. Es gibt jedoch noch keine weithin akzeptierten KI-Biomarker, die klinisch für Screening oder Risikostratifizierung verwendet werden. Engpässe bei der Computerverarbeitung sind hier der Bedarf an großen, gut gekennzeichneten Datensätzen und robusten Validierungsprotokollen (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Öffentliche Herausforderungen (REFUGE, AIROGS usw.) haben begonnen, Daten zu standardisieren, aber die Abdeckung von Frühstadien der Krankheit ist gering (pmc.ncbi.nlm.nih.gov). Eine weitere maschinengesteuerte Entdeckung multimodaler Biomarker (Kombination von OCT, Gesichtsfeldern, Genetik usw.) bleibt ein offenes Forschungsgebiet.

Wo kann Small-Model ML helfen? Viele der oben genannten Punkte beschreiben hochrangige Probleme. Die Engpässe sind oft Datenknappheit, viele interagierende Variablen und eine sich langsam entwickelnde Biologie. Wo ein Autoresearch-Agent glänzt, ist die Automatisierung kleiner Experimente auf verfügbaren Daten. Wenn beispielsweise ein bescheidener Datensatz von OCT-Scans mit und ohne frühes Glaukom vorhanden ist, kann ein Bürgerwissenschaftler eine schnelle Modelltestschleife einrichten, um herauszufinden, welche Architektur sie am besten unterscheidet. Ebenso könnten kleine Transformer auf Genomik oder Literatur neuartige Gen- oder Wirkstoffkandidaten vorschlagen. Der Schlüssel liegt in der Konzentration auf enge Aufgaben mit definierten Metriken (Klassifizierungsgenauigkeit, AUC, Verlust) und einer schnellen Iteration. Bereiche mit begrenzten öffentlichen Daten (z.B. TES-Parameter oder neuartige Gen-Cocktails) könnten auf synthetische Daten oder Proxys zurückgreifen. Im nächsten Abschnitt ordnen wir spezifische ML-Aufgaben im Glaukom dem Autoresearch-Ansatz zu.

2. Zuordnung von Autoresearch zu Glaukom-Problemen

Karpathys Autoresearch-Framework ist domänenunabhängig: Es kann Experimente in jeder ML-Aufgabe durchführen, die von einer prepare.py und train.py mit einer klar definierten Bewertungsmetrik bereitgestellt wird. Wir identifizieren mehrere konkrete Glaukom-bezogene Aufgaben und spezifizieren, wie ein Agent jede davon angehen könnte. Jeder Anwendungsfall unten umfasst: einen öffentlich verfügbaren Datensatz (falls möglich), ein Startmodell oder eine Architektur, eine Bewertungsmetrik und eine Skizze der program.md-Anweisungen.

2.1 OCT-Bildanalyse (Strukturelle Detektion und Segmentierung)

Aufgabe: Früherkennung von Glaukom aus OCT-Scans. Die OCT-Bildgebung liefert Querschnittsansichten der Netzhautschichten. Eine Verdünnung der retinalen Nervenfaserschicht (RNFL) und des Ganglienzellkomplexes (GCC) kann dem Gesichtsfeldverlust vorausgehen. Wir können dies als Klassifizierungsaufgabe (Glaukom vs. gesund) oder Regression (z.B. Ausgabe der RNFL-Dicke) behandeln.
- Datensatz: Eine kürzlich veröffentlichte Version, SYN-OCT (www.nature.com), ist ein synthetischer Datensatz von 200.000 zirkumpapillären OCT-Bildern (100k Glaukom, 100k normal), die von GANs generiert wurden. Jedes Bild hat zugehörige RNFL-Dicken- und Segmentierungsmasken. Diese sind öffentlich auf Zenodo verfügbar (www.nature.com). (Obwohl synthetisch, sind sie statistisch validiert, um reale OCTs nachzuahmen (www.nature.com).) Alternativ könnte man den OCT-DL-Datensatz (www.nature.com) (2064 Bilder verschiedener Netzhauterkrankungen) oder kleinere klinische OCT-Sammlungen verwenden.
- Modell: Beginnen Sie mit einem kleinen Convolutional Neural Network (CNN). Für die Klassifizierung kann ein Modell mit ca. 3–5 Faltungsschichten (z.B. analog zu einem verkürzten ResNet-18 oder einem benutzerdefinierten kleinen CNN) funktionieren. Für die Segmentierung von RNFL/GCC ist ein Encoder-Decoder wie ein kleines U-Net (mit Tiefe 3–4) geeignet. Die anfängliche train.py könnte ein einfaches CNN und eine Trainingsschleife mit Standard-Hyperparametern implementieren.
- Metrik: Bei der Glaukomklassifizierung auf OCT verwenden Sie AUC (Area Under ROC) oder Genauigkeit auf einem Validierungs-Split. Für die Segmentierung verwenden Sie den Dice-Koeffizienten oder IoU auf RNFL-Schichtmasken (SYN-OCT liefert Masken (www.nature.com)).
- Beispiel program.md:
  
  „Ziel: Maximierung der Validierungs-AUC für die Glaukom-Erkennung aus OCT-Bildern. Erlaubte Modifikationen: Anzahl der Faltungsschichten, Filteranzahl, Kernelgrößen, Aktivierungsfunktionen, Lernrate, Wahl des Optimierers, Batch-Größe usw. Nach jedem 5-minütigen Trainingslauf die AUC auf dem gehaltenen Set bewerten. Wenn die AUC sich verbessert, die Änderung beibehalten; anderfalls rückgängig machen.“ (medium.com) (www.theneuron.ai). Der Agent wird somit Variationen (z.B. Hinzufügen von Schichten, Anpassen der Breite, Wechsel von Adam zu RMSProp) versuchen, um die AUC zu verbessern.
Aufgabe: RNFL-/GCC-Schichtsegmentierung. Die präzise Messung der RNFL-Dicke ist entscheidend. Mithilfe synthetischer OCT-Scans (mit bereitgestellten Segmentierungen) oder beliebiger realer OCTs mit annotierten Schichten kann dies als Segmentierungsaufgabe formuliert werden.
- Datensatz: SYN-OCT liefert erneut RNFL-Segmentierungsmasken (www.nature.com). Eine weitere Quelle: einige akademische Gruppen haben OCT-B-Scans beschriftet (oft jedoch proprietär). Bei Bedarf könnte man generische OCT-Segmentierungs-Datensätze (wie die Duke Retina OCT Fluid Challenge (www.nature.com)) als Proxys verwenden.
- Modell: Ein kleines U-Net-ähnliches CNN, möglicherweise sogar von einem Baseline-Modell kanalbeschnitten. Z.B. 3 Down/Up-Blöcke, beginnend mit 16 Filtern. Dem Agenten ist es erlaubt, Tiefe und Breite zu ändern.
- Metrik: Dice-Koeffizient oder mittleres IoU der vorhergesagten RNFL-Maske vs. Wahrheit.
- Beispiel program.md:
  
  „Ziel: Maximierung des Dice-Koeffizienten für die RNFL-Schichtsegmentierung auf OCT. Das Basismodell ist ein 3-Block-U-Net. Der Agent darf die Anzahl der Filter variieren, Dropout hinzufügen oder die Lernrate ändern. Jede Testreihe wird 5 Minuten lang trainiert und der Dice-Koeffizient auf dem Validierungsset berechnet. Beibehalten von Modifikationen, die den Dice-Koeffizienten erhöhen.“
Aufgabe: Fortschrittsvorhersage mittels serieller OCT. Mithilfe sequenzieller OCT-Daten die zukünftige Verdünnung vorhersagen. Wenn longitudinale OCT-Daten vorhanden sind (z.B. UK Biobank oder private Klinikdaten), könnte das Ziel darin bestehen, die RNFL-Veränderung oder ein binäres „schneller Progressor“-Label vorherzusagen.
- Datensatz: Öffentliche longitudinale OCT-Daten speziell für Glaukom sind selten. Man könnte jedoch SR-OCT-Challenge-Daten (oder SYN-OCT-Bilder mit simulierter Progression) umfunktionieren, um diese Aufgabe zu simulieren. Alternativ könnten UK Biobank OCT-Bilder verwendet werden (obwohl nicht glaukom-spezifisch und für Bürgerwissenschaftler nicht leicht zugänglich). Zur Veranschaulichung nehmen wir an, ein Datensatz von OCT-Scans zu Zeitpunkt 0 und Zeitpunkt 1 mit Labels ist verfügbar.
- Modell: Ein siamesisches oder verkettetes CNN, das Paare von OCT-Bildern aufnimmt und die Wahrscheinlichkeit der Progression ausgibt. Beginnen Sie mit der Eingabe von Zeitpunkt 0 und der Vorhersage des Zeitpunkt 1-Schwellenwerts.
- Metrik: AUC für die binäre Klassifizierung der Progression, oder MSE, wenn versucht wird, die Dickenänderung vorherzusagen.
- Beispiel program.md:
  
  „Ziel: Augen identifizieren, die einen schnellen RNFL-Verlust erleiden werden. Input: Baseline-OCT; Label: >5μm Verdünnung nach 1 Jahr. Wir verwenden einen CNN-Klassifikator. Erlaubte Änderungen umfassen Netzwerktiefe, Lernrate, Augmentierung. Verwenden Sie Validierungs-AUC als Metrik.“

2.2 Gesichtsfeld (GF)-Analyse

Aufgabe: Vorhersage zukünftigen Gesichtsfeldverlusts. Angesichts eines oder mehrerer früherer Humphrey-Gesichtsfeldtests (punktuelle Empfindlichkeitswerte) die zukünftige Empfindlichkeit oder die Fortschrittsrate vorhersagen. Dies ist ein klassisches Glaukom-Managementproblem.
- Datensatz: Der GRAPE-Datensatz (www.nature.com) (2023) bietet eine longitudinale Nachbeobachtung von 263 Augen (1115 Datensätze) mit GF- und Fundus-/OCT-Daten, einschließlich annotierter Progression. Eine weitere Ressource ist die US-amerikanische UH Visual Field (UWHVF)-Längsschnittdatenbank (www.nature.com) (28.943 Gesichtsfelder von vielen Patienten). GRAPE ist jedoch gut kuratiert und öffentlich mit GF und Ergebnissen.
- Modell: Ein einfacher Ansatz ist ein Feed-Forward-Netzwerk (vollständig verbunden) auf den 54-Punkt-GF-Daten (oder Komprimierung zu globalen Indizes). Für die Fortschrittsvorhersage kann ein kleineres MLP oder 1D-CNN die 54 oder 30 Eingabemerkmale verarbeiten. Eine andere Idee: das 8×8-Gitter als winziges Bild behandeln und ein kleines CNN verwenden (z.B. 3×3-Kernel).
- Metrik: Wenn zukünftige mittlere Abweichung oder Punktwerte vorhergesagt werden, verwenden Sie MSE (niedriger ist besser). Wenn „schneller Progressor vs. nicht“ klassifiziert wird, verwenden Sie AUC.
- Beispiel program.md:
  
  „Ziel: Minimierung des MSE des vorhergesagten Gesichtsfeldes. Alternativ, Maximierung des AUC zur Klassifizierung von schnellem Verlust. Basismodell: 2-Schicht-Perzeptron auf 54 GF-Werten. Agent kann verborgene Größe, Aktivierung anpassen oder Dropout hinzufügen. Nach jedem 5-minütigen Training die Metrik auf dem Validierungsset berechnen.“
Aufgabe: Schnelle Progressoren identifizieren. Anhand einer Reihe vergangener GFs klassifizieren, welche Augen schnell Sehkraft verlieren werden.
- Datensatz: Verwenden Sie den annotierten Progressionsstatus in GRAPE (www.nature.com) (dort wurden Augen als progressiert markiert). Oder nehmen Sie UWHVF und kennzeichnen Sie das obere Dezil des MD-Verlusts als „schnell“.
- Modell: Könnte Merkmale aus zwei oder drei aufeinanderfolgenden Feldern (oder Differenzen) in ein kleines Netzwerk zusammenführen. Eventuell auch Baseline-IOD und Alter, falls verfügbar.
- Metrik: AUC zur Unterscheidung von schnellen vs. langsamen Progressoren.
- Beispiel program.md:
  
  „Ziel: Maximierung des AUC zur Vorhersage einer schnellen Gesichtsfeldprogression. Eingabemerkmale: Zweitordnungsdifferenzen von GF1 & GF2, plus IOD. Verwenden Sie ein kleines FC-Netzwerk. Der Agent kann Schichtbreiten, Lernrate, Batch-Größe optimieren.“

2.3 Medikamenten-/Verbindungs-Screening (In Silico Kandidatenentdeckung)

Aufgabe: Vorhersage potenzieller neuroprotektiver/regenerativer Verbindungen. ML nutzen, um kleine Moleküle zu finden, die RGCs schützen oder die Regeneration fördern könnten. Zum Beispiel zeigen viele bekannte Verbindungen (wie Nicotinamid, Valproat) neuroprotektive Wirkungen. Wir können Modelle trainieren, um Chemotypen zu erkennen, die mit bekannter Wirksamkeit korrelieren, und dann den chemischen Raum durchsuchen.
- Datensatz: Dies ist aufgrund des Mangels an einer dedizierten Glaukom-Medikamentendatenbank eine Herausforderung. Als Proxy könnte man MolNet-Datensätze (z.B. HIV-Hemmung, BBB-Permeabilität) oder beliebige Bioaktivitätsdatensätze verwenden. Alternativ eine Liste von Verbindungen kompilieren, die in Sehnervenverletzungsmodellen getestet wurden (aus der Literaturrecherche), mit Labels. In der Praxis könnte man mit einer generischeren Eigenschaft beginnen (z.B. Blut-Hirn-Schranken-Penetrationsdaten aus MoleculeNet).
- Modell: Ein kleiner Transformer oder Graph Neural Network auf SMILES-Strings. Ein Transformer (wie GPT-2-Stil) mit wenigen Schichten oder ein einfaches Graph Convolutional Net (z.B. 3 GCN-Schichten) kann in der train.py implementiert werden.
- Metrik: Wenn als Klassifikation (aktiv vs. inaktiv) behandelt, verwenden Sie AUROC. Wenn Affinität oder logP vorhergesagt wird, verwenden Sie RMSE.
- Beispiel program.md:
  
  „Ziel: Maximierung der Klassifizierungs-ROC-AUC zur Identifizierung neuroprotektiver Verbindungen. Basismodell: kleiner Transformer auf SMILES. Agent kann Anzahl der Transformer-Schichten, Dropout, Lernrate anpassen oder alternative Featurierungen (z.B. Fingerprint-Input) verwenden. Nach jedem 5-minütigen Lauf die AUC auf Validierungsmolekülen bewerten.“

(Hinweis: Da öffentliche Daten für tatsächliche Neuroprotektion knapp sind, ist diese Aufgabe eher illustrativ. In der Praxis könnten Bürgerwissenschaftler einen benutzerdefinierten Datensatz bekannter neuroprotektiver Verbindungen vs. Kontrollen erstellen und diesem Muster folgen.)

2.4 Modellierung Genregulatorischer Netzwerke (Einzelzell-RGC)

Aufgabe: Regenerative TF-Kombinationen identifizieren. Einzelzell-RNA-seq-Daten von RGCs verwenden, um transkriptionelle Muster des regenerativen Wachstums zu lernen. Zum Beispiel regenerieren einige RGC-Subtypen besser als andere. Ein ML-Modell könnte ein Label „regenerativer Zustand“ vorhersagen, und man könnte untersuchen, welche Transkriptionsfaktoren wichtig sind.
- Datensatz: Eine Studie aus dem Jahr 2018 liefert RGC-Einzelzell-Transkriptome (GEO-Zugangsnummer GSE115404) (pmc.ncbi.nlm.nih.gov), die verschiedene RGC-Subtypen identifizieren. Wir können diesen Datensatz (oder einen Teil davon) verwenden, wobei Zellen nach Subtyp oder nach experimenteller Bedingung (z.B. vor vs. nach Verletzung) gekennzeichnet sind.
- Modell: Ein kleiner Transformer oder MLP, der auf Genexpressionsvektoren arbeitet (jede Zelle hat Tausende von Gen-Abundanzen). Praktisch würde man die Top ~500 Gene vorwählen (z.B. hochvariable Gene). Die train.py könnte einen Mini-Transformer (z.B. 4 Schichten, Embedding 256) oder ein einfaches 2-Schicht-Perzeptron implementieren.
- Metrik: Bei unüberwachter Analyse könnte man den Silhouetten-Score verwenden, aber einfacher ist es, wenn Zellen als „regenerierend“ vs. „nicht regenerierend“ gekennzeichnet sind (falls Labels existieren), die Klassifizierungsgenauigkeit/AUC zu verwenden.
- Beispiel program.md:
  
  „Ziel: Ein Modell entwickeln, das regenerierende von nicht-regenerierenden RGC-Genexpressionsprofilen unterscheidet. Beginnen Sie mit einem 3-Schicht-Transformer. Agent kann Embed-Dimension, Tiefe, Lernrate ändern oder Batchnorm hinzufügen. Validierungsgenauigkeit optimieren.“ Nach den Läufen könnten die Aufmerksamkeitsgewichte oder gelernten Merkmale des besten Modells wichtige Transkriptionsfaktoren für Experimente hervorheben.

2.5 Elektrophysiologische Signalanalyse

Aufgabe: Subklinische RGC-Dysfunktion mittels ERG erkennen. Pattern-Elektroretinogramm (pERG) oder andere elektrophysiologische Signale können die RGC-Gesundheit aufzeigen. Zum Beispiel können verzögerte oder reduzierte ERG-Antworten Gesichtsfelddefekten vorausgehen. Wir können versuchen, Signale als „normal“ vs. „Glaukom-Verdacht“ zu klassifizieren.
- Datensatz: Öffentliche ERG-Datensätze bei Glaukom sind selten. Man könnte einen Surrogat verwenden: einen Datensatz von Tieren (Netzhautdegeneration) oder synthetische Signale. Falls nicht verfügbar, könnten sogar generische 1D-elektrophysiologische Datensätze (z.B. EKG) die Pipeline veranschaulichen.
- Modell: Ein 1D-CNN (z.B. 2 Faltungsschichten, gefolgt von FC) auf den Zeitreihendaten. Alternativ kann ein LSTM verwendet werden, wenn die Sequenzen länger sind.
- Metrik: Genauigkeit oder AUC bei der Klassifizierung einer subtilen Dysfunktion vs. normal. Möglicherweise F1, wenn die Klassen unausgewogen sind.
- Beispiel program.md:
  
  „Ziel: Maximierung der Validierungsgenauigkeit für die Klassifizierung von ERG-Spuren (gesund vs. frühes Glaukommuster). Verwenden Sie ein 1D-CNN. Agent darf Filtergrößen, Stride anpassen oder eine rekurrenten Schicht hinzufügen. Behalten Sie alle Änderungen bei, die die Genauigkeit verbessern.“

2.6 Literatur-Mining (Hypothesengenerierung)

Aufgabe: Ein kleines Sprachmodell feintunen, um neue Erkenntnisse zu gewinnen. Mit Tausenden von Glaukomforschungsarbeiten in PubMed könnte ein ML-Agent nach Verbindungen suchen oder Kandidaten umfunktionieren. Zum Beispiel neuroprotektive Signalwege mit bestehenden Medikamenten verknüpfen. Dies kann als Sprachmodellierungsproblem oder als Abrufproblem behandelt werden.
- Datensatz: Erstellen Sie ein Korpus glaukomspezifischer Abstracts (z.B. PubMed-Suche nach „glaucoma gene therapy“ etc.). Über NCBI-APIs können ca. 10.000 Abstracts heruntergeladen werden. Für einen einfacheren Start verwenden Sie öffentlich zugängliche PMC-Glaukomartikel.
- Modell: Ein kleines Transformer-Sprachmodell (z.B. 6-Schicht-GPT-2) oder sogar ein feinabgestimmtes BERT. Für Autoresearch-Zwecke würden wir wahrscheinlich ein kausales Modell (GPT) auf dem Text feintunen.
- Metrik: Standardmäßig wird der Validierungsverlust (Perplexität) optimiert. Bei einer Klassifikation (z.B. gegebenes Abstract, Label für ein Medikament oder einen Signalweg vorhersagen) verwenden Sie Genauigkeit/AUC.
- Beispiel program.md:
  
  „Ziel: Minimierung der Validierungsperplexität eines kleinen GPT-2 auf dem Glaukom-Literaturkorpus. Verwenden Sie 5-minütige Fine-Tuning-Läufe. Agent kann Anzahl der Schichten, verborgene Größe, Lernrate, Kontextlänge variieren. Änderungen beibehalten, die die Perplexität reduzieren.“ Einmal trainiert, kann dieses Modell dazu aufgefordert werden, Hypothesen zu generieren (z.B. „Top-Kandidaten für wiederverwendbare Medikamente zur Neuroprotektion bei Glaukom: ...“).

In jedem dieser Bereiche ist der Schlüssel, dass eine einzelne GPU und kurze Läufe viele Versuche ermöglichen. Wir erwarten nicht, dass der Agent neue Algorithmen von Grund auf neu codiert, sondern ein vorhandenes Trainingsskript optimiert. Die menschliche Rolle besteht darin, program.md zu schreiben, um die Suche des Agenten auf ein glaukom-spezifisches Ziel auszurichten (wie die Maximierung der AUC auf einem Fundus-Datensatz oder die Vorhersage der RNFL-Dicke). Die obigen Beispiele veranschaulichen, wie train.py initial eingerichtet werden könnte und wie program.md die Verbesserung einer gewählten Metrik anstößt (medium.com) (www.theneuron.ai).

3. Praktischer Leitfaden zur Umsetzung von Bürgerwissenschaft

Wie können motivierte Personen mit begrenzten Ressourcen (z.B. einer einzelnen RTX 3060 oder einem MacBook mit Apple Silicon) Autoresearch tatsächlich auf Glaukomprobleme anwenden? Die gute Nachricht ist, dass Karpathys Repo klein ist und Anleitungen zur Skalierung nach unten enthält. Hier sind die wichtigsten Schritte und Tipps:

Umgebungseinrichtung: Klonen Sie das karpathy/autoresearch-Repo. Sie benötigen ein modernes Python und idealerweise Zugang zu einem LLM (der Agent selbst ist typischerweise ein vortrainiertes LLM wie GPT-4 oder Claude, das den Code bearbeitet). Für GPUs installieren Sie PyTorch mit der entsprechenden CUDA-/Metal-Unterstützung. Für Apple Silicon verwenden Sie einen der Forks (z.B. MLX) oder einen PyTorch-Build für M1/M2 (siehe die Dokumentation des Repos). Unter Windows/Linux mit einer 3060 oder 4070 funktioniert normales PyTorch CUDA.
Konfiguration für kleine GPUs: Das Standard-Autoresearch verwendet ein GPT-ähnliches Modell mit ~50 Millionen Parametern und Sequenzen der Länge 1024 (medium.com), was ressourcenintensiv sein kann. Für eine GTX 3060 (12 GB) sollten Sie die Modellgröße und Sequenzlänge reduzieren. In train.py setzen Sie MAX_SEQ_LEN=512 oder sogar 256. Reduzieren Sie die Anzahl der Schichten und die Breite (das mittlere GPT hat ~8 Schichten; versuchen Sie 4 Schichten, 256 Breite). Die Anweisungen in der Community erwähnen das Absenken von „DEPTH“, „WIDTH“ usw. Sie können auch den Speicher des Optimierers reduzieren, indem Sie kleinere Batch-Größen verwenden (sogar 16 oder 8). Der Agent kann diese Parameter immer noch mutieren, aber ein kleinerer Startpunkt stellt sicher, dass die Läufe <5 Minuten dauern. Das autoresearch GitHub README und die Problemdiskussionen weisen auch darauf hin, dass Mac M1-Chips aufgrund begrenzten Speichers kürzere Sequenzen (z.B. 256 Token) verarbeiten können; eine ähnliche Skalierung gilt für jede GPU.
Glaukom-Daten vorbereiten: Die Daten für jede Aufgabe müssen geladen und aufgeteilt werden. Öffentliche Glaukom-Datensätze umfassen:
- Fundus-Datensätze: ORIGA(-light) (650 gelabelte Bilder (pubmed.ncbi.nlm.nih.gov)), RIM-ONE DL (485 Bilder mit Cup-/Disc-Segmentierungen (github.com)), REFUGE (über 1200 Bilder, mit Trainings-/Test-Splits (refuge.grand-challenge.org)), der neue Hillel Yaffe Glaukom-Datensatz (HYGD) mit ~1200 Fundusbildern und hochwertigen Labels (physionet.org). EyePACS/AIROGS (Zehntausende von Netzhautbildern) ist ebenfalls nach Registrierung öffentlich zugänglich (z.B. Kaggle).
- OCT-Datensätze: SYN-OCT (200.000 synthetische B-Scans mit RNFL-Masken (www.nature.com) (www.nature.com)), OCTDL (2064 Bilder verschiedener Netzhauterkrankungen (www.nature.com)) und andere aus öffentlichen Challenges.
- Gesichtsfeld-Daten: GRAPE (263 Augen mit longitudinalem GF plus Bilder (www.nature.com)). UWHVF (28.000 GF-Tests) ist offen, wenn Sie es aus dem Repository der University of Washington herunterladen (www.nature.com). Einige Kaggle-Challenges enthalten GF-Daten.
- Elektrophysiologie: Es ist kein großer offener Glaukom-ERG-Datensatz bekannt, aber man könnte mit beliebigen zugänglichen Normal-vs.-Glaukom-Signaldaten beginnen.
- Chemische/Gen-Daten: Standarddatensätze wie MoleculeNet (für Verbindungen) oder GEO (für Gene) können umfunktioniert werden. Z.B. GSE115404 Rohdaten herunterladen (über GEO-Abfrage (pmc.ncbi.nlm.nih.gov)) und zu Expressionsmatrizen vorverarbeiten.
Für jeden benötigen Sie eine prepare.py, die Daten lädt und train_set, val_set sowie eine Bewertungsfunktion definiert. Karpathys Vorlage erwartet, dass prepare.py Trainingsdaten und eine Bewertungsroutine ausgibt, die einen Verlust oder eine Metrik zurückgibt. Zum Beispiel könnte prepare.py für RIM-ONE Bilder und CC, die als Glaukom gekennzeichnet sind, laden, in Trainings-/Validierungsordner aufteilen und eine Funktion zur Berechnung der Validierungs-AUC definieren. BEZIEHEN SIE SICH auf [14†L71-L79] für die Struktur von RIM-ONE.
Daten für kleine Skalen anpassen: Wenn Datensätze groß sind (wie EyePACS oder SYN-OCT), können Sie Stichproben nehmen, um einen „winzigen“ Datensatz von ein paar hundert Beispielen zu erstellen (das Modell kann immer noch etwas Wertvolles aus einem kleinen Korpus lernen). Das Autoresearch-Repo erwähnt sogar die Verwendung von winzigen Datensätzen im „TinyStories“-Stil, um sie auf winziger Hardware auszuführen. Wählen Sie zum Beispiel 500 Bilder aus ORIGA (ausgewogen) oder 1000 GF-Felder aus GRAPE. Ebenso könnte man für die Sprache einen Unterdatensatz von 5.000 Abstracts aus PubMed-Glaukomarbeiten verwenden. Der Schlüssel ist ein fester Datensatz, den der Agent iteriert. Stellen Sie sicher, dass Sie die Daten vorab mischen und im Verhältnis 80/20 aufteilen, damit jeder 5-minütige Lauf denselben Trainings-/Validierungs-Split sieht.
Strategien für program.md schreiben: Die Community sollte verschiedene program.md-Prompts (wie „Rezepte“) in der Versionskontrolle teilen. Jede Datei könnte eine Forschungsstrategie kodieren. Zum Beispiel könnte eine Strategie besagen „Netzwerktiefe erhöhen, wenn Tiefe <6, sonst Lernrate reduzieren“, während eine andere besagen könnte „Fokus auf Datenaugmentierungsänderungen“. Im Laufe der Zeit können Gruppen vergleichen, welche Strategien auf Leaderboards bessere Metriken ergaben. Eine gute program.md enthält ein Ziel (z.B. AUC maximieren oder Validierungsverlust minimieren) und Hinweise auf erlaubte Mutationen (Schichten, Filter, LR). Das LLM des Agenten verwendet diese Anweisungen, um Code-Änderungen vorzuschlagen. Halten Sie die Metriken standardisiert (z.B. immer AUC für Glaukom-Klassifizierungsaufgaben berichten), damit Experimente vergleichbar sind.
Zusammenarbeit in der Gemeinschaft: Um diese Bemühungen skalierbar zu machen, sollte sich eine Bürgerwissenschafts-Community organisieren:
- Geteilte Experimentenprotokolle: Veröffentlichen Sie die Ergebnisse jedes Experiments (z.B. „Lauf #27 von Programm-V1 erreichte Val AUC=0,82 mit Breite=4, Tiefe=3“).
- Standardisierte Metriken: Definieren Sie Metriken für jede Aufgabe: z.B. „OCT-Glaukom-AUC“, „GF-Progression-AUC“, „Attribut-AUC“ usw. Ein gemeinsames Leaderboard (ähnlich dem val_bpb von autoresearch) kann die Top-Scores verfolgen. Zum Beispiel könnten Slack oder GitHub Actions wöchentlich die beste AUC jedes Agenten sammeln.
- Versionskontrolliertes program.md: Alle program.md-Dateien in einem GitHub-Repo hosten. Mitglieder können forken und neue Strategien vorschlagen (über Pull-Requests), während historische Versionen beibehalten werden. Auf diese Weise können mehrere Ansätze parallel getestet werden (z.B. „program_word2vec.md“ vs. „program_transformer.md“).
- Daten- und Code-Sharing: Verwenden Sie öffentliche Repositories oder Notebooks für Datenvorbereitungsskripte und teilen Sie die vom Agenten gefundenen train.py-Modifikationen (zur Reproduktion in Standard-ML-Frameworks). Das Verlinken zu den Originaldatensatzquellen (Kaggle, PhysioNet, Zenodo) stellt sicher, dass andere dieselben Daten herunterladen können.

Durch die Senkung technischer Barrieren (der Agent bearbeitet Code, der Benutzer bearbeitet Anweisungen in Markdown) und durch die Koordinierung der Bemühungen (geteilte Protokolle, Leaderboards) können Bürgerwissenschaftler gemeinsam Hyperparameter-/Modellauswahlen für diese Glaukom-ML-Probleme erkunden. Im Wesentlichen investieren sie menschliche Kreativität in die Definition von Zielen und lassen den Agenten die mühsame Arbeit von 100 Experimenten über Nacht pro Ziel erledigen (medium.com) (www.theneuron.ai).

4. Speziell die Sehrestauration

Die Sehrestauration – das Wiedererlangen des Sehvermögens nach einer Schädigung – ist ein besonders spannendes Ziel für die KI-gesteuerte Optimierung. Aktuelle KI-gestützte Forschung zur Sehrestauration umfasst Netzhautimplantate, kortikale Prothesen und Optogenetik. So könnte eine Autoresearch-Schleife hier passen:

Optimierung der Kodierung von Sehprothesen: Moderne Prothesen (Netzhautimplantate oder Kameras, die mit Elektrodenarrays verbunden sind) versuchen, ein Kamerabild in elektrische Stimulationsmuster zu übersetzen, die das Gehirn als Sehen interpretiert. Die Herausforderung besteht darin, dass die „Bandbreite“ der Elektroden sehr begrenzt ist (oft nur Dutzende bis wenige hundert Punkte) (pmc.ncbi.nlm.nih.gov). Ein ML-Modell (ein kleines CNN oder Transformer) kann darauf trainiert werden, Eingangsbilder auf ideale Stimulationskarten abzubilden, aber die besten Hyperparameter oder Architekturen für diese Übersetzung sind unbekannt. Ein Autoresearch-Agent könnte in Stunden 100 Variationen eines „neuronalen Encoder“-Modells durchführen. Zum Beispiel könnte ein Datensatz von Bild-zu-Stimulations-Paaren (entweder simulierte Phosphene oder Patientendaten) eingerichtet und der Agent den Encoder-Netzwerk optimieren lassen, um einen Rekonstruktionsverlust zu minimieren oder eine Nützlichkeitsmetrik (Kontrastintegrität, Erkennungsgenauigkeit) zu maximieren. Der Agent könnte versuchen, Aufmerksamkeits-Schichten hinzuzufügen, Faltungsgrößen zu ändern oder Lernraten abzustimmen. Über viele Läufe könnte man kleine Netzwerke finden, die salientere prothetische Ausgaben liefern. Einige neuere Arbeiten verwenden bereits KI, um visuelle Salienz für Prothesen zu extrahieren (pmc.ncbi.nlm.nih.gov); Autoresearch könnte die Abstimmung solcher Pipelines automatisieren.
Optogenetische Stimulationsmuster: Bei der optogenetischen Therapie werden überlebende RGCs oder andere Netzhautzellen lichtempfindlich gemacht (durch eingeführte Gene). Die Eingaben einer Kamera müssen dann in Lichtimpulse kodiert werden. Auch hier kann ein ML-Modell Muster steuern. Man könnte eine „Spielaufgabe“ formulieren: Ein kleines Netzwerk transformiert ein Kamerabild in eine Lichtintensitätskarte (gleiche Dimensionen wie Zellen). Das Ziel des Agenten könnte sein, eine Metrik der effektiven Stimulation zu maximieren (z.B. die Aktivierung von Zielzellen in einer simulierten Netzhaut zu maximieren). Jede Testreihe könnte eine schnelle Simulation der Antwort durchführen. Über Iterationen hinweg könnte der Agent Pulsdauern oder räumliche Filter erkunden. Zum Beispiel könnte die Anpassung der Aggressivität eines Hochpassfilters am Kameraeingang für einige Muster vorteilhaft sein. Der Punkt ist, dass viele analoge Parameter (Filterkerne, Nichtlinearität, zeitliche Pulskodierung) automatisch durchsucht werden können.
Puls-Muster-Optimierung (TES und Implantate): Selbst nicht-maschinelle Lernbereiche können von der schnellen Suche profitieren. Zum Beispiel fand eine aktuelle Studie (Xie et al. 2025), dass kürzere Pulsdauern und das Einfügen von Interphasenintervallen die kortikale Aktivierung bei Netzhautimplantaten signifikant verbesserten (pmc.ncbi.nlm.nih.gov). Dies deutet darauf hin, dass der Parameterraum der elektrischen Stimulation starke, nicht-intuitive Effekte hat. Ein Autoresearch-Agent könnte die Parameter des Stimulationsprotokolls (Phasendauer, Frequenz, Intervall) als „Netzwerkparameter“ behandeln und viele kleine Experimente (simuliert oder empirisch) durchführen, um die kortikale Antwort zu maximieren. Zum Beispiel könnte ein vereinfachtes elektrisches Modell (oder aufgezeichnete evozierte Potenzialdaten) in prepare.py eingerichtet und der Agent die train.py-Parameter wie das Puls-Timing optimieren lassen, um eine definierte Antwortamplitude zu maximieren. Dies ähnelt der Automatisierung dessen, was erfahrene Neurowissenschaftler manuell tun.
Design von viralen Vektoren und Gerüstgeometrie: Bei einer explorativeren Therapieentwicklung könnte der schleifenbasierte Ansatz des Agenten auch biomedizinische Optimierungen angehen. Zum Beispiel könnte das Design von AAV-Virushüllen oder Promotoren, um RGCs zu targetieren, durch kleine prädiktive Modelle (z.B. logistische Regression auf Sequenzmerkmalen) geleitet werden. Autoresearch könnte wiederholt versuchen, ein Modell zu modifizieren, das Tropismus oder Expression vorhersagt (trainiert an z.B. kleinen viralen Bibliotheken), um diese Vorhersage zu verbessern. Ähnlich könnte, wenn jemand Simulationscode für das Wachstum in Nervengerüsten (für die Sehnervenreparatur) hat, der Agent geometrische Parameter anpassen, um die Axonverlängerung zu maximieren. Dies sind fortgeschrittene Anwendungen, passen aber konzeptionell – der „Agent als Experimentator“ könnte Modell- oder Simulationsparameter für verbesserte Ergebnisse anpassen.

Zusammenfassend lässt sich sagen, dass jeder Aspekt einer Sehprothese oder -restauration, der auf parametrisierten Algorithmen basiert, durch schnelle Iterationen verbessert werden könnte. Wichtig ist, dass wir für viele dieser Aufgaben im Allgemeinen nur Simulationsdaten haben; tatsächliche Patiententests Hunderter von Varianten sind nicht möglich. Aber Autoresearch kann in silico arbeiten, um die besten Kandidaten für spätere klinische Tests vorzuschlagen. Wie im Prothesen-Review festgestellt, ist „die zuverlässige Erzeugung von Phosphenen an präzisen Orten… eine wichtige Herausforderung“ und „KI-gesteuerte Modelle haben Potenzial gezeigt“ in diesem Bereich (pmc.ncbi.nlm.nih.gov). Autoresearch könnte die Suche nach den besten Konfigurationen dieser KI-Modelle erheblich beschleunigen.

5. Brücke zur klinischen Wirkung

Komputationelle Ergebnisse müssen letztendlich wieder mit der realen Glaukomforschung und -versorgung verbunden werden. Wie können Ideen, die durch patientengeführte Autoresearch generiert wurden, validiert und vorangebracht werden?

Zusammenarbeit mit Forschungsgruppen: Bürgerwissenschaftler sollten etablierte Glaukom-Forschungskonsortien kontaktieren. Beispiele hierfür sind das International Glaucoma Genetics Consortium (IGGC) und das NEIGHBORHOOD Konsortium, die genetische und klinische Daten zusammenführen (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Erkenntnisse aus Autoresearch (z.B. ein neuartiges Kandidatengen oder eine Hypothese zur Medikamenten-Repurposing) könnten mit solchen Gruppen für experimentelle Folgeuntersuchungen geteilt werden. Zellkulturlabore (z.B. an großen Universitäten) oder Schlaf-Forscher könnten Verbindungen auf die Überlebensfähigkeit von RGCs testen. Akademische Kliniker können jeden Biomarker oder Bildklassifikator mit ihren Patientendaten unter IRB-Zulassung korrelieren. Der Beginn eines Dialogs zwischen Hackathon-ähnlichen Gruppen und formalen Laboren ist entscheidend.
Einbindung von Patientenvertretungsorganisationen: Organisationen wie die Glaucoma Research Foundation oder die Cure Glaucoma Foundation finanzieren oft patientenzentrierte Innovationen. Sie könnten Proof-of-Concept-Projekte oder Bürgerwettbewerbe unter Verwendung von Autoresearch sponsern. Diese Organisationen verfügen über Netzwerke von Klinikern und könnten dazu beitragen, vielversprechende Modellansätze in die Klinik zu leiten. Wenn beispielsweise ein Agent ein bereits von der FDA zugelassenes Medikament als neuroprotektiv einstuft, könnte eine Patientenvertretungsgruppe bei der Einrichtung einer kleinen Studie unter entsprechenden Protokollen helfen. Um Erfolge hervorzuheben, müssen die Ergebnisse als Hypothesen (nicht als medizinische Beratung) formuliert und Transparenz gewährleistet werden.
Ethische und sicherheitstechnische Leitplanken: Bürgerwissenschaftler müssen ausschließlich deanonymisierte öffentliche Daten oder vollständig synthetische Daten verwenden. Jede Verwendung von tatsächlichen Patientenakten erfordert ein IRB-genehmigtes Protokoll (und wahrscheinlich die Zustimmung des Patienten). Die Ergebnisse von Autoresearch-Schleifen sollten klar als Hypothesen-generierend gekennzeichnet sein. Zum Beispiel: „Dieses Modell deutet darauf hin, dass Medikament X RGCs schützen könnte – experimentelle Validierung erforderlich.“ Kritische medizinische Entscheidungen müssen bei den Ärzten bleiben. Risiken umfassen die unbeabsichtigte Verbreitung von Modellen, die persönliche Ergebnisse vorhersagen (Glaukomprogression) – explizite Haftungsausschlüsse sind notwendig, um diese nicht als Diagnosewerkzeuge zu behandeln. Best Practices für den Datenschutz (z.B. die Verwendung aggregierter oder anonymisierter Felder) sind ein Muss.
Präzedenzfälle in der Bürgerwissenschaft: Es ist nicht beispiellos, dass Amateure zur medizinischen/neurowissenschaftlichen Forschung beitragen. Das Eyewire-Projekt (MITs Crowdsourcing-Spiel zur Neuronenkartierung) mobilisierte Freiwillige zur Rekonstruktion retinaler neuronaler Schaltkreise (www.citizenscience.gov). In der Augenheilkunde haben Nicht-Experten bei OpenAI-finanzierten Challenges geholfen, Bilder zu annotieren (z.B. gelabelte Datensätze für Augenkrankheiten). Außerhalb der Augenheilkunde zeigen Spiele wie Foldit (Proteinfaltungspuzzles) und Galaxy Zoo (Klassifizierung von Galaxien), dass Bürgerbeteiligung schwierige wissenschaftliche Probleme lösen kann. Diese Erfolge bestärken die Idee, dass viele Hände (und jetzt KIs) tatsächlich komplexe Forschung unterstützen können. Der Autoresearch-Ansatz ist vergleichbar damit, jedem Menschen einen KI-gestützten Laborassistenten zu geben: Frühere Crowdsourcing-Bemühungen nutzten Menschen nur zur Analyse fester Aufgaben, während hier der Mensch das Ziel festlegt und die KI die Iteration übernimmt.

Durch Transparenz, Vorsicht und Zusammenarbeit kann eine Bürgerwissenschafts-Autoresearch-Initiative Vertrauen gewinnen. Sie sollte betonen, „Hinweise zu generieren, keine Rezepte“. Wenn die Community Methoden dokumentiert und Code offen teilt, können professionelle Forscher Ergebnisse reproduzieren. Wenn jemand zum Beispiel eine neue Kombination von RGC-schützenden Faktoren findet, könnte er diese in einem Preprint veröffentlichen oder ein Labor benachrichtigen. Zitationsähnliche Referenzen (wie wir sie hier verwenden) helfen, eine Brücke zu schlagen: z.B. „Wir haben Ihre Liste von Kandidatenmedikamenten im Kontext bekannter Signalwege behandelt (pmc.ncbi.nlm.nih.gov).“ Letztendlich ist dies eine Form von Open Science – patientengesteuert, aber wissenschaftlich rigoros. Wenn ethische Standards eingehalten werden, hat eine solche Basisinnovation großes Potenzial, neue Kooperationen zu initiieren und letztendlich in die peer-reviewte ophthalmologische Forschung einzumünden.

6. Ein konkreter 90-Tage-Fahrplan

Ein fokussierter, zeitlich begrenzter Plan kann eine Gemeinschaft von 10–50 Personen (mit jeweils mindestens einer GPU oder Apple Silicon) mobilisieren, um eine Autoresearch-für-Glaukom-Initiative zu starten. Hier ist ein vorgeschlagener Phasenplan:

Woche 1–2: Gründung & Einrichtung
- Rekrutierung und Auftakt: Erstellen Sie einen Kommunikationskanal (z.B. Slack oder Discord) und ein GitHub-Repo für das Projekt. Bewerben Sie es in Glaukom-Patientenforen, Biohacker-Gruppen und bei KI-Meetups.
- Hardware-Check: Stellen Sie sicher, dass jeder PyTorch installieren und Karpathys Repo (oder den Maple-Fork) klonen kann. Halten Sie eine Einrichtungssitzung ab, bei der jedes Mitglied eine Beispiel-Autoresearch-Schleife an einem Spielzeugdatensatz (z.B. CIFAR-10-Subset) ausführt, um die Umgebung zu überprüfen.
- Datensatz-Auswahl: Entscheiden Sie sich für 1–3 erste Aufgaben (z.B. OCT-Klassifizierung, GF-Progression). Für jede Aufgabe weisen Sie einem kleinen Team die Datenvorbereitung zu: z.B. ein Team lädt RIM-ONE-Bilder herunter (github.com), ein anderes ruft GRAPE-Felder ab (www.nature.com), ein anderes sammelt Literabstrakt. Die Teams sollten Daten 80/20 aufteilen und prepare.py-Stubs erstellen.
- Basismodelle: Für jede Aufgabe ein einfaches train.py festlegen: z.B. ein kleines CNN für RIM-ONE, ein MLP für GFs. Bewertungsmetriken auswählen (AUC, Dice, MSE).
- Erste program.md-Entwürfe: Jedes Team schreibt eine erste Anweisungsdatei (program.md), die das Ziel und die erlaubten Änderungen angibt. Z.B. für RIM-ONE: „Glaukom-Erkennungs-AUC maximieren“, für GRAPE: „GF-MSE minimieren.“
Woche 3–6: Erste Experimentierzyklen
- Autoresearch-Schleifen ausführen: Jede Untergruppe lässt den Agenten über Nacht an ihrer Aufgabe laufen (ungefähr 100 5-minütige Läufe). Verwenden Sie zunächst eine einzelne program.md, lassen Sie die Teilnehmer dann Variationen hinzufügen (z.B. „program_temp1.md“).
- Ergebnisse sammeln: Jeden Morgen überprüfen die Teams die Protokolle (das Repo protokolliert jeden Lauf automatisch). Notieren Sie die beste erreichte Metrik, die Modellparameter zu diesem Zeitpunkt und alle bemerkenswerten Änderungen, die der Agent gefunden hat. Um die Transparenz zu gewährleisten, laden Sie diese Ergebnisse auf das gemeinsame GitHub hoch (vielleicht im CSV- oder JSON-Format).
- Iteration & Feedback: Vergleichen Sie die Läufe. Hat eine Strategie die Baseline signifikant übertroffen? Wenn ein Unterteam wenig Fortschritt sieht, sollte es program.md anpassen (z.B. aggressiver mit Lernratenänderungen sein). Jedes Wochenende die Ergebnisse in einem Community-Meeting zusammenfassen.
- Werkzeuge: Verwenden Sie Git für die Versionskontrolle von program.md und den Code-Templates. Erwägen Sie eine gemeinsame Google-Tabelle oder Wiki-Tabelle für Leaderboards (z.B. „OCT-AUC: best=0,85 von Alice; GF-RMSE: best=2,1 von Bob“). Dies motiviert gesunden Wettbewerb und Transparenz.
Woche 7–12: Verfeinerung und Öffentlichkeitsarbeit
- Experimente verfeinern: Basierend auf den ersten Ergebnissen vielversprechende Aufgaben verfeinern. Zum Beispiel, wenn der RIM-ONE-Klassifikator über 0,90 AUC lag – versuchen Sie jetzt, Datenaugmentierung oder ein etwas tieferes Netz hinzuzufügen. Verzweigungen fördern: Einige können verschiedene Architekturen ausprobieren (z.B. Vision Transformer Tiny anstelle von CNN). Agenten können mehrere program.md-Varianten parallel ausführen.
- Resultat-Synthese: Erstellen Sie kurze Berichte zu jedem Bereich (OCT, GF usw.) und fassen Sie zusammen, was funktioniert hat. Zum Beispiel: „Wir haben die GCC-Segmentierungs-Dice von 0,60 auf 0,75 verbessert, indem wir von ReLU zu GELU-Aktivierung gewechselt haben.“ Verwenden Sie eine einfache Sprache, damit auch Nicht-Experten folgen können (Glossar für ML-Begriffe).
- Community-Präsentation: Bis Woche 10 einen Blogbeitrag oder eine Präsentation erstellen, die die Initiative bisher zusammenfasst. Heben Sie alle nicht-trivialen Ergebnisse hervor (auch „Nullergebnisse“ sind nützlich). Bitten Sie um Feedback in Online-Foren; vielleicht kontaktieren Sie einen Forscher und bitten um Kommentare („Wir haben festgestellt, dass X-neurale Netzwerk-Optimierungen bei der Klassifizierung von frühem Glaukom helfen – haben Sie Ideen, ob dies mit der Physiologie übereinstimmt?“).
- Outreach planen: Identifizieren Sie ein oder zwei augenheilkundliche Labore oder Kliniker, die an einer Zusammenarbeit interessiert sind. Kontaktieren Sie sie mit den ersten Ergebnissen. Zum Beispiel verbinden Sie sich mit den Autoren des HYGD-Datensatzes oder dem GRAPE-Team auf Twitter/LinkedIn und erwähnen Sie Ihre Bürgerforschungsergebnisse. Erkunden Sie Möglichkeiten zur Co-Validierung (z.B. senden Sie ihnen die trainierten Modellgewichte, um sie an ihren Daten zu testen).
Nach 12 Wochen: Nächste Schritte
- Führen Sie die Schleifen für die vielversprechendsten und neue Aufgaben fort. Wenn zum Beispiel RIM-ONE gute Ergebnisse liefert, gehen Sie als Nächstes REFUGE an. Vielleicht bauen Sie zusammengesetzte Modelle (Ensemble von CNNs).
- Offizielle Projektseite oder Preprint erstellen, die die Bemühungen beschreibt.
- Erwägen Sie die Organisation eines Hackathons, um mehr Köpfe einzubeziehen, möglicherweise in Zusammenarbeit mit einer Glaukom-Wohltätigkeitsorganisation.

Durch diese Strukturierung kann die Gemeinschaft stetige Fortschritte machen, gemeinsam lernen und innerhalb von 90 Tagen die Verbindung zu Experten herstellen.

7. Risiken, Einschränkungen & ehrliche Bewertung

Die Idee von Autoresearch für Glaukom ist ehrgeizig, daher erfordert sie Ehrlichkeit in Bezug auf potenzielle Fallstricke:

Risiko von Overfitting und scheinbaren Mustern: Kleine Modelle auf kleinen, verrauschten Datensätzen neigen oft dazu, Zufälligkeiten zu erkennen. Ein Agent könnte eine Anpassung finden, die die Validierungs-AUC verbessert, indem er sich einfach an Eigenheiten überanpasst. Wenn zum Beispiel ein Teil der Bilder eine subtile Annotationsmarkierung hatte, könnte das Netzwerk diese anstelle echter Glaukom-Merkmale verwenden. Dies führt zu „Gradientenabstiegs-Täuschung“. Zur Minderung:
- Verwenden Sie immer separate Testsätze (vollständig getrennt von jeder Abstimmung) für die endgültige Bewertung.
- Begrenzen Sie die Komplexität: Halten Sie Modelle bescheiden und achten Sie darauf, ob der Agent das Netz übermäßig und unbegründet vertieft oder verbreitert.
- Wenn ein Modell zu schnell einen nahezu perfekten Score erreicht, hinterfragen Sie dies.
- Verwenden Sie Plausibilitätsprüfungen: z.B. Labels durcheinanderbringen und prüfen, ob die AUC auf Zufallsniveau fällt (falls nicht, gibt es Datenlecks).
Bias und Datenqualität: Öffentliche Glaukom-Datensätze stammen oft aus engen Populationen (z.B. ORIGA aus Singapur) (pubmed.ncbi.nlm.nih.gov). Ein darauf abgestimmtes Modell generalisiert möglicherweise nicht. Bürger-Experimente sollten diese Einschränkung beachten. Idealerweise werden mehrere Datensätze (aus verschiedenen Kohorten) verwendet, um die Robustheit der Ergebnisse zu überprüfen.
Falsche Fährten („Forschungstheater“): Das Durchführen unzähliger Experimente fühlt sich produktiv an, aber wenn jede Verbesserung nur auf synthetischen oder trivialen Datensätzen basiert, nützt dies den Patienten möglicherweise nichts. Um dies zu vermeiden:
- Konzentrieren Sie sich auf Aufgaben mit klinischer Relevanz (z.B. Früherkennung aus der routinemäßigen OCT).
- Verknüpfen Sie Ergebnisse wenn möglich mit realen Messungen (z.B. AUC für Progression, nicht nur kleine Verlustdelta).
- Priorisieren Sie die Interpretierbarkeit: Wenn der Agent einen neuen Biomarker „findet“, versuchen Sie sicherzustellen, dass er sinnvoll ist (z.B. konzentriert er sich auf bekannte anatomische Veränderungen?).
Keine klinische Garantie: Es muss glasklar sein: Die Ergebnisse dieser Schleifen sind Hypothesen-Generierung, nicht medizinische Beratung. Ein Modell, das ein neues Medikament vorschlägt, muss im Labor überprüft werden, bevor es bei Patienten angewendet wird. Überzogene Behauptungen sind gefährlich. Kennzeichnen Sie alle geteilten Ergebnisse mit Haftungsausschlüssen: „Dies ist eine KI-Exploration und kein peer-reviewtes Ergebnis.“
„Small Model“-Einschränkung: Sehr kleine Netzwerke haben eine begrenzte Kapazität. Sie könnten komplexe Muster übersehen. Im Gegensatz dazu führen große Modelle oft zu Durchbrüchen, erfordern aber riesige Datenmengen. Hier akzeptieren wir einen begrenzten Umfang: Die Hoffnung ist, dass selbst kleine Verbesserungen die Forschung leiten können. Wir sollten jedoch nicht erwarten, dass diese Modelle Deep Learning auf riesigen Datenmengen ersetzen. Sie eignen sich am besten, um offensichtliche Ideen schnell auszuprobieren.
Vertrauenswürdigkeit des Agenten: Der Agent (z.B. GPT-4) könnte halluzinieren oder abweichen. Es ist wichtig, dass die Ergebnisse reproduzierbar sind: Nach einem Agentenlauf sollte ein Mensch überprüfen, welche Änderungen beibehalten wurden, und das Training erneut durchführen, um die Metrik zu bestätigen. Halten Sie den Agenten ehrlich, indem Sie Anweisungen in program.md aufnehmen wie „akzeptieren Sie nur tatsächliche Verbesserungen der Bewertungsmetrik“.

Trotz dieser Herausforderungen ist der wichtigste Schutz Transparenz und kritische Nachverfolgung. Dokumentieren Sie alles. Wenn ein Modell ein Muster zeigt, überprüfen Sie es. Wenn viele Bürgerwissenschaftler dieselbe Anomalie feststellen (z.B. alle Modelle mit hoher AUC für eine OCT-Aufgabe betonen die nasale Netzhautregion), stärkt dies den Fall. Ziel ist es, die Phase der Ideengenerierung zu beschleunigen, nicht die sorgfältige Wissenschaft danach zu vermeiden.

Fazit

Glaukom ist eine komplexe, schleichende Augenkrankheit, die zu Blindheit führen kann und viele ungedeckte Forschungsbedürfnisse hat – vom Schutz der Neuronen bis zur Wiederherstellung des Sehvermögens. Gleichzeitig hat KI die Experimente demokratisiert: Eine Person mit einer GPU und etwas Entschlossenheit kann automatisierte Hyperparameter-Suchen durchführen, die Teams manuell Wochen kosten würden. Karpathys Autoresearch-Framework stellt im Wesentlichen jedem Bürger einen KI-Laborassistenten zur Verfügung. Durch das Schreiben klarer, übergeordneter Ziele in Markdown können Gemeinschaftsforscher einen Agenten Produkte durcharbeiten lassen und direkt zu vielversprechenden Ansätzen gelangen.

Wir haben dargelegt, wie dies in der Praxis geschehen kann: Identifizierung von Glaukom-ML-Aufgaben, Auswahl von Daten (Fundus- und OCT-Bildern, Gesichtsfeldern, molekularen Datensätzen), Definition von Modellen und Metriken sowie Verwendung von Programmanweisungen zur Steuerung der Suche. Wir skizzierten einen 90-Tage-Fahrplan für die Gemeinschaft und wiesen auf Brücken zu Klinikern hin, um sicherzustellen, dass wertvolle Ergebnisse die tatsächliche Glaukom-Wissenschaft informieren können. Der Ansatz ist sehr „Bürgerwissenschaft“: Wissenschaftliche Entdeckungswerkzeuge auf zugängliche Weise öffnen, während die Expertenaufsicht dort, wo es darauf ankommt, weiterhin wichtig ist.

Zitierungen: Wir haben die neuesten Ressourcen sowohl in der Glaukomforschung als auch in der KI referenziert. Schlüssel fakten (Krankheitsprävalenz, die Hälfte undiagnostiziert (physionet.org)), vielversprechende Therapien (CNTF-Implantate (pmc.ncbi.nlm.nih.gov), Genbearbeitung (pmc.ncbi.nlm.nih.gov)), und schattige Fallstricke (KI in der Bildgebung (pmc.ncbi.nlm.nih.gov)) sind in der aktuellen Literatur verankert. Autoresearch selbst wird in Karpathys Walkthrough (medium.com) und Review (www.theneuron.ai) beschrieben. Diese sollten der hier skizzierten Vision Glaubwürdigkeit verleihen.

Am Ende hoffen wir, dass der Leser sich ermutigt fühlt: Wenn Sie Patient, Pflegekraft oder leidenschaftlicher Hobbyist sind, könnten Sie dazu beitragen, die Glaukomforschung voranzutreiben. Die Werkzeuge und Daten existieren, die Probleme sind klar, und mit Koordination und einem KI-Agenten können wir das Lernen beschleunigen. Wie bei jeder Forschung wird der Weg Fehlstarts haben, aber selbst Misserfolge lehren uns etwas – oft lenken sie menschliche Köpfe zu den richtigen Ansätzen. Mit weit geöffneten Augen für sowohl die Möglichkeiten als auch die Fallstricke könnte die patientengeführte Autoresearch eine mächtige Ergänzung zur traditionellen Glaukomwissenschaft werden.

Hier starten

Der einfachste Weg, noch heute in Autoresearch für Glaukom einzusteigen: Führen Sie eine kleine Klassifizierung auf ORIGA-Fundusbildern durch.

Daten beschaffen: Laden Sie den ORIGA-light-Datensatz herunter (650 Netzhaut-Fundusbilder, beschriftet als normal vs. Glaukom) (pubmed.ncbi.nlm.nih.gov). Teilen Sie ihn in ~80% Trainings- / 20% Validierungsdaten auf.
Initiales Modell: Verwenden oder adaptieren Sie das Beispielskript aus karpathy/autoresearch für die Bildklassifizierung. Zum Beispiel ein kleines Stück Code, um ORIGA-Bilder zu laden und ein kleines CNN (2–3 Faltungsschichten) zu trainieren, um Glaukom vs. gesund zu unterscheiden.
program.md schreiben: Legen Sie im Text das Ziel fest: „Maximierung der Validierungs-AUC für die Glaukom-Erkennung“, und weisen Sie den Agenten an, Modell-Tiefe, Lernrate usw. anzupassen. Zum Beispiel:

Goal: Maximize AUC on glaucoma vs normal for ORIGA dataset.

The agent should try adjusting convolutional layer sizes, number of filters, and learning rate. Each trial is 5 minutes of training. If the validation AUC improves, keep the change. Repeat.

Schleife starten: Starten Sie Autoresearch (weisen Sie es auf Ihre prepare.py, train.py und program.md). Lassen Sie es auf Ihrer RTX 3060 mehrere Stunden oder über Nacht laufen. Es wird automatisch ~100 Experimente durchführen.
Ergebnisse prüfen: Überprüfen Sie die Konsole oder das Protokoll, um die beste erreichte Validierungs-AUC zu sehen (sollte >0,8 sein, wenn alles gut geht). Sie haben nun ein Modell und ein Trainingsskript, das der KI-Agent verfeinert hat.

Dieses einfache Wochenendexperiment gibt Ihnen bereits aus erster Hand Erfahrung im Aufbau einer ML-Pipeline, ohne neuen Code von Hand zu schreiben. Dokumentieren Sie, was Sie versucht haben, und teilen Sie Ihr program.md und Ihre Ergebnisse mit der Community. Jeder kleine Erfolg (AUC-Verbesserungen, interessante Netzwerkänderungen) ist ein Baustein. Sie weisen buchstäblich eine KI an, Forschung an Ihrem Glaukom-Problem der Wahl zu betreiben – und dabei lernen Sie sowohl Glaukom-Datenwissenschaft als auch haben die Hoffnung, einen Unterschied im Verständnis oder der Behandlung von Sehverlust zu bewirken.

Viel Erfolg! Halten Sie Fragen und Erkenntnisse quelloffen, und denken Sie daran: Dies sind Forschungswerkzeuge, keine medizinische Beratung. Überprüfen Sie Ihre Läufe sorgfältig und genießen Sie den Prozess der Entdeckung.

**`

Augen weit offen: Wie Karpathys Autoresearch-Framework die Glaukomforschung demokratisieren könnte – Ein Blueprint für patientengeführte, KI-gesteuerte Entdeckungen bei der Wiederherstellung des Sehvermögens