Les yeux grands ouverts : Comment le cadre d'Autorecherche de Karpathy pourrait démocratiser la recherche sur le glaucome
Introduction
Le glaucome est une neuropathie optique chronique qui détruit progressivement les cellules ganglionnaires de la rétine (CGR) et entraîne une perte de vision irréversible. Il touche des millions de personnes dans le monde – environ 64,3 millions en 2013, avec une projection à plus de 110 millions d'ici 2040 (physionet.org). Il est préoccupant de constater qu'environ la moitié des cas restent non diagnostiqués jusqu'à ce que la perte de vision ait déjà commencé (physionet.org). Le traitement traditionnel du glaucome vise à abaisser la pression intraoculaire (PIO) par des médicaments ou la chirurgie, mais ces traitements ne peuvent ni inverser les dommages ni prévenir entièrement la cécité (pmc.ncbi.nlm.nih.gov) (physionet.org). Par conséquent, il existe un besoin urgent de nouvelles découvertes dans des domaines tels que la neuroprotection, la régénération des CGR/du nerf optique, et les thérapies géniques et cellulaires innovantes. Cependant, la recherche académique et pharmaceutique sur ces fronts reste sous-financée, en partie parce qu'il s'agit d'efforts à long terme et à haut risque. Parallèlement, les avancées en apprentissage automatique (ML) et en intelligence artificielle (IA) ouvrent de nouvelles approches pour l'analyse des données et la conception générative.
Des travaux récents (par exemple, le projet « autorecherche » d'Andrej Karpathy (www.theneuron.ai) (medium.com)) suggèrent que des agents IA peuvent exécuter de manière autonome des centaines de petites expériences sur un seul GPU en se basant uniquement sur de simples instructions de haut niveau. Dans ce paradigme, un humain rédige un court fichier program.md décrivant l'objectif de recherche, et un agent IA ajuste itérativement le modèle ou les hyperparamètres, effectuant des exécutions d'entraînement de 5 minutes, conservant les modifications réussies et rejetant les autres (medium.com) (www.theneuron.ai). Durant la nuit, cette boucle peut réaliser de l'ordre de 100 expériences, explorant l'architecture et l'espace des paramètres sans codage manuel.
Cet article explore comment le cadre d'autorecherche de Karpathy pourrait être appliqué à la recherche sur le glaucome par des patients motivés, des soignants, des scientifiques citoyens et des développeurs open source. Nous passerons en revue les domaines de recherche sur le glaucome sous-explorés (neuroprotection, régénération, etc.) et identifierons les tâches d'apprentissage automatique dans chaque domaine où l'expérimentation avec de petits modèles pourrait plausiblement aider. Pour chaque tâche, nous suggérerons des ensembles de données publics spécifiques, des modèles/architectures de référence, des métriques d'évaluation, et décrirons à quoi pourraient ressembler les instructions program.md de l'agent. Nous discuterons ensuite des étapes pratiques pour qu'une communauté puisse mettre en place et partager de telles expériences, y compris les considérations matérielles, la préparation des données et les plateformes de collaboration. Nous examinerons le contexte spécifique des thérapies de restauration de la vision et si les boucles de type autorecherche pourraient accélérer l'optimisation des prothèses neurales ou d'autres interventions. Enfin, nous aborderons la manière dont les hypothèses générées par les citoyens pourraient être validées et transmises aux cliniciens, et présenterons une feuille de route concrète de 90 jours pour le lancement d'une initiative d'autorecherche dirigée par les patients – y compris comment éviter les pièges du « théâtre de la recherche » et garantir un impact réel. Tout au long de l'article, nous citerons des sources actuelles sur la recherche sur le glaucome et l'IA en vision, visant à fournir un guide équilibré, réaliste et accessible.
1. Le paysage de la recherche sur le glaucome et les besoins non satisfaits
La recherche sur le glaucome s'étend sur plusieurs fronts – de la compréhension des mécanismes de la maladie au développement de nouvelles thérapies pour la neuroprotection et la restauration de la vision. De nombreux domaines prometteurs sont sous-financés :
-
Neuroprotection : Interventions qui protègent les CGR de la mort (indépendamment de la PIO). Des exemples incluent les facteurs neurotrophiques et le soutien métabolique. Par exemple, des implants libérant le facteur neurotrophique ciliaire (CNTF) ont montré un potentiel lors des premiers essais (pmc.ncbi.nlm.nih.gov), et d'autres molécules comme le facteur de croissance nerveuse et la citicoline sont en cours d'étude (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Cependant, ces traitements ne sont pas encore la norme de soins, et des travaux supplémentaires sont nécessaires pour les transposer aux patients. Une revue de 2025 avertit que les thérapies neuroprotectrices contre le glaucome sont un « traitement futur » nécessitant d'autres essais (pmc.ncbi.nlm.nih.gov), ce qui reflète un besoin non satisfait.
-
Régénération des CGR et du nerf optique : Une fois que les CGR et leurs axones meurent, la médecine actuelle n'a aucun moyen d'inverser ce processus. Certaines études animales utilisent des thérapies géniques pour reprogrammer les CGR ou stimuler la repousse. Par exemple, la répression basée sur CRISPR de PTEN (un régulateur de croissance négatif) a favorisé la repousse axonale dans les cellules neurales de rat (pmc.ncbi.nlm.nih.gov), et des expériences de co-délétion de PTEN et SOCS3 ont entraîné une régénération soutenue du nerf optique chez la souris (pmc.ncbi.nlm.nih.gov). Cependant, ces avancées restent au stade des modèles de laboratoire. La biologie sous-jacente – par exemple, comment récapituler le développement rétinien ou contourner les inhibiteurs de croissance – est complexe. Il existe une énorme demande de modalités (petites molécules, gènes, biomatériaux) qui pourraient stimuler la survie des CGR ou la repousse axonale, mais la progression vers les essais cliniques chez l'homme est lente.
-
Thérapies géniques et cellulaires : De nouvelles technologies comme CRISPR, les vecteurs viraux et les CGR dérivées de cellules souches sont prometteuses pour le glaucome. Les stratégies incluent l'édition génique pour réduire la PIO (par exemple, cibler la production d'humeur aqueuse) ou moduler les voies neurodégénératives (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Les cellules souches pourraient (théoriquement) remplacer les cellules du trabéculum ou les CGR perdues et sécréter des facteurs protecteurs (pubmed.ncbi.nlm.nih.gov). Des travaux préliminaires ont montré que certains facteurs de transcription (par exemple Oct4-Sox2-Klf4) peuvent reprogrammer des non-CGR en neurones de type CGR chez la souris (restaurer la vision en cas de lésion du nerf optique) (pmc.ncbi.nlm.nih.gov). Cependant, ces approches sont confrontées à des défis de sécurité et de livraison avant d'atteindre les patients. Plusieurs revues récentes soulignent la thérapie génique comme une frontière passionnante mais pas encore clinique pour le glaucome (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). En somme, les innovations moléculaires et cellulaires progressent, mais les ressources et les données d'essais sont limitées – créant une opportunité pour l'exploration computationnelle (par exemple, la conception de constructions virales optimales ou la prédiction d'éditions géniques efficaces).
-
Stimulation électrique et optogénétique pour la restauration de la vision : Pour les patients atteints de glaucome avancé (ou de maladies combinées comme la rétinite pigmentaire), les prothèses visuelles artificielles ou les thérapies optogénétiques visent à contourner les CGR endommagées. Les implants rétiniens (réseaux d'électrodes épirétiniens ou sous-rétiniens) et les implants corticaux ont généré des perceptions artificielles (« phosphènes »), mais la résolution est faible et les résultats varient considérablement. Une revue récente de 2025 sur l'IA dans les prothèses visuelles note que « les algorithmes d'IA sont prometteurs pour optimiser la vision prothétique, en particulier grâce à l'amélioration de l'extraction de la saillance d'image et des stratégies de stimulation », bien que jusqu'à présent la plupart des études soient des simulations (pmc.ncbi.nlm.nih.gov). En d'autres termes, l'apprentissage automatique peut aider à transformer les images de caméra en modèles de stimulation les plus informatifs compte tenu des limites de l'appareil. L'optogénétique (rendre les cellules rétiniennes survivantes sensibles à la lumière) et les impulsions de stimulation électrique transcornéenne (TES) sont également en cours d'essai pour la perte de vision liée au glaucome. Tous ces domaines nécessitent un ajustement étendu des paramètres (par exemple, les modèles spatiotemporels de stimulation, les vecteurs d'expression génique) — des tâches potentiellement adaptées à la recherche autonome par ML.
-
Mécanismes indépendants de la PIO : Beaucoup de personnes continuent de perdre la vision malgré une PIO bien contrôlée. Des facteurs tels qu'une altération du flux sanguin oculaire, un dysfonctionnement neurovasculaire ou un stress métabolique dans la tête du nerf optique sont reconnus mais pas entièrement compris. Des études génétiques suggèrent des composantes importantes du risque de glaucome « indépendantes de la PIO » (pubmed.ncbi.nlm.nih.gov) (pubmed.ncbi.nlm.nih.gov). Des biomarqueurs de ces processus (au-delà de la pression) sont nécessaires de toute urgence. De plus, la moitié des patients atteints de glaucome souffrent de la maladie à « tension normale », soulignant que la PIO élevée n'est pas le seul coupable. La recherche sur les facteurs vasculaires ou d'autres voies de dommages est en cours mais fragmentée. La modélisation computationnelle ou l'exploration de grands ensembles de données (par exemple, des études d'association à l'échelle du génome) pourrait aider à identifier de nouveaux mécanismes ou cibles thérapeutiques dans ce domaine.
-
Découverte de biomarqueurs par imagerie et champs visuels : La détection précoce et le suivi du glaucome reposent souvent sur l'imagerie (photos du fond d'œil, OCT) et les tests fonctionnels (champs visuels). Des algorithmes avancés pourraient découvrir des biomarqueurs subtils que les cliniciens humains ne remarquent pas. Par exemple, l'apprentissage profond a commencé à détecter la perte de champ visuel pré-périmétrique (changements invisibles à l'analyse standard du champ) (pmc.ncbi.nlm.nih.gov). De même, l'IA a été utilisée pour analyser les profils d'épaisseur des couches OCT afin de prédire le glaucome avant un dommage manifeste. Cependant, il n'existe pas encore de biomarqueurs IA largement acceptés et utilisés cliniquement pour le dépistage ou la stratification du risque. Les goulots d'étranglement computationnels ici incluent le besoin de grands ensembles de données bien étiquetés et de protocoles de validation robustes (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Les défis publics (REFUGE, AIROGS, etc.) ont commencé à standardiser les données, mais la couverture des maladies à un stade précoce est mince (pmc.ncbi.nlm.nih.gov). La découverte par machine de biomarqueurs multimodaux (combinant OCT, champs visuels, génétique, etc.) reste une frontière ouverte.
Où l'apprentissage automatique à petit modèle peut-il aider ? Beaucoup des points ci-dessus décrivent des problèmes de haut niveau. Les goulots d'étranglement sont souvent la rareté des données, de nombreuses variables interactives et une biologie évoluant lentement. Là où un agent d'autorecherche excelle, c'est dans l'automatisation d'expériences à petite échelle sur les données disponibles. Par exemple, s'il existe un ensemble de données modeste de scans OCT avec et sans glaucome précoce, un scientifique citoyen peut mettre en place une boucle rapide de test de modèles pour trouver l'architecture qui les distingue le mieux. De même, de petits transformateurs sur la génomique ou la littérature pourraient suggérer de nouveaux gènes ou médicaments candidats. La clé est de se concentrer sur des tâches ciblées avec des métriques définies (précision de classification, AUC, perte) et d'itérer rapidement. Les domaines avec des données publiques limitées (par exemple, les paramètres TES ou les nouveaux cocktails de gènes) pourraient s'appuyer sur des données synthétiques ou des substituts. Dans la section suivante, nous associons des tâches spécifiques de ML sur le glaucome à l'approche d'autorecherche.
2. Cartographie de l'Autorecherche aux problèmes de glaucome
Le cadre d'autorecherche de Karpathy est agnostique au domaine : il peut exécuter des expériences dans n'importe quelle tâche de ML fournie par un prepare.py et un train.py avec une métrique d'évaluation bien définie. Nous identifions plusieurs tâches concrètes liées au glaucome et spécifions comment un agent pourrait aborder chacune d'elles. Chaque cas d'utilisation ci-dessous comprend : un ensemble de données publiquement disponible (si possible), un modèle ou une architecture de départ, une métrique d'évaluation, et une esquisse des instructions program.md.
2.1 Analyse d'images OCT (détection structurelle et segmentation)
-
Tâche : Détection précoce du glaucome à partir de scans OCT. L'imagerie OCT fournit des vues en coupe transversale des couches rétiniennes. L'amincissement de la couche de fibres nerveuses rétiniennes (CFNR) et du complexe de cellules ganglionnaires (CCG) peut précéder la perte du champ visuel. Nous pouvons traiter cela comme une tâche de classification (glaucome vs sain) ou de régression (par exemple, épaisseur de la CFNR en sortie).
- Jeu de données : Une publication récente, SYN-OCT (www.nature.com), est un jeu de données synthétique de 200 000 images OCT circumpapillaires (100k glaucome, 100k normales) générées par des GAN. Chaque image a une épaisseur de CFNR et des masques de segmentation associés. Ceux-ci sont publiquement disponibles sur Zenodo (www.nature.com). (Bien que synthétiques, ils sont statistiquement validés pour imiter les OCT réels (www.nature.com).) Alternativement, on pourrait utiliser le jeu de données OCT-DL (www.nature.com) (2064 images de diverses maladies rétiniennes) ou des collections OCT cliniques plus petites.
- Modèle : Commencer avec un petit réseau neuronal convolutif (CNN). Pour la classification, un modèle avec environ 3 à 5 couches de convolution (par exemple, analogue à un ResNet-18 tronqué, ou un petit CNN personnalisé) peut fonctionner. Pour la segmentation de la CFNR/CCG, un encodeur-décodeur comme un petit U-Net (avec une profondeur de 3 à 4) est adapté. Le fichier
train.pyinitial pourrait implémenter un CNN simple et une boucle d'entraînement, avec des hyperparamètres par défaut. - Métrique : Si l'on effectue une classification du glaucome sur OCT, utiliser l'AUC (aire sous la courbe ROC) ou la précision sur un échantillon de validation. Pour la segmentation, utiliser le coefficient de Dice ou l'IoU sur les masques de la couche CFNR (SYN-OCT fournit des masques (www.nature.com)).
- Exemple de
program.md:« Objectif : Maximiser l'AUC de validation pour la détection du glaucome à partir d'images OCT. Modifications autorisées : nombre de couches de convolution, nombre de filtres, tailles de noyau, fonctions d'activation, taux d'apprentissage, choix de l'optimiseur, taille du lot, etc. Après chaque exécution d'entraînement de 5 minutes, évaluer l'AUC sur l'ensemble de validation. Si l'AUC s'améliore, conserver le changement ; sinon, revenir en arrière. » (medium.com) (www.theneuron.ai).
L'agent essaiera ainsi des variations (par exemple, ajouter des couches, ajuster la largeur, passer d'Adam à RMSProp) pour améliorer l'AUC.
-
Tâche : Segmentation des couches CFNR/CCG. La mesure précise de l'épaisseur de la CFNR est cruciale. En utilisant des scans OCT synthétiques (avec des segmentations fournies) ou tout OCT réel avec des couches annotées, on peut formuler cela comme une tâche de segmentation.
- Jeu de données : SYN-OCT fournit à nouveau des masques de segmentation CFNR (www.nature.com)). Une autre source : certains groupes universitaires ont étiqueté des B-scans OCT (bien que souvent propriétaires). Si nécessaire, on pourrait utiliser des jeux de données de segmentation OCT génériques (comme le défi de fluide rétinien OCT de Duke (www.nature.com)) comme substituts.
- Modèle : Un petit CNN de type U-Net, peut-être même une version réduite en canaux à partir d'une ligne de base. Par exemple, utiliser 3 blocs de down/up, en commençant avec 16 filtres. L'agent est autorisé à modifier la profondeur et la largeur.
- Métrique : Score de Dice ou IoU moyenne du masque CFNR prédit par rapport à la vérité terrain.
- Exemple de
program.md:« Objectif : Maximiser le score de Dice pour la segmentation de la couche CFNR sur OCT. Le modèle de base est un U-Net à 3 blocs. L'agent peut faire varier le nombre de filtres, ajouter du dropout, ou modifier le taux d'apprentissage. Entraîner pendant 5 minutes à chaque essai et calculer le Dice sur la validation. Conserver les modifications qui augmentent le Dice. »
-
Tâche : Prédiction de la progression via OCT séquentielle. En utilisant des OCT séquentielles, prédire l'amincissement futur. Si des données OCT longitudinales existent (par exemple, données de la UK Biobank ou de cliniques privées), l'objectif pourrait être de prédire le changement de la CFNR ou une étiquette binaire « progresseur rapide ».
- Jeu de données : Les données OCT longitudinales publiques spécifiques au glaucome sont rares. Cependant, on pourrait réutiliser des données de défi SR OCT (ou des images SYN-OCT avec progression simulée) pour simuler cette tâche. Alternativement, utiliser les images OCT de l'UK Biobank (bien que non spécifiques au glaucome et difficilement accessibles aux scientifiques citoyens). À titre d'illustration, supposons un jeu de données de scans OCT à temps0 et temps1 avec des étiquettes.
- Modèle : Un CNN siamois ou concaténé prenant des paires d'images OCT, produisant la probabilité de progression. Commencer par alimenter le temps0 et prédire le seuil de temps1.
- Métrique : AUC pour la classification binaire de la progression, ou MSE si l'on tente de prédire le changement d'épaisseur.
- Exemple de
program.md:« Objectif : Identifier les yeux qui subiront une perte rapide de la CFNR. Entrée : OCT de base ; étiquette : amincissement >5μm après 1 an. Nous utilisons un classificateur CNN. Les changements autorisés incluent la profondeur du réseau, le taux d'apprentissage, l'augmentation. Utiliser l'AUC de validation comme métrique. »
2.2 Analyse du champ visuel (CV)
-
Tâche : Prédire la perte future du champ visuel. Étant donné un ou plusieurs tests de champ visuel de Humphrey passés (valeurs de sensibilité ponctuelles), prévoir la sensibilité future ou le taux de progression. C'est un problème classique de gestion du glaucome.
- Jeu de données : Le jeu de données GRAPE (www.nature.com) (2023) fournit un suivi longitudinal de 263 yeux (1115 enregistrements) avec CV et fond d'œil/OCT, y compris la progression annotée. Une autre ressource est la base de données longitudinale américaine UH Visual Field (UWHVF) (www.nature.com) (28 943 champs pour de nombreux patients). Cependant, GRAPE est bien organisé et public avec à la fois les CV et les résultats.
- Modèle : Une approche simple est un réseau feed-forward (entièrement connecté) sur les données de CV à 54 points (ou compresser en indices globaux). Pour la prédiction de progression, un MLP plus petit ou un CNN 1D peut gérer les 54 ou 30 caractéristiques d'entrée. Une autre idée : traiter la grille 8×8 comme une petite image et utiliser un petit CNN (par exemple, des noyaux 3×3).
- Métrique : Si l'on prédit la déviation moyenne future ou les valeurs des points, utiliser le MSE (plus bas est mieux). Si l'on classe « progresseur rapide vs non », utiliser l'AUC.
- Exemple de
program.md:« Objectif : Minimiser le MSE du champ visuel prédit. Alternativement, maximiser l'AUC pour la classification de la perte rapide. Modèle de base : perceptron à 2 couches sur 54 valeurs de CV. L'agent peut ajuster la taille cachée, l'activation ou ajouter du dropout. Après chaque entraînement de 5 minutes, calculer la métrique sur l'ensemble de validation. »
-
Tâche : Identifier les progresseurs rapides. En utilisant une série de CV passés, classer les yeux qui perdront rapidement la vision.
- Jeu de données : Utiliser le statut de progression annoté dans GRAPE (www.nature.com) (ils ont marqué les yeux comme progressés). Ou prendre UWHVF et étiqueter le décile supérieur de perte de DM comme « rapide ».
- Modèle : Pourrait concaténer les caractéristiques de deux ou trois champs consécutifs (ou différences) dans un petit réseau. Inclure éventuellement la PIO de base et l'âge si disponibles.
- Métrique : AUC pour distinguer les progresseurs rapides des lents.
- Exemple de
program.md:« Objectif : Maximiser l'AUC pour la prédiction de la progression rapide du champ visuel. Caractéristiques d'entrée : différences de second ordre des CV1 et CV2, plus la PIO. Utiliser un petit réseau FC. L'agent peut ajuster les largeurs de couche, le taux d'apprentissage, la taille du lot. »
2.3 Criblage de médicaments/composés (Découverte de candidats in silico)
- Tâche : Prédire des composés neuroprotecteurs/régénératifs candidats. Utiliser le ML pour trouver de petites molécules qui pourraient protéger les CGR ou encourager la régénération. Par exemple, de nombreux composés connus (comme la nicotinamide, le valproate) montrent des effets neuroprotecteurs. Nous pouvons entraîner des modèles à reconnaître les chimiotypes corrélés à une efficacité connue, puis rechercher dans l'espace chimique.
- Jeu de données : C'est un défi en raison de l'absence d'une base de données dédiée aux médicaments contre le glaucome. À titre de substitut, on pourrait utiliser les jeux de données MolNet (par exemple, inhibition du VIH, perméabilité de la BHE) ou tout jeu de données de bioactivité. Alternativement, compiler une liste de composés testés dans des modèles de lésion du nerf optique (issus de l'exploration de la littérature) avec des étiquettes. En pratique, on pourrait commencer par une propriété plus générique (par exemple, des données de pénétration de la barrière hémato-encéphalique de MoleculeNet).
- Modèle : Un petit transformateur ou un réseau neuronal graphique sur des chaînes SMILES. Un transformateur (de style GPT-2) avec peu de couches ou un simple réseau convolutif graphique (par exemple, 3 couches GCN) peut être implémenté dans le
train.py. - Métrique : Si l'on traite comme une classification (actif vs inactif), utiliser l'AUROC. Si l'on prédit l'affinité ou le logP, utiliser le RMSE.
- Exemple de
program.md:« Objectif : Maximiser le ROC-AUC de classification pour l'identification de composés de type neuroprotecteur. Modèle de base : petit transformateur sur SMILES. L'agent peut ajuster le nombre de couches de transformateur, le dropout, le taux d'apprentissage, ou utiliser des caractéristiques alternatives (par exemple, entrée d'empreinte digitale). Après chaque 5 minutes, évaluer l'AUC sur les molécules de validation. »
(Note : Étant donné la rareté des données publiques sur la neuroprotection réelle, cette tâche est plus illustrative. En pratique, les scientifiques citoyens pourraient créer un jeu de données personnalisé de composés neuroprotecteurs connus par rapport à des contrôles et suivre ce modèle.)
2.4 Modélisation de réseaux de régulation génique (CGR unicellulaires)
- Tâche : Identifier les combinaisons de TF régénératifs. Utiliser les données de RNA-seq unicellulaires des CGR pour apprendre les profils transcriptionnels de la croissance régénérative. Par exemple, certains sous-types de CGR se régénèrent mieux que d'autres. Un modèle de ML pourrait prédire une étiquette d'« état régénératif », et on pourrait inspecter quels facteurs de transcription sont importants.
- Jeu de données : Une étude de 2018 fournit des transcriptomes unicellulaires de CGR (accès GEO GSE115404) (pmc.ncbi.nlm.nih.gov), identifiant des sous-types distincts de CGR. Nous pouvons utiliser cet ensemble de données (ou un sous-ensemble) où les cellules sont étiquetées par sous-type ou par condition expérimentale (par exemple, avant vs après blessure).
- Modèle : Un petit transformateur ou un MLP fonctionnant sur des vecteurs d'expression génique (chaque cellule ayant des milliers d'abondances géniques). En pratique, on présélectionnerait environ 500 gènes principaux (par exemple, les gènes hautement variables). Le
train.pypourrait implémenter un mini-transformateur (par exemple, 4 couches, embedding 256) ou un simple perceptron à 2 couches. - Métrique : Si l'on utilise une analyse non supervisée, on pourrait utiliser le score de silhouette, mais plus simplement, si l'on étiquette les cellules comme « en régénération » vs « non » (si des étiquettes existent), utiliser la précision/AUC de classification.
- Exemple de
program.md:« Objectif : Construire un modèle distinguant les profils d'expression génique des CGR en régénération et non en régénération. Commencer avec un transformateur à 3 couches. L'agent peut modifier la dimension d'embedding, la profondeur, le taux d'apprentissage, ou ajouter une normalisation par lot. Optimiser la précision de validation. »
Après les exécutions, les poids d'attention ou les caractéristiques apprises du meilleur modèle pourraient mettre en évidence des facteurs de transcription clés pour l'expérimentation.
2.5 Analyse des signaux électrophysiologiques
- Tâche : Détecter un dysfonctionnement subclinique des CGR via l'ERG. L'électrorétinogramme à motifs (pERG) ou d'autres signaux électrophysiologiques peuvent révéler la santé des CGR. Par exemple, des réponses ERG retardées ou réduites peuvent précéder des déficits du champ visuel. Nous pouvons tenter de classer les signaux comme « normaux » ou « suspects de glaucome ».
- Jeu de données : Les jeux de données ERG publics sur le glaucome sont rares. On pourrait utiliser un substitut : un jeu de données provenant d'animaux (dégénérescence rétinienne) ou des signaux synthétiques. Si indisponible, même des jeux de données électrophysiologiques 1D génériques (par exemple, ECG) pourraient illustrer le pipeline.
- Modèle : Un CNN 1D (par exemple, 2 couches convolutives suivies de FC) sur les données de séries temporelles. Alternativement, un LSTM peut être utilisé si les séquences sont plus longues.
- Métrique : Précision ou AUC dans la classification d'un dysfonctionnement subtil par rapport à la normale. Éventuellement F1 si les classes sont déséquilibrées.
- Exemple de
program.md:« Objectif : Maximiser la précision de validation pour la classification des tracés ERG (sain vs motif de glaucome précoce). Utiliser un CNN 1D. L'agent peut ajuster les tailles de filtre, le pas, ou ajouter une couche récurrente. Conserver toute modification qui améliore la précision. »
2.6 Exploration de la littérature (Génération d'hypothèses)
- Tâche : Affiner un petit modèle linguistique pour faire émerger de nouvelles connaissances. Avec des milliers d'articles de recherche sur le glaucome dans PubMed, un agent de ML pourrait rechercher des liens ou des candidats à réaffecter. Par exemple, relier les voies neuroprotectrices à des médicaments existants. Nous pouvons traiter cela comme un problème de modélisation linguistique ou comme un problème de récupération.
- Jeu de données : Compiler un corpus de résumés liés au glaucome (par exemple, utiliser la recherche PubMed pour « thérapie génique du glaucome », etc.). On peut télécharger environ 10 000 résumés via les API NCBI. Pour un début plus simple, utiliser les articles sur le glaucome en libre accès de PMC.
- Modèle : Un petit modèle linguistique de type transformateur (par exemple, GPT-2 à 6 couches) ou même BERT affiné. À des fins d'autorecherche, nous affinerions probablement un modèle causal (GPT) sur le texte.
- Métrique : Généralement, la perte de validation (perplexité) est optimisée. Si l'on effectue une classification (par exemple, étant donné un résumé, prédire une étiquette pour un médicament ou une voie), utiliser la précision/AUC.
- Exemple de
program.md:« Objectif : Minimiser la perplexité de validation d'un petit GPT-2 sur le corpus de littérature sur le glaucome. Utiliser des exécutions d'affinement de 5 minutes. L'agent peut faire varier le nombre de couches, la taille cachée, le taux d'apprentissage, la longueur du contexte. Conserver les changements qui réduisent la perplexité. »
Une fois entraîné, on peut demander à ce modèle de générer des hypothèses (par exemple, « Meilleurs médicaments candidats réaffectables pour la neuroprotection dans le glaucome : ... »).
Dans chacun de ces domaines, la clé est qu'un seul GPU et des exécutions brèves permettent de nombreux essais. Nous n'attendons pas de l'agent qu'il code de nouveaux algorithmes à partir de zéro, mais qu'il ajuste un script d'entraînement existant. Le rôle humain consiste à écrire un program.md pour guider la recherche de l'agent vers un objectif spécifique au glaucome (comme maximiser l'AUC sur un ensemble de données de fond d'œil ou prédire l'épaisseur de la CFNR). Les exemples ci-dessus illustrent comment train.py pourrait être configuré initialement et comment program.md invite à améliorer une métrique choisie (medium.com) (www.theneuron.ai).
3. Guide pratique d'implémentation pour la science citoyenne
Comment des individus motivés disposant de ressources limitées (par exemple, une seule RTX 3060 ou un MacBook avec Apple Silicon) peuvent-ils réellement appliquer l'autorecherche aux problèmes de glaucome ? La bonne nouvelle est que le dépôt de Karpathy est petit et contient des instructions pour la mise à l'échelle. Voici les étapes et conseils clés :
-
Configuration de l'environnement : Cloner le dépôt karpathy/autoresearch. Vous aurez besoin d'un Python moderne et idéalement d'un accès à un LLM (l'agent lui-même est généralement un LLM pré-entraîné comme GPT-4 ou Claude qui modifie le code). Pour les GPU, installer PyTorch avec le support CUDA/metal approprié. Pour Apple Silicon, utiliser l'un des forks (par exemple, MLX) ou une version de PyTorch pour M1/M2 (voir la documentation du dépôt). Sous Windows/Linux avec une 3060 ou une 4070, PyTorch CUDA normal fonctionne.
-
Configuration pour petit GPU : L'autorecherche par défaut utilise un modèle de type GPT d'environ 50 millions de paramètres et des séquences de longueur 1024 (medium.com), ce qui peut être lourd. Pour une GTX 3060 (12 Go), vous devriez réduire la taille du modèle et la longueur de la séquence. Dans
train.py, définissezMAX_SEQ_LEN=512ou même256. Réduisez le nombre de couches et la largeur (le GPT moyen est d'environ 8 couches ; essayez 4 couches, 256 de largeur). Les instructions de la communauté mentionnent de réduire la « PROFONDEUR », la « LARGEUR », etc. Vous pouvez également réduire la mémoire de l'optimiseur en utilisant des tailles de lot plus petites (même 16 ou 8). L'agent peut toujours muter ces paramètres, mais lui donner un point de départ plus petit garantit des exécutions <5 minutes. Le README du dépôt GitHub d'autoresearch et les discussions sur les problèmes indiquent également que les puces Mac M1 peuvent gérer des séquences plus courtes (par exemple, 256 jetons) en raison d'une mémoire limitée ; une mise à l'échelle similaire s'applique à tout GPU. -
Préparation des données sur le glaucome : Les données de chaque tâche doivent être chargées et divisées. Les jeux de données publics sur le glaucome incluent :
- Jeux de données du fond d'œil : ORIGA(-light) (650 images étiquetées (pubmed.ncbi.nlm.nih.gov)), RIM-ONE DL (485 images avec segmentations de la papille/disque (github.com)), REFUGE (plus de 1200 images, avec des divisions entraînement/test (refuge.grand-challenge.org)), le nouveau jeu de données Hillel Yaffe Glaucoma (HYGD) avec environ 1200 images du fond d'œil et des étiquettes de haute qualité (physionet.org). EyePACS/AIROGS (des dizaines de milliers d'images rétiniennes) est également publiquement accessible via inscription (par exemple, Kaggle).
- Jeux de données OCT : SYN-OCT (200k B-scans synthétiques avec masques CFNR (www.nature.com) (www.nature.com)), OCTDL (2064 images de diverses maladies rétiniennes (www.nature.com)), et d'autres provenant de défis publics.
- Données de champ visuel : GRAPE (263 yeux avec CV longitudinal plus images (www.nature.com)). UWHVF (28k tests de CV) est ouvert si vous le téléchargez depuis le référentiel de l'Université de Washington (www.nature.com). Certains défis Kaggle incluent des données de CV.
- Électrophysiologie : Aucun grand jeu de données ERG ouvert sur le glaucome n'est connu, mais on pourrait commencer par n'importe quelle donnée de signal norme vs glaucome accessible.
- Données chimiques/géniques : Des jeux de données standards comme MoleculeNet (pour les composés) ou GEO (pour les gènes) peuvent être réutilisés. Par exemple, télécharger les comptes bruts GSE115404 (via requête GEO (pmc.ncbi.nlm.nih.gov)) et prétraiter en matrices d'expression.
Pour chaque tâche, vous avez besoin d'un
prepare.pyqui charge les données et définittrain_set,val_setet une fonction d'évaluation. Le modèle de Karpathy s'attend à ce queprepare.pyproduise des données d'entraînement et une routine d'évaluation qui renvoie une perte ou une métrique. Par exemple,prepare.pypour RIM-ONE pourrait charger des images et des CC étiquetées comme glaucome, les diviser en dossiers d'entraînement/validation, et définir une fonction calculant l'AUC de validation. RÉFÉREZ-VOUS à [14†L71-L79] pour la structure de RIM-ONE. -
Ajustement des données pour une petite échelle : Si les jeux de données sont volumineux (comme EyePACS ou SYN-OCT), vous pouvez sous-échantillonner pour créer un « petit » jeu de données de quelques centaines d'exemples (le modèle peut toujours apprendre quelque chose de précieux sur un petit corpus). Le dépôt d'autorecherche mentionne même l'utilisation de petits jeux de données de type « TinyStories » pour fonctionner sur du matériel minuscule. Par exemple, choisir 500 images d'ORIGA (équilibrées), ou 1000 champs CV de GRAPE. De même, pour le langage, on pourrait utiliser un sous-ensemble de 5 000 résumés d'articles PubMed sur le glaucome. La clé est un jeu de données fixe sur lequel l'agent itère. Assurez-vous de pré-mélanger et de diviser 80/20 afin que chaque exécution de 5 minutes voie la même division entraînement/validation.
-
Rédaction des stratégies
program.md: La communauté devrait partager différentes invitesprogram.md(comme des « recettes ») dans un système de contrôle de version. Chaque fichier pourrait encoder une stratégie de recherche. Par exemple, une stratégie pourrait dire « augmenter la profondeur du réseau si la profondeur < 6, sinon réduire le taux d'apprentissage », tandis qu'une autre pourrait dire « se concentrer sur les changements d'augmentation de données ». Au fil du temps, les groupes peuvent comparer les stratégies qui ont donné de meilleures métriques sur les classements. Un bonprogram.mdinclut un objectif (par exemple, maximiser l'AUC ou minimiser la perte de validation) et des indications sur les mutations autorisées (couches, filtres, LR). Le LLM de l'agent utilise ces instructions pour proposer des modifications de code. Maintenez les métriques standardisées (par exemple, toujours rapporter l'AUC pour les tâches de classification du glaucome) afin que les expériences soient comparables. -
Collaboration communautaire : Pour rendre cet effort évolutif, une communauté de science citoyenne devrait s'organiser :
- Journaux d'expériences partagés : Publier les résultats de chaque expérience (par exemple, « L'exécution n°27 du programme-v1 a atteint un AUC de validation = 0,82 avec une largeur=4, profondeur=3 »).
- Métriques standardisées : Définir des métriques pour chaque tâche : par exemple, « AUC OCT glaucome », « AUC progression CV », « AUC attribut », etc. Un classement partagé (similaire au val_bpb d'autoresearch) peut suivre les meilleurs scores. Par exemple, un Slack ou des GitHub Actions pourrait collecter le meilleur AUC de chaque agent chaque semaine.
program.mdsous contrôle de version : Héberger tous lesprogram.mddans un dépôt GitHub. Les membres peuvent forker et proposer de nouvelles stratégies (via des pull requests) tout en conservant les versions historiques. De cette façon, plusieurs approches peuvent être testées en parallèle (par exemple, « program_word2vec.md » vs « program_transformer.md »).- Partage de données et de code : Utiliser des dépôts publics ou des notebooks pour les scripts de préparation des données, et partager les modifications de train.py trouvées par l'agent (pour la reproduction dans les frameworks ML standards). Des liens vers les sources de données originales (Kaggle, PhysioNet, Zenodo) garantissent que d'autres peuvent télécharger les mêmes données.
En abaissant les barrières techniques (l'agent modifie le code, l'utilisateur modifie les instructions en Markdown) et en coordonnant les efforts (journaux partagés, classements), les scientifiques citoyens peuvent explorer collectivement les choix d'hyperparamètres/modèles pour ces problèmes de ML liés au glaucome. Essentiellement, ils investissent la créativité humaine dans la définition des objectifs, et laissent l'agent effectuer le travail fastidieux de 100 expériences par objectif pendant la nuit (medium.com) (www.theneuron.ai).
4. La restauration de la vision spécifiquement
La restauration de la vision – retrouver la vue après un dommage – est une cible particulièrement excitante pour l'optimisation basée sur l'IA. La recherche actuelle sur la restauration de la vision assistée par l'IA comprend les implants rétiniens, les prothèses corticales et l'optogénétique. Voici comment une boucle d'autorecherche pourrait s'intégrer :
-
Optimisation de l'encodage des prothèses visuelles : Les prothèses modernes (implants rétiniens ou caméras liées à des réseaux d'électrodes) tentent de traduire une image de caméra en motifs de stimulation électrique que le cerveau interprète comme de la vue. Le défi est que la « bande passante » des électrodes est très limitée (souvent de seulement quelques dizaines à quelques centaines de points) (pmc.ncbi.nlm.nih.gov). Un modèle de ML (un petit CNN ou transformateur) peut être entraîné pour mapper les images d'entrée aux cartes de stimulation idéales, mais les meilleurs hyperparamètres ou architectures pour cette traduction sont inconnus. Un agent d'autorecherche pourrait exécuter 100 variations d'un modèle d'« encodeur neuronal » en quelques heures. Par exemple, configurer un jeu de données de paires image→stimulation (soit des phosphènes simulés, soit des données de patient) et demander à l'agent d'optimiser le réseau d'encodage pour minimiser une perte de reconstruction ou maximiser une métrique d'utilité (intégrité du contraste, précision de reconnaissance). L'agent pourrait essayer d'ajouter des couches d'attention, de modifier les tailles de convolution ou d'ajuster les taux d'apprentissage. Sur de nombreuses exécutions, on pourrait trouver de petits réseaux qui fournissent des sorties prothétiques plus saillantes. Certains travaux récents utilisent déjà l'IA pour extraire la saillance visuelle pour les prothèses (pmc.ncbi.nlm.nih.gov); l'autorecherche pourrait automatiser l'ajustement de ces pipelines.
-
Motifs de stimulation optogénétique : En thérapie optogénétique, les CGR ou autres cellules rétiniennes survivantes sont rendues sensibles à la lumière (via des gènes introduits). Les entrées d'une caméra doivent ensuite être encodées en impulsions lumineuses. Ici encore, un modèle de ML peut contrôler les motifs. On pourrait définir une tâche simplifiée : un petit réseau transforme l'image de la caméra en une carte d'intensité lumineuse (mêmes dimensions que les cellules). L'objectif de l'agent pourrait être de maximiser une métrique de stimulation efficace (par exemple, maximiser l'activation des cellules cibles dans une rétine simulée). Chaque essai pourrait exécuter une simulation rapide de la réponse. Au fil des itérations, l'agent pourrait explorer les durées d'impulsion ou les filtres spatiaux. Par exemple, ajuster l'agressivité d'un filtre passe-haut sur l'entrée de la caméra pourrait être bénéfique pour certains motifs. Le point est que de nombreux paramètres analogiques (noyaux de filtre, non-linéarité, codage temporel d'impulsion) peuvent être balayés automatiquement.
-
Optimisation des motifs d'impulsions (TES et implants) : Même les domaines non liés à l'apprentissage automatique peuvent bénéficier d'une recherche rapide. Par exemple, une étude récente (Xie et al. 2025) a montré que des durées d'impulsion plus courtes et l'insertion d'intervalles interphases amélioraient significativement l'activation corticale pour les implants rétiniens (pmc.ncbi.nlm.nih.gov). Cela suggère que l'espace des paramètres de la stimulation électrique a des effets forts et non intuitifs. Un agent d'autorecherche pourrait traiter les paramètres du protocole de stimulation (durée de phase, fréquence, intervalle) comme des « paramètres de réseau » et exécuter de nombreuses petites expériences (chacune simulée ou empirique) pour maximiser la réponse corticale. Par exemple, configurer un modèle électrique simplifié (ou utiliser des données de potentiels évoqués enregistrés) dans
prepare.pyet laisser l'agent ajuster les paramètres detrain.pycomme la synchronisation des impulsions pour maximiser une amplitude de réponse définie. C'est similaire à l'automatisation de ce que les neuroscientifiques passionnés font manuellement. -
Conception de vecteurs viraux et géométrie d'échafaudages : Dans le développement de thérapies plus exploratoires, l'approche en boucle de l'agent pourrait également s'attaquer aux optimisations biomédicales. Par exemple, la conception de capsides virales AAV ou de promoteurs pour cibler les CGR pourrait être guidée par de petits modèles prédictifs (par exemple, régression logistique sur des caractéristiques de séquence). L'autorecherche pourrait essayer de modifier de manière répétée un modèle qui prédit le tropisme ou l'expression (entraîné, par exemple, sur de petites bibliothèques virales) pour améliorer cette prédiction. De même, si quelqu'un dispose d'un code de simulation pour la croissance dans des échafaudages nerveux (pour la réparation du nerf optique), l'agent pourrait ajuster les paramètres géométriques pour maximiser l'extension des axones. Ce sont des tâches avancées, mais qui s'inscrivent conceptuellement – l'« agent en tant qu'expérimentateur » pourrait ajuster les paramètres du modèle ou de la simulation pour des résultats améliorés.
En résumé, tout aspect de la prothèse ou de la restauration visuelle qui repose sur des algorithmes paramétrés pourrait être amélioré par des itérations rapides. Il est important de noter que la limitation est que nous ne disposons généralement que de données de simulation pour beaucoup de ces tâches ; les tests réels sur des centaines de variantes de patients ne sont pas possibles. Mais l'autorecherche peut opérer in silico pour proposer les meilleurs candidats pour des tests cliniques ultérieurs. Comme l'a noté la revue sur les prothèses, « garantir que les phosphènes sont générés de manière fiable à des endroits précis… est un défi important » et « les modèles basés sur l'IA ont montré un potentiel » dans ce domaine (pmc.ncbi.nlm.nih.gov). L'autorecherche pourrait accélérer considérablement la recherche des meilleures configurations de ces modèles d'IA.
5. Passer Ă l'impact clinique
Les résultats computationnels doivent finalement être reliés à la recherche et aux soins réels du glaucome. Comment les idées générées par l'autorecherche menée par les patients peuvent-elles être validées et avancées?
-
Collaboration avec des groupes de recherche : Les scientifiques citoyens devraient contacter les consortiums de recherche sur le glaucome établis. Des exemples incluent le International Glaucoma Genetics Consortium (IGGC) et le consortium NEIGHBORHOOD, qui regroupent des données génétiques et cliniques (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Les découvertes issues de l'autorecherche (par exemple, un nouveau gène candidat ou une hypothèse de repositionnement de médicament) pourraient être partagées avec ces groupes pour un suivi expérimental. Des laboratoires de culture de tissus (par exemple, dans les grandes universités) ou des chercheurs sur le sommeil pourraient tester des composés sur la survie des CGR. Les cliniciens universitaires peuvent corréler tout biomarqueur ou classificateur d'images avec leurs données de patients sous l'approbation du comité d'éthique (IRB). L'établissement de dialogues entre les groupes de type hackathon et les laboratoires formels est essentiel.
-
Engagement des organisations de défense des patients : Des groupes comme la Glaucoma Research Foundation ou la Cure Glaucoma Foundation financent souvent l'innovation centrée sur le patient. Ils pourraient parrainer des projets de preuve de concept ou des concours citoyens utilisant l'autorecherche. Ces organisations disposent de réseaux de cliniciens et pourraient aider à orienter les pistes de modèles prometteuses vers la clinique. Par exemple, si un agent signale un médicament existant approuvé par la FDA comme neuroprotecteur, un groupe de défense pourrait aider à mettre en place un petit essai selon les protocoles appropriés. Mettre en avant les succès exigera de présenter les résultats comme des hypothèses (et non des avis médicaux) et d'assurer la transparence.
-
Garde-fous éthiques et de sécurité : Les scientifiques citoyens doivent utiliser uniquement des données publiques dépersonnalisées ou des données entièrement synthétiques. Toute utilisation de dossiers de patients réels nécessite un protocole approuvé par un comité d'éthique (IRB) (et probablement le consentement du patient). Les résultats des boucles d'autorecherche doivent être clairement étiquetés comme générateurs d'hypothèses. Par exemple : « Ce modèle suggère que le médicament X pourrait protéger les CGR – une validation expérimentale est nécessaire. » Les décisions médicales critiques doivent rester entre les mains des médecins. Les risques incluent la distribution involontaire de modèles qui prédisent des résultats personnels (progression du glaucome) – des avertissements explicites sont nécessaires pour ne pas les traiter comme des outils de diagnostic. Les meilleures pratiques en matière de confidentialité des données (par exemple, l'utilisation de champs agrégés ou anonymisés) sont indispensables.
-
Précédents en science citoyenne : Il n'est pas sans précédent que des amateurs contribuent à la recherche médicale/neuroscientifique. Le projet Eyewire (jeu de cartographie neuronale participatif du MIT) a mobilisé des bénévoles pour reconstruire les circuits neuronaux rétiniens (www.citizenscience.gov). En ophtalmologie, des non-experts ont aidé à annoter des images lors de défis financés par OpenAI (par exemple, des jeux de données étiquetées pour les maladies oculaires). En dehors des soins oculaires, des jeux comme Foldit (énigmes de repliement de protéines) et Galaxy Zoo (classification de galaxies) montrent que la participation citoyenne peut résoudre des problèmes scientifiques difficiles. Ces succès encouragent l'idée que de nombreuses mains (et maintenant des IA) peuvent effectivement aider la recherche complexe. L'approche d'autorecherche revient à donner à chaque personne un assistant de laboratoire alimenté par l'IA : les efforts participatifs précédents n'utilisaient que des humains pour analyser des tâches fixes, tandis qu'ici l'humain fixe l'objectif et l'IA effectue l'itération.
En étant transparente, prudente et collaborative, une initiative de science citoyenne d'autorecherche peut gagner la confiance. Elle devrait insister sur le fait de « générer des pistes, pas des prescriptions ». Si la communauté documente les méthodes et partage le code ouvertement, les chercheurs professionnels peuvent reproduire les découvertes. Par exemple, si quelqu'un trouve une nouvelle combinaison de facteurs protecteurs des CGR, il pourrait la publier en préimpression ou alerter un laboratoire. Les références de style citation (comme nous le faisons ici) aident à faire le lien : par exemple, « Nous avons traité votre liste de médicaments candidats dans le contexte de voies connues (pmc.ncbi.nlm.nih.gov). » En fin de compte, il s'agit d'une forme de science ouverte – axée sur le patient mais scientifiquement rigoureuse. Si les normes éthiques sont maintenues, une telle innovation de base a un grand potentiel pour susciter de nouvelles collaborations et, à terme, alimenter la recherche ophtalmologique examinée par les pairs.
6. Une feuille de route concrète de 90 jours
Un plan ciblé et à durée limitée peut rallier une communauté de 10 à 50 personnes (chacune avec au moins un GPU ou un Apple Silicon) pour lancer un effort d'autorecherche-pour-le-glaucome. Voici un plan par phases suggéré :
-
Semaines 1-2 : Formation et configuration
- Recrutement et lancement : Créer un canal de communication (par exemple, Slack ou Discord) et un dépôt GitHub pour le projet. Faire connaître l'initiative auprès des forums de patients atteints de glaucome, des groupes de biohackers et des rencontres sur l'IA.
- Vérification du matériel : S'assurer que chacun peut installer PyTorch et cloner le dépôt de Karpathy (ou le fork Maple). Organiser une session de configuration où chaque membre exécute une boucle d'autorecherche sur un jeu de données jouet (par exemple, un sous-ensemble CIFAR-10) pour vérifier l'environnement.
- Sélection des jeux de données : Décider de 1 à 3 tâches initiales (par exemple, classification OCT, progression du CV). Pour chaque tâche, attribuer une petite équipe pour préparer les données : par exemple, une équipe télécharge les images RIM-ONE (github.com), une autre récupère les champs GRAPE (www.nature.com), une autre collecte les résumés de littérature. Les équipes doivent diviser les données en 80/20 et créer des ébauches de
prepare.py. - Modèles de référence : Pour chaque tâche, finaliser un
train.pysimple : par exemple, un petit CNN pour RIM-ONE, un MLP pour les CV. Choisir les métriques d'évaluation (AUC, Dice, MSE). - Rédaction initiale du
program.md: Chaque équipe rédige un fichier d'instructions initial (program.md) énonçant l'objectif et les modifications autorisées. Par exemple, pour RIM-ONE : « maximiser l'AUC de détection du glaucome », pour GRAPE : « minimiser le MSE du CV ».
-
Semaines 3-6 : Premiers cycles d'expérimentation
- Exécuter les boucles d'autorecherche : Chaque sous-groupe exécute l'agent sur sa tâche pendant la nuit (environ 100 exécutions de 5 minutes). Utiliser un seul program.md pour commencer, puis laisser les participants ajouter des variations (par exemple, « program_temp1.md »).
- Collecter les résultats : Chaque matin, les équipes examinent les journaux (le dépôt enregistre automatiquement chaque exécution). Noter la meilleure métrique atteinte, les paramètres du modèle à ce moment-là , et tout changement notable découvert par l'agent. Pour la transparence, pousser ces résultats sur le GitHub partagé (peut-être en CSV ou JSON).
- Itération et feedback : Comparer les exécutions. Une stratégie a-t-elle significativement surpassé la ligne de base ? Si une sous-équipe constate peu de progrès, elle devrait ajuster program.md (par exemple, être plus agressive avec les changements de taux d'apprentissage). Chaque week-end, synthétiser les découvertes lors d'une réunion communautaire.
- Outils : Utiliser Git pour le contrôle de version sur program.md et sur les modèles de code. Envisager un Google Sheet partagé ou un tableau wiki pour les classements (par exemple, « OCT-AUC : meilleur=0,85 par Alice ; VF-RMSE : meilleur=2,1 par Bob »). Cela motive une saine compétition et la transparence.
-
Semaines 7-12 : Affinement et diffusion
- Affiner les expériences : Sur la base des premiers résultats, affiner les tâches prometteuses. Par exemple, si le classificateur RIM-ONE a dépassé 0,90 d'AUC, essayer maintenant d'ajouter de l'augmentation de données ou un réseau légèrement plus profond. Encourager le branching : certains peuvent essayer différentes architectures (par exemple, un Vision Transformer tiny au lieu d'un CNN). Les agents peuvent exécuter plusieurs variantes de
program.mden parallèle. - Synthèse des résultats : Créer de courts rapports sur chaque domaine (OCT, CV, etc.), résumant ce qui a fonctionné. Par exemple, « Nous avons amélioré le score Dice de segmentation du CCG de 0,60 à 0,75 en passant de l'activation ReLU à GELU. » Utiliser un langage accessible aux non-experts (glossaire pour les termes de ML).
- Présentation communautaire : D'ici la semaine 10, rédiger un article de blog ou une présentation de diapositives résumant l'initiative jusqu'à présent. Mettre en évidence toute découverte non triviale (même les résultats « nuls » sont utiles à partager). Inviter des retours de forums en ligne ; peut-être contacter un chercheur pour des commentaires (« Nous avons découvert que X ajustements de réseaux neuronaux aident à classer le glaucome précoce – des idées si cela s'aligne avec la physiologie ? »).
- Planifier la diffusion : Identifier un ou deux laboratoires ou cliniciens en ophtalmologie intéressés par la collaboration. Les contacter avec les résultats initiaux. Par exemple, se connecter avec les auteurs du jeu de données HYGD ou l'équipe GRAPE sur Twitter/LinkedIn, mentionner vos découvertes citoyennes. Explorer les possibilités de co-validation (par exemple, leur envoyer les poids du modèle entraîné pour qu'ils les testent sur leurs données).
- Affiner les expériences : Sur la base des premiers résultats, affiner les tâches prometteuses. Par exemple, si le classificateur RIM-ONE a dépassé 0,90 d'AUC, essayer maintenant d'ajouter de l'augmentation de données ou un réseau légèrement plus profond. Encourager le branching : certains peuvent essayer différentes architectures (par exemple, un Vision Transformer tiny au lieu d'un CNN). Les agents peuvent exécuter plusieurs variantes de
-
Au-delà de 12 semaines : Prochaines étapes
- Continuer les boucles sur les tâches les plus prometteuses et les nouvelles. Par exemple, si RIM-ONE donne de bons résultats, s'attaquer ensuite à REFUGE. Peut-être construire des modèles composites (ensemble de CNN).
- Officialiser une page de projet ou une prépublication décrivant l'effort.
- Envisager d'organiser un hackathon pour attirer davantage de cerveaux, éventuellement en partenariat avec une association caritative pour le glaucome.
7. Risques, limites et évaluation honnête
L'idée de l'autorecherche pour le glaucome est ambitieuse, elle exige donc une honnêteté concernant les pièges potentiels :
-
Risque de surapprentissage et de motifs fallacieux : Les petits modèles sur de petits jeux de données bruyants s'accrochent souvent à des coïncidences. Un agent pourrait trouver un ajustement qui améliore l'AUC de validation simplement en surapprenant les idiosyncrasies. Par exemple, si un sous-ensemble d'images présentait une marque d'annotation subtile, le réseau pourrait l'utiliser au lieu de véritables caractéristiques du glaucome. Cela conduit à une « duperie par descente de gradient ». Pour atténuer cela :
- Toujours utiliser des jeux de test mis de côté (complètement séparés de tout ajustement) pour l'évaluation finale.
- Limiter la complexité : maintenir des modèles modestes et surveiller si l'agent approfondit ou élargit excessivement le réseau au-delà du raisonnable.
- Si un modèle atteint un score quasi parfait trop rapidement, le remettre en question.
- Utiliser des vérifications de bon sens : par exemple, brouiller les étiquettes et voir si l'AUC chute au hasard (si non, il y a une fuite).
-
Biais et qualité des données : Les jeux de données publics sur le glaucome proviennent souvent de populations restreintes (par exemple, ORIGA de Singapour) (pubmed.ncbi.nlm.nih.gov). Un modèle ajusté à ceux-ci pourrait ne pas généraliser. Les expériences citoyennes devraient noter cette limitation. Idéalement, plusieurs jeux de données (issus de différentes cohortes) sont utilisés pour vérifier la robustesse des résultats.
-
Faux-semblants (« Théâtre de la recherche ») : Exécuter des tonnes d'expériences peut sembler productif, mais si chaque amélioration n'est que sur des jeux de données synthétiques ou triviaux, cela pourrait ne pas bénéficier aux patients. Pour éviter cela :
- Se concentrer sur des tâches ayant une pertinence clinique (par exemple, la détection précoce à partir d'OCT de routine).
- Relier les résultats à des mesures réelles lorsque c'est possible (par exemple, l'AUC pour la progression, et pas seulement une petite différence de perte).
- Prioriser l'interprétabilité : si l'agent « trouve » un nouveau biomarqueur, essayer de s'assurer qu'il a du sens (par exemple, se concentre-t-il sur des changements anatomiques connus ?).
-
Aucune garantie clinique : Il doit être clair comme de l'eau de roche : les résultats de ces boucles sont générateurs d'hypothèses, pas des conseils médicaux. Un modèle suggérant un nouveau médicament doit être vérifié en laboratoire avant toute utilisation chez le patient. Les affirmations excessives sont dangereuses. Étiqueter tous les résultats partagés avec des avertissements : « Ceci est une exploration par l'IA et non une découverte examinée par des pairs. »
-
Limitation des « petits modèles » : Les réseaux très petits ont une capacité limitée. Ils peuvent manquer des motifs complexes. En revanche, les grands modèles voient souvent des percées mais nécessitent d'énormes quantités de données. Ici, nous acceptons une portée limitée : l'espoir est que même de petites améliorations puissent guider la recherche. Mais nous ne devrions pas nous attendre à ce que ces modèles remplacent l'apprentissage profond sur des données massives. Ils sont meilleurs pour essayer rapidement des idées évidentes.
-
Fiabilité de l'agent : L'agent (par exemple, GPT-4) pourrait halluciner ou dévier. Il est important que les résultats soient reproductibles : après une exécution de l'agent, un humain devrait vérifier les modifications conservées et relancer l'entraînement pour confirmer la métrique. Garder l'agent honnête en incluant des déclarations dans
program.mdtelles que « n'accepter que les améliorations réelles de la métrique d'évaluation ».
Malgré ces défis, le principal garde-fou est la transparence et un suivi critique. Documentez tout. Lorsqu'un modèle montre un motif, vérifiez-le. Si de nombreux scientifiques citoyens observent la même anomalie (par exemple, tous les modèles à AUC élevée pour une tâche OCT mettent l'accent sur la région rétinienne nasale), cela renforce l'argument. L'objectif est d'accélérer la phase de génération d'idées, et non d'éviter une science rigoureuse par la suite.
Conclusion
Le glaucome est une maladie cécitante complexe et silencieuse avec de nombreux besoins de recherche non satisfaits – de la protection des neurones à la restauration de la vision. En même temps, l'IA a démocratisé l'expérimentation : une personne avec un GPU et une certaine détermination peut effectuer des recherches automatisées d'hyperparamètres qui prendraient des semaines aux équipes manuellement. Le cadre d'autorecherche de Karpathy confie essentiellement à chaque citoyen un assistant de laboratoire IA. En écrivant des objectifs de haut niveau clairs en Markdown, les chercheurs de la communauté peuvent laisser un agent traiter les produits et aller directement aux pistes prometteuses.
Nous avons décrit comment cela peut être fait en pratique : identifier les tâches de ML sur le glaucome, sélectionner les données (images du fond d'œil et OCT, champs visuels, ensembles de données moléculaires), définir les modèles et les métriques, et utiliser les instructions du programme pour guider la recherche. Nous avons esquissé une feuille de route communautaire de 90 jours et noté les liens avec les cliniciens pour garantir que les résultats précieux puissent éclairer la science réelle du glaucome. L'approche est très axée sur la « science citoyenne » : ouvrir les outils de découverte scientifique de manière accessible, tout en s'appuyant sur la supervision d'experts là où cela compte.
Citations : Nous avons référencé les ressources les plus récentes en matière de recherche sur le glaucome et d'IA. Les faits clés (prévalence de la maladie, moitié non diagnostiquée (physionet.org)), les thérapies prometteuses (implants de CNTF (pmc.ncbi.nlm.nih.gov), édition génique (pmc.ncbi.nlm.nih.gov)), et les pièges cachés (IA en imagerie (pmc.ncbi.nlm.nih.gov)) sont fondés sur la littérature actuelle. L'autorecherche elle-même est décrite dans la présentation de Karpathy (medium.com) et une revue (www.theneuron.ai). Celles-ci devraient conférer de la crédibilité à la vision exposée ici.
Au final, nous espérons que le lecteur se sentira autonome : si vous êtes un patient, un soignant ou un passionné, vous pourriez participer à l'avancement de la recherche sur le glaucome. Les outils et les données existent, les problèmes sont clairs, et avec une coordination et un agent IA, nous pouvons accélérer l'apprentissage. Comme pour toute recherche, le parcours comportera de faux départs, mais même les échecs nous apprennent quelque chose – orientant souvent l'esprit humain vers les bonnes approches. Les yeux grands ouverts sur les possibilités et les pièges, l'autorecherche menée par les citoyens pourrait devenir un complément puissant à la science traditionnelle du glaucome.
Commencez ici
La manière la plus simple de vous lancer dans l'autorecherche pour le glaucome aujourd'hui : Exécuter une petite classification sur les images du fond d'œil ORIGA.
- Obtenez les données : Téléchargez le jeu de données ORIGA-light (650 images du fond d'œil rétinien étiquetées normal vs glaucome) (pubmed.ncbi.nlm.nih.gov). Divisez-le en environ 80 % d'entraînement / 20 % de validation.
- Modèle initial : Utilisez ou adaptez le script d'exemple de [karpathy/autoresearch] pour la classification d'images. Par exemple, un peu de code pour charger les images ORIGA et entraîner un petit CNN (2-3 couches de convolution) pour distinguer le glaucome du sain.
- Écrivez
program.md: Dans le texte, définissez l'objectif comme « maximiser l'AUC de validation pour la détection du glaucome », et instruisez l'agent qu'il peut ajuster la profondeur du modèle, le taux d'apprentissage, etc. Par exemple :
Objectif : Maximiser l'AUC sur le glaucome vs normal pour le jeu de données ORIGA.
L'agent doit essayer d'ajuster les tailles des couches de convolution, le nombre de filtres et le taux d'apprentissage. Chaque essai dure 5 minutes d'entraînement. Si l'AUC de validation s'améliore, conservez le changement. Répétez.
- Lancez la boucle : Lancez l'autorecherche (pointez-la vers vos
prepare.py,train.pyetprogram.md). Laissez-la tourner pendant plusieurs heures ou toute une nuit sur votre RTX 3060. Elle effectuera environ 100 expériences automatiquement. - Vérifiez les résultats : Examinez la console ou le journal pour voir le meilleur AUC de validation atteint (devrait être >0,8 si tout se passe bien). Vous disposez maintenant d'un modèle et d'un script d'entraînement que l'agent IA a affinés.
Cette simple expérience de week-end vous donne déjà une expérience concrète de la construction d'un pipeline ML sans écrire de nouveau code à la main. Documentez ce que vous avez essayé et partagez votre program.md et vos résultats avec la communauté. Chaque petit succès (améliorations de l'AUC, changements intéressants dans le réseau) est un élément constitutif. Vous instruisez littéralement une IA à faire de la recherche sur le problème de glaucome de votre choix – et ce faisant, vous apprenez à la fois la science des données du glaucome et avez l'espoir de faire une différence dans la compréhension ou le traitement de la perte de vision.
Bonne chance ! Gardez les questions et les découvertes en open source, et rappelez-vous : il s'agit d'outils de recherche-jouets, pas de conseils médicaux. Vérifiez attentivement vos exécutions et profitez du processus de découverte.
**`
