Ojos bien abiertos: Cómo el framework Autoresearch de Karpathy podría democratizar la investigación del glaucoma

Introducción

El glaucoma es una neuropatía óptica crónica que destruye progresivamente las células ganglionares de la retina (CGR) y conduce a una pérdida de visión irreversible. Afecta a millones de personas en todo el mundo – se estima que 64,3 millones de personas en 2013, proyectándose que superará los 110 millones para 2040 (physionet.org). Preocupantemente, aproximadamente la mitad de todos los casos permanecen sin diagnosticar hasta que la pérdida de visión ya ha comenzado (physionet.org). El cuidado tradicional del glaucoma se centra en reducir la presión intraocular (PIO) mediante medicamentos o cirugía, pero estos tratamientos no pueden revertir el daño ni prevenir completamente la ceguera (pmc.ncbi.nlm.nih.gov) (physionet.org). Como resultado, existe una necesidad urgente de nuevos descubrimientos en áreas como la neuroprotección, la regeneración de CGR/nervio óptico y las terapias génicas y celulares innovadoras. Sin embargo, la investigación académica y farmacéutica en estas fronteras sigue estando insuficientemente financiada, en parte porque son esfuerzos a largo plazo y de alto riesgo. Mientras tanto, los avances en aprendizaje automático (ML) e inteligencia artificial (IA) están impulsando nuevos enfoques para el análisis de datos y el diseño generativo.

Trabajos recientes (por ejemplo, el proyecto “autoresearch” de Andrej Karpathy (www.theneuron.ai) (medium.com)) sugieren que los agentes de IA pueden ejecutar de forma autónoma cientos de pequeños experimentos en una única GPU basándose solo en instrucciones sencillas de alto nivel. En este paradigma, un humano escribe un breve program.md que describe el objetivo de la investigación, y un agente de IA ajusta iterativamente el modelo o los hiperparámetros, ejecutando entrenamientos de 5 minutos, conservando los cambios exitosos y descartando otros (medium.com) (www.theneuron.ai). De la noche a la mañana, este bucle puede realizar alrededor de 100 experimentos, explorando la arquitectura y el espacio de parámetros sin necesidad de codificación manual.

Este artículo explora cómo el framework autoresearch de Karpathy podría aplicarse a la investigación del glaucoma por parte de pacientes motivados, cuidadores, científicos ciudadanos y desarrolladores de código abierto. Examinaremos áreas de investigación del glaucoma poco exploradas (neuroprotección, regeneración, etc.) e identificaremos tareas de aprendizaje automático en cada dominio donde la experimentación con modelos pequeños podría ser plausiblemente útil. Para cada tarea, sugerimos conjuntos de datos públicos específicos, modelos/arquitecturas de referencia, métricas de evaluación y esbozamos cómo podrían ser las instrucciones program.md del agente. Luego discutimos los pasos prácticos para que una comunidad configure y comparta dichos experimentos, incluyendo consideraciones de hardware, preparación de datos y plataformas de colaboración. Examinamos el contexto específico de las terapias de restauración de la visión y si los bucles de estilo autoresearch podrían acelerar la optimización de prótesis neurales u otras intervenciones. Finalmente, abordamos cómo las hipótesis generadas por ciudadanos podrían ser validadas y escaladas a los médicos, y presentamos una hoja de ruta concreta de 90 días para lanzar una iniciativa de autoresearch liderada por pacientes – incluyendo cómo evitar las trampas del “teatro de investigación” y asegurar un impacto real. A lo largo del texto, citamos fuentes actuales sobre investigación del glaucoma e IA en la visión, buscando una guía equilibrada, realista y accesible.

1. El panorama de la investigación del glaucoma y las necesidades no cubiertas

La investigación del glaucoma abarca múltiples frentes – desde la comprensión de los mecanismos de la enfermedad hasta el desarrollo de nuevas terapias para la neuroprotección y la restauración de la visión. Muchas áreas prometedoras están insuficientemente financiadas:

Neuroprotección: Intervenciones que protegen las CGR de la muerte (independientemente de la PIO). Ejemplos incluyen factores neurotróficos y apoyo metabólico. Por ejemplo, los implantes que liberan el factor neurotrófico ciliar (FNC) han mostrado potencial en ensayos tempranos (pmc.ncbi.nlm.nih.gov), y otras moléculas como el factor de crecimiento nervioso y la citicolina están siendo investigadas (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Sin embargo, aún no son tratamientos estándar, y se necesita más trabajo para traducirlos a los pacientes. Una revisión de 2025 advierte que las terapias neuroprotectoras para el glaucoma son un “tratamiento futuro” que necesita más ensayos (pmc.ncbi.nlm.nih.gov), lo que refleja una necesidad no cubierta.
Regeneración de CGR y Regeneración del Nervio Óptico: Una vez que las CGR y sus axones mueren, la medicina actual no tiene forma de revertirlo. Algunos estudios en animales utilizan terapias génicas para reprogramar las CGR o estimular el rebrote. Por ejemplo, la represión basada en CRISPR de PTEN (un regulador negativo del crecimiento) ha promovido el rebrote axonal en células neurales de rata (pmc.ncbi.nlm.nih.gov), y experimentos de co-deleción de PTEN y SOCS3 impulsaron una regeneración sostenida del nervio óptico en ratones (pmc.ncbi.nlm.nih.gov). Sin embargo, estos avances permanecen en modelos de laboratorio. La biología subyacente – por ejemplo, cómo recapitular el desarrollo de la retina o sortear los inhibidores del crecimiento – es compleja. Existe una enorme demanda de modalidades (moléculas pequeñas, genes, biomateriales) que podrían estimular la supervivencia de las CGR o el rebrote axonal, pero el progreso hacia los ensayos en humanos es lento.
Terapias Génicas y Celulares: Nuevas tecnologías como CRISPR, vectores virales y CGR derivadas de células madre son prometedoras para el glaucoma. Las estrategias incluyen la edición genética para reducir la PIO (por ejemplo, dirigiéndose a la producción de humor acuoso) o la modulación de las vías neurodegenerativas (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Las células madre podrían (teóricamente) reemplazar las células de la malla trabecular o las CGR perdidas y secretar factores protectores (pubmed.ncbi.nlm.nih.gov). Trabajos iniciales han demostrado que ciertos factores de transcripción (por ejemplo, Oct4-Sox2-Klf4) pueden reprogramar células no-CGR en neuronas tipo CGR en ratones (restaurando la visión en lesiones del nervio óptico) (pmc.ncbi.nlm.nih.gov). Sin embargo, estos enfoques enfrentan desafíos de seguridad y administración antes de llegar a los pacientes. Varias revisiones recientes destacan la terapia génica como una frontera emocionante pero aún no clínica para el glaucoma (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). En resumen, las innovaciones moleculares y celulares están avanzando, pero los recursos y los datos de ensayos son limitados – creando una oportunidad para la exploración computacional (por ejemplo, el diseño de construcciones virales óptimas o la predicción de ediciones genéticas efectivas).
Estimulación Eléctrica y Optogenética para la Restauración de la Visión: Para pacientes con glaucoma avanzado (o enfermedades combinadas como la retinosis pigmentaria), las prótesis de visión artificial o las terapias optogenéticas buscan sortear las CGR dañadas. Los implantes retinianos (matrices de electrodos epiretinales o subretinales) y los implantes corticales han generado percepciones artificiales (“fosfenos”), pero la resolución es baja y los resultados varían ampliamente. Una reciente revisión de 2025 sobre IA en prótesis visuales señala que “los algoritmos de IA prometen optimizar la visión protésica, particularmente a través de una mejor extracción de la saliencia de la imagen y estrategias de estimulación”, aunque hasta ahora la mayoría de los estudios son simulaciones (pmc.ncbi.nlm.nih.gov). En otras palabras, el aprendizaje automático puede ayudar a transformar imágenes de cámara en patrones de estimulación que sean más informativos dadas las limitaciones del dispositivo. La optogenética (sensibilizar a la luz las células retinianas supervivientes) y los pulsos de estimulación eléctrica transcorneal (TES) también están siendo probados para la pérdida de visión relacionada con el glaucoma. Todas estas áreas necesitan una extensa sintonización de parámetros (por ejemplo, patrones espaciotemporales de estimulación, vectores de expresión génica) — tareas potencialmente adecuadas para la búsqueda autónoma de ML.
Mecanismos Independientes de la PIO: Muchas personas continúan perdiendo la visión a pesar de tener la PIO bien controlada. Factores como el flujo sanguíneo ocular deteriorado, la disfunción neurovascular o el estrés metabólico en la cabeza del nervio óptico son reconocidos pero no completamente comprendidos. Los estudios genéticos sugieren componentes significativos de riesgo de glaucoma “independientes de la PIO” (pubmed.ncbi.nlm.nih.gov) (pubmed.ncbi.nlm.nih.gov). Se necesitan urgentemente biomarcadores de estos procesos (más allá de la presión). Además, la mitad de los pacientes con glaucoma tienen la enfermedad de “tensión normal”, lo que destaca que la PIO alta no es el único culpable. La investigación sobre factores vasculares u otras vías de daño está en curso pero fragmentada. El modelado computacional o la minería de grandes conjuntos de datos (por ejemplo, estudios de asociación de genoma completo) podrían ayudar a identificar nuevos mecanismos o dianas terapéuticas en este dominio.
Descubrimiento de Biomarcadores Mediante Imágenes y Campos: La detección temprana y el seguimiento del glaucoma a menudo se basan en imágenes (fotos de fondo de ojo, OCT) y pruebas funcionales (campos visuales). Algoritmos avanzados podrían descubrir biomarcadores sutiles que los médicos humanos pasan por alto. Por ejemplo, el aprendizaje profundo ha comenzado a detectar la pérdida de campo visual preperimétrica (cambios invisibles al análisis estándar del campo) (pmc.ncbi.nlm.nih.gov). De manera similar, la IA se ha utilizado para analizar perfiles de grosor de las capas OCT para predecir el glaucoma antes de un daño manifiesto. Sin embargo, todavía no existen biomarcadores de IA ampliamente aceptados que se utilicen clínicamente para el cribado o la estratificación del riesgo. Los cuellos de botella computacionales aquí incluyen la necesidad de grandes conjuntos de datos bien etiquetados y protocolos de validación robustos (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Los desafíos públicos (REFUGE, AIROGS, etc.) han comenzado a estandarizar los datos, pero la cobertura de la enfermedad en etapa temprana es escasa (pmc.ncbi.nlm.nih.gov). El descubrimiento posterior impulsado por máquinas de biomarcadores multimodales (combinando OCT, campos, genética, etc.) sigue siendo una frontera abierta.

¿Dónde puede ayudar el ML con modelos pequeños? Muchos de los puntos anteriores describen problemas de alto nivel. Los cuellos de botella suelen ser la escasez de datos, muchas variables interactuantes y una biología que avanza lentamente. Donde un agente autoresearch brilla es en la automatización de experimentos a pequeña escala con los datos disponibles. Por ejemplo, si hay un conjunto de datos modesto de escaneos OCT con y sin glaucoma temprano, un científico ciudadano puede configurar un bucle rápido de prueba de modelos para encontrar qué arquitectura los distingue mejor. Del mismo modo, pequeños transformadores en genómica o literatura podrían sugerir nuevos genes o candidatos a fármacos. La clave es centrarse en tareas específicas con métricas definidas (precisión de clasificación, AUC, pérdida) e iterar rápidamente. Las áreas con datos públicos limitados (por ejemplo, parámetros de TES o nuevas mezclas de genes) podrían depender de datos sintéticos o proxies. En la siguiente sección, mapeamos tareas específicas de ML en glaucoma al enfoque de autoresearch.

2. Mapeo de Autoresearch a Problemas de Glaucoma

El framework autoresearch de Karpathy es agnóstico al dominio: puede ejecutar experimentos en cualquier tarea de ML proporcionada por un prepare.py y un train.py con una métrica de evaluación bien definida. Identificamos varias tareas concretas relacionadas con el glaucoma y especificamos cómo un agente podría abordar cada una. Cada caso de uso a continuación incluye: un conjunto de datos disponible públicamente (si es posible), un modelo o arquitectura de inicio, una métrica de evaluación y un boceto de las instrucciones de program.md.

2.1 Análisis de Imágenes OCT (Detección y Segmentación Estructural)

Tarea: Detección Temprana de Glaucoma a partir de Escaneos OCT. La imagen OCT proporciona vistas transversales de las capas retinianas. El adelgazamiento de la capa de fibras nerviosas de la retina (CFNR) y el complejo de células ganglionares (CCG) puede preceder a la pérdida del campo visual. Podemos tratar esto como una tarea de clasificación (glaucoma vs. sano) o de regresión (por ejemplo, grosor de la CFNR de salida).
- Conjunto de datos: Un lanzamiento reciente, SYN-OCT (www.nature.com), es un conjunto de datos sintético de 200.000 imágenes OCT circumpapilares (100k glaucoma, 100k normales) generadas por GANs. Cada imagen tiene asociado un grosor de CFNR y máscaras de segmentación. Estos están disponibles públicamente en Zenodo (www.nature.com). (Aunque sintéticos, están validados estadísticamente para imitar OCT reales (www.nature.com).) Alternativamente, se podría usar el conjunto de datos OCT-DL (www.nature.com) (2064 imágenes de varias enfermedades retinianas) o colecciones clínicas de OCT más pequeñas.
- Modelo: Comience con una pequeña red neuronal convolucional (CNN). Para la clasificación, un modelo con ~3-5 capas convolucionales (por ejemplo, análogo a ResNet-18 truncada, o una pequeña CNN personalizada) puede funcionar. Para la segmentación de CFNR/CCG, un codificador-decodificador como una pequeña U-Net (con profundidad 3-4) es adecuado. El train.py inicial podría implementar una CNN simple y un bucle de entrenamiento, con hiperparámetros predeterminados.
- Métrica: Si se realiza la clasificación de glaucoma en OCT, use AUC (Área bajo la curva ROC) o precisión en una división de validación. Para la segmentación, use el coeficiente de Dice o IoU en las máscaras de la capa CFNR (SYN-OCT proporciona máscaras (www.nature.com)).
- Ejemplo program.md:
  
  "Objetivo: Maximizar el AUC de validación para detectar glaucoma a partir de imágenes OCT. Modificaciones permitidas: número de capas convolucionales, número de filtros, tamaños de kernel, funciones de activación, tasa de aprendizaje, elección del optimizador, tamaño del lote, etc. Después de cada ejecución de entrenamiento de 5 minutos, evaluar el AUC en el conjunto de retención. Si el AUC mejora, mantener el cambio; de lo contrario, revertir." (medium.com) (www.theneuron.ai). El agente, por lo tanto, probará variaciones (por ejemplo, añadir capas, ajustar el ancho, cambiar de Adam a RMSProp) para mejorar el AUC.
Tarea: Segmentación de la Capa CFNR/CCG. La medición precisa del grosor de la CFNR es crucial. Usando escaneos OCT sintéticos (con segmentaciones proporcionadas) o cualquier OCT real con capas anotadas, se puede enmarcar esto como una tarea de segmentación.
- Conjunto de datos: SYN-OCT nuevamente proporciona máscaras de segmentación de CFNR (www.nature.com). Otra fuente: algunos grupos académicos han etiquetado escaneos OCT B (aunque a menudo propietarios). Si es necesario, se podrían usar conjuntos de datos de segmentación OCT genéricos (como el desafío de fluido OCT de retina de Duke (www.nature.com)) como proxies.
- Modelo: Una pequeña CNN tipo U-Net, quizás incluso con canales recortados de una línea de base. Por ejemplo, use 3 bloques de bajada/subida, comenzando con 16 filtros. Se permite al agente cambiar la profundidad y el ancho.
- Métrica: Puntuación de Dice o IoU promedio de la máscara de CFNR predicha frente a la verdad.
- Ejemplo program.md:
  
  "Objetivo: Maximizar la puntuación de Dice para la segmentación de la capa CFNR en OCT. El modelo base es una U-Net de 3 bloques. El agente puede variar el número de filtros, añadir dropout o cambiar la tasa de aprendizaje. Entrenar durante 5 minutos en cada prueba y calcular Dice en la validación. Mantener las modificaciones que aumenten Dice."
Tarea: Predicción de la Progresión mediante OCT Seriados. Usando OCT secuenciales, predecir el adelgazamiento futuro. Si existen datos longitudinales de OCT (por ejemplo, UK Biobank o datos de clínicas privadas), el objetivo podría ser predecir el cambio de CFNR o una etiqueta binaria de “progresor rápido”.
- Conjunto de datos: Los datos públicos longitudinales de OCT específicos para el glaucoma son escasos. Sin embargo, se podrían reutilizar datos de desafíos SR OCT (o imágenes SYN-OCT con progresión simulada) para simular esta tarea. Alternativamente, usar imágenes OCT del UK Biobank (aunque no específicas de glaucoma y no fácilmente accesibles para científicos ciudadanos). A modo de ilustración, asuma un conjunto de datos de escaneos OCT en tiempo0 y tiempo1 con etiquetas.
- Modelo: Una CNN Siamesa o concatenada que tome pares de imágenes OCT, y genere la probabilidad de progresión. Comience alimentando tiempo0 y prediciendo el corte de tiempo1.
- Métrica: AUC para la clasificación de progresión binaria, o ECM si se intenta predecir el cambio de grosor.
- Ejemplo program.md:
  
  "Objetivo: Identificar ojos que tendrán una rápida pérdida de CFNR. Entrada: OCT basal; etiqueta: adelgazamiento >5μm después de 1 año. Usamos un clasificador CNN. Los cambios permitidos incluyen la profundidad de la red, la tasa de aprendizaje, el aumento. Usar el AUC de validación como métrica."

2.2 Análisis del Campo Visual (CV)

Tarea: Predecir la Futura Pérdida de Campo Visual. Dados uno o más exámenes de campo visual de Humphrey pasados (valores de sensibilidad punto por punto), pronosticar la sensibilidad futura o la tasa de progresión. Este es un problema clásico de manejo del glaucoma.
- Conjunto de datos: El conjunto de datos GRAPE (www.nature.com) (2023) proporciona un seguimiento longitudinal de 263 ojos (1115 registros) con CV y fondo de ojo/OCT, incluyendo progresión anotada. Otro recurso es la base de datos longitudinal de CV de la U.S. UH Visual Field (UWHVF) (www.nature.com) (28.943 campos de muchos pacientes). Sin embargo, GRAPE está bien curado y es público con CV y resultados.
- Modelo: Un enfoque simple es una red feed-forward (completamente conectada) sobre los datos de CV de 54 puntos (o comprimir a índices globales). Para la predicción de la progresión, una MLP más pequeña o una CNN 1D puede manejar las 54 o 30 características de entrada. Otra idea: tratar la cuadrícula de 8×8 como una imagen pequeña y usar una CNN pequeña (por ejemplo, kernels de 3×3).
- Métrica: Si se predice la desviación media futura o los valores puntuales, usar ECM (más bajo es mejor). Si se clasifica “progresor rápido vs. no”, usar AUC.
- Ejemplo program.md:
  
  "Objetivo: Minimizar el ECM del campo visual predicho. Alternativamente, maximizar el AUC para clasificar la pérdida rápida. Modelo base: perceptrón de 2 capas sobre 54 valores de CV. El agente puede ajustar el tamaño oculto, la activación o añadir dropout. Después de cada entrenamiento de 5 minutos, calcular la métrica en el conjunto de validación."
Tarea: Identificar Progresores Rápidos. Usando una serie de CVs pasados, clasificar qué ojos perderán la visión rápidamente.
- Conjunto de datos: Usar el estado de progresión anotado en GRAPE (www.nature.com) (marcaron los ojos como progresados). O tomar UWHVF y etiquetar el decil superior de pérdida de DM como “rápido”.
- Modelo: Se podrían concatenar características de dos o tres campos consecutivos (o diferencias) en una red pequeña. Posiblemente incluir PIO basal y edad si están disponibles.
- Métrica: AUC para distinguir progresores rápidos de lentos.
- Ejemplo program.md:
  
  "Objetivo: Maximizar el AUC para predecir la rápida progresión del campo. Características de entrada: diferencias de segundo orden de CV1 y CV2, más PIO. Usar una pequeña red FC. El agente puede ajustar los anchos de capa, la tasa de aprendizaje, el tamaño del lote."

2.3 Cribado de Fármacos/Compuestos (Descubrimiento de Candidatos In Silico)

Tarea: Predecir Compuestos Neuroprotectores/Regenerativos Candidatos. Usar ML para encontrar moléculas pequeñas que puedan proteger las CGR o fomentar la regeneración. Por ejemplo, muchos compuestos conocidos (como la nicotinamida, el valproato) muestran efectos neuroprotectores. Podemos entrenar modelos para reconocer quimiotipos correlacionados con la eficacia conocida y luego buscar en el espacio químico.
- Conjunto de datos: Esto es desafiante debido a la falta de una base de datos de fármacos para el glaucoma dedicada. Como proxy, se podrían usar conjuntos de datos de MolNet (por ejemplo, inhibición del VIH, permeabilidad de la BHE) o cualquier conjunto de datos de bioactividad. Alternativamente, compilar una lista de compuestos probados en modelos de lesión del nervio óptico (a partir de la minería de la literatura) con etiquetas. En la práctica, se podría comenzar con una propiedad más genérica (por ejemplo, datos de penetración de la barrera hematoencefálica de MoleculeNet).
- Modelo: Un pequeño transformador o red neuronal de grafos sobre cadenas SMILES. Un transformador (al estilo GPT-2) con pocas capas o una red convolucional de grafos simple (por ejemplo, 3 capas GCN) se puede implementar en el train.py.
- Métrica: Si lo tratamos como clasificación (activo vs. inactivo), usar AUROC. Si se predice la afinidad o logP, usar RMSE.
- Ejemplo program.md:
  
  "Objetivo: Maximizar el ROC-AUC de clasificación para identificar compuestos similares a neuroprotectores. Modelo base: pequeño transformador sobre SMILES. El agente puede ajustar el número de capas del transformador, el dropout, la tasa de aprendizaje o usar featurizaciones alternativas (por ejemplo, entrada de huella digital). Después de cada 5 minutos, evaluar el AUC en las moléculas de validación."

(Nota: Debido a que los datos públicos para la neuroprotección real son escasos, esta tarea es más ilustrativa. En la práctica, los científicos ciudadanos podrían crear un conjunto de datos personalizado de compuestos neuroprotectores conocidos frente a controles y seguir este patrón.)

2.4 Modelado de Redes Reguladoras de Genes (CGR de Célula Única)

Tarea: Identificar Combinaciones Regenerativas de TF. Usar datos de RNA-seq de célula única de CGR para aprender patrones transcripcionales de crecimiento regenerativo. Por ejemplo, algunos subtipos de CGR se regeneran mejor que otros. Un modelo de ML podría predecir una etiqueta de “estado regenerativo”, y se podría inspeccionar qué factores de transcripción son importantes.
- Conjunto de datos: Un estudio de 2018 proporciona transcriptomas de célula única de CGR (número de acceso GEO GSE115404) (pmc.ncbi.nlm.nih.gov), identificando subtipos distintos de CGR. Podemos usar este conjunto de datos (o un subconjunto) donde las células están etiquetadas por subtipo o por condición experimental (por ejemplo, pre-lesión vs. post-lesión).
- Modelo: Un pequeño transformador o MLP que opere sobre vectores de expresión génica (cada célula tiene miles de abundancias génicas). Prácticamente, se preseleccionarían los ~500 genes principales (por ejemplo, genes altamente variables). El train.py podría implementar un mini-transformador (por ejemplo, 4 capas, incrustación de 256) o un perceptrón simple de 2 capas.
- Métrica: Si se usa un análisis no supervisado, se podría usar la puntuación de silueta, pero más simplemente, si se etiquetan las células como “regeneradoras” vs. “no” (si existen etiquetas), usar la precisión/AUC de clasificación.
- Ejemplo program.md:
  
  "Objetivo: Construir un modelo que distinga perfiles de expresión génica de CGR regeneradoras frente a no regeneradoras. Comenzar con un transformador de 3 capas. El agente puede cambiar la dimensión de incrustación, la profundidad, la tasa de aprendizaje o añadir batchnorm. Optimizar la precisión de validación." Después de las ejecuciones, los pesos de atención o las características aprendidas del mejor modelo podrían resaltar factores de transcripción clave para la experimentación.

2.5 Análisis de Señales Electrofisiológicas

Tarea: Detectar Disfunción Subclínica de CGR mediante ERG. El electrorretinograma de patrón (pERG) u otras señales electrofisiológicas pueden revelar la salud de las CGR. Por ejemplo, las respuestas de ERG retrasadas o reducidas pueden preceder a los defectos del campo visual. Podemos intentar clasificar las señales como “normales” vs. “sospecha de glaucoma”.
- Conjunto de datos: Los conjuntos de datos públicos de ERG en glaucoma son raros. Se podría usar un sustituto: un conjunto de datos de animales (degeneración retiniana) o señales sintéticas. Si no están disponibles, incluso los conjuntos de datos electrofisiológicos 1D genéricos (por ejemplo, ECG) podrían ilustrar el pipeline.
- Modelo: Una CNN 1D (por ejemplo, 2 capas convolucionales seguidas de FC) sobre los datos de series temporales. Alternativamente, se puede usar un LSTM si las secuencias son más largas.
- Métrica: Precisión o AUC en la clasificación de una disfunción sutil frente a la normal. Posiblemente F1 si las clases están desequilibradas.
- Ejemplo program.md:
  
  "Objetivo: Maximizar la precisión de validación para clasificar trazas de ERG (patrón sano vs. glaucoma temprano). Usar una CNN 1D. El agente puede ajustar los tamaños de filtro, el paso o añadir una capa recurrente. Mantener cualquier cambio que mejore la precisión."

2.6 Minería de Literatura (Generación de Hipótesis)

Tarea: Ajustar un Modelo de Lenguaje Pequeño para Descubrir Nuevos Insights. Con miles de artículos de investigación sobre glaucoma en PubMed, un agente de ML podría buscar conexiones o candidatos de reutilización. Por ejemplo, vincular vías neuroprotectoras con fármacos existentes. Podemos tratar esto como un problema de modelado de lenguaje o como un problema de recuperación.
- Conjunto de datos: Compilar un corpus de resúmenes relacionados con el glaucoma (por ejemplo, usar la búsqueda de PubMed para “glaucoma gene therapy”, etc.). Se pueden descargar ~10.000 resúmenes a través de las API de NCBI. Para un comienzo más simple, usar artículos de glaucoma de acceso abierto de PMC.
- Modelo: Un pequeño modelo de lenguaje transformador (por ejemplo, GPT-2 de 6 capas) o incluso BERT ajustado. Para fines de autoresearch, probablemente ajustaremos un modelo causal (GPT) en el texto.
- Métrica: Normalmente, se optimiza la pérdida de validación (perplejidad). Si se realiza una clasificación (por ejemplo, dado un resumen, predecir una etiqueta para un fármaco o una vía), usar precisión/AUC.
- Ejemplo program.md:
  
  "Objetivo: Minimizar la perplejidad de validación de un pequeño GPT-2 en el corpus de literatura sobre glaucoma. Usar ejecuciones de ajuste fino de 5 minutos. El agente puede variar el número de capas, el tamaño oculto, la tasa de aprendizaje, la longitud del contexto. Mantener los cambios que reduzcan la perplejidad." Una vez entrenado, se puede pedir a este modelo que genere hipótesis (por ejemplo, “Principales fármacos candidatos para la reutilización en la neuroprotección del glaucoma: ...”).

En cada uno de estos dominios, la clave es que una única GPU y ejecuciones breves permiten muchas pruebas. No esperamos que el agente codifique nuevos algoritmos desde cero, sino que ajuste un script de entrenamiento existente. El papel humano es escribir program.md para guiar la búsqueda del agente hacia un objetivo específico del glaucoma (como maximizar el AUC en un conjunto de datos de fondo de ojo o predecir el grosor de la CFNR). Los ejemplos anteriores ilustran cómo se podría configurar inicialmente el train.py y cómo program.md impulsa a mejorar una métrica elegida (medium.com) (www.theneuron.ai).

3. Guía Práctica de Implementación de la Ciencia Ciudadana

¿Cómo pueden las personas motivadas con recursos limitados (por ejemplo, una sola RTX 3060 o un MacBook con Apple Silicon) aplicar realmente autoresearch a los problemas del glaucoma? La buena noticia es que el repositorio de Karpathy es pequeño y tiene una guía para escalar. Aquí hay pasos y consejos clave:

Configuración del Entorno: Clone el repositorio karpathy/autoresearch. Necesitará un Python moderno e idealmente acceso a un LLM (el agente en sí suele ser un LLM preentrenado como GPT-4 o Claude que edita el código). Para GPUs, instale PyTorch con soporte CUDA/metal adecuado. Para Apple Silicon, use una de las bifurcaciones (por ejemplo, MLX) o una compilación de PyTorch para M1/M2 (consulte la documentación del repositorio). En Windows/Linux con una 3060 o 4070, funciona PyTorch CUDA normal.
Configuración para GPU Pequeña: El autoresearch predeterminado usa un modelo tipo GPT con ~50M de parámetros y secuencias de longitud 1024 (medium.com), lo que puede ser pesado. Para una GTX 3060 (12 GB), debe reducir el tamaño del modelo y la longitud de la secuencia. En train.py, establezca MAX_SEQ_LEN=512 o incluso 256. Reduzca el número de capas y el ancho (el GPT mediano tiene ~8 capas; pruebe 4 capas, 256 de ancho). Las instrucciones en la comunidad mencionan la reducción de “DEPTH”, “WIDTH”, etc. También puede reducir la memoria del optimizador utilizando tamaños de lote más pequeños (incluso 16 u 8). El agente aún puede mutar estos parámetros, pero darle un punto de partida más pequeño asegura ejecuciones de menos de 5 minutos. El README de autoresearch GitHub y las discusiones de problemas también señalan que los chips Mac M1 pueden manejar secuencias más cortas (por ejemplo, 256 tokens) debido a la memoria limitada; un escalado similar se aplica a cualquier GPU.
Preparación de Datos de Glaucoma: Los datos de cada tarea deben cargarse y dividirse. Los conjuntos de datos públicos de glaucoma incluyen:
- Conjuntos de Datos de Fondo de Ojo: ORIGA(-light) (650 imágenes etiquetadas (pubmed.ncbi.nlm.nih.gov)), RIM-ONE DL (485 imágenes con segmentaciones de copa/disco (github.com)), REFUGE (más de 1200 imágenes, con divisiones de entrenamiento/prueba (refuge.grand-challenge.org)), el nuevo Conjunto de Datos de Glaucoma Hillel Yaffe (HYGD) con ~1200 imágenes de fondo de ojo y etiquetas de alta calidad (physionet.org). EyePACS/AIROGS (decenas de miles de imágenes retinianas) también es accesible públicamente mediante registro (por ejemplo, Kaggle).
- Conjuntos de Datos OCT: SYN-OCT (200k escaneos B sintéticos con máscaras CFNR (www.nature.com) (www.nature.com)), OCTDL (2064 imágenes de varias enfermedades retinianas (www.nature.com)), y otros de desafíos públicos.
- Datos de Campo Visual: GRAPE (263 ojos, CV longitudinal más imágenes (www.nature.com)). UWHVF (28k pruebas de CV) está abierto si se descarga del repositorio de la Universidad de Washington (www.nature.com). Algunos desafíos de Kaggle incluyen datos de CV.
- Electrofisiología: No se conoce un gran conjunto de datos ERG de glaucoma abierto, pero se podría comenzar con cualquier dato de señal normal vs. glaucoma accesible.
- Datos Químicos/Genéticos: Se pueden reutilizar conjuntos de datos estándar como MoleculeNet (para compuestos) o GEO (para genes). Por ejemplo, descargar los recuentos brutos de GSE115404 (mediante consulta GEO (pmc.ncbi.nlm.nih.gov)) y preprocesar a matrices de expresión.
Para cada uno, necesita un prepare.py que cargue los datos y defina train_set, val_set y una función de evaluación. La plantilla de Karpathy espera que prepare.py genere datos de entrenamiento y una rutina de evaluación que devuelva una pérdida o métrica. Por ejemplo, prepare.py para RIM-ONE podría cargar imágenes y CC etiquetadas como glaucoma, dividirlas en carpetas de entrenamiento/validación y definir una función que calcule el AUC de validación. CONSULTE [14†L71-L79] para saber cómo está estructurado RIM-ONE.
Ajuste de Datos a Pequeña Escala: Si los conjuntos de datos son grandes (como EyePACS o SYN-OCT), puede submuestrear para crear un conjunto de datos “pequeño” de unos pocos cientos de ejemplos (el modelo aún puede aprender algo valioso en un corpus pequeño). El repositorio de autoresearch incluso menciona el uso de conjuntos de datos pequeños al estilo “TinyStories” para ejecutar en hardware pequeño. Por ejemplo, elija 500 imágenes de ORIGA (equilibradas), o 1000 campos visuales de GRAPE. Del mismo modo, para el lenguaje, se podría usar un subconjunto de 5.000 resúmenes de artículos de PubMed sobre glaucoma. La clave es un conjunto de datos fijo sobre el que el agente itere. Asegúrese de pre-mezclar y dividir 80/20 para que cada ejecución de 5 minutos vea la misma división de entrenamiento/validación.
Estrategias para Escribir program.md: La comunidad debe compartir diferentes indicaciones de program.md (como “recetas”) en el control de versiones. Cada archivo podría codificar una estrategia de investigación. Por ejemplo, una estrategia podría decir “aumentar la profundidad de la red si la profundidad es <6, de lo contrario reducir la tasa de aprendizaje”, mientras que otra podría decir “centrarse en los cambios de aumento de datos”. Con el tiempo, los grupos pueden comparar qué estrategias arrojaron mejores métricas en las tablas de clasificación. Un buen program.md incluye un objetivo (por ejemplo, maximizar el AUC o minimizar la pérdida de validación) e insinúa mutaciones permitidas (capas, filtros, LR). El LLM del agente usa estas instrucciones para proponer ediciones de código. Mantenga las métricas estandarizadas (por ejemplo, siempre informe el AUC para las tareas de clasificación de glaucoma) para que los experimentos sean comparables.
Colaboración Comunitaria: Para que este esfuerzo sea escalable, una comunidad de ciencia ciudadana debe organizarse:
- Registros de Experimentos Compartidos: Publique los resultados de cada experimento (por ejemplo, “La ejecución #27 del programa-v1 logró un AUC de validación=0.82 con ancho=4, profundidad=3”).
- Métricas Estandarizadas: Defina métricas para cada tarea: por ejemplo, “AUC de glaucoma OCT”, “AUC de progresión de CV”, “AUC de atributo”, etc. Una tabla de clasificación compartida (similar al val_bpb de autoresearch) puede rastrear las mejores puntuaciones. Por ejemplo, un Slack o GitHub Actions podría recopilar el mejor AUC de cada agente semanalmente.
- program.md con Control de Versiones: Aloje todos los program.md en un repositorio de GitHub. Los miembros pueden bifurcar y proponer nuevas estrategias (a través de pull requests) manteniendo las versiones históricas. De esta manera, se pueden probar múltiples enfoques en paralelo (por ejemplo, “program_word2vec.md” vs. “program_transformer.md”).
- Intercambio de Datos y Código: Utilice repositorios públicos o cuadernos para scripts de preparación de datos, y comparta las modificaciones de train.py encontradas por el agente (para reproducir en frameworks de ML estándar). Vincular a las fuentes de datos originales (Kaggle, PhysioNet, Zenodo) asegura que otros puedan descargar los mismos datos.

Al reducir las barreras técnicas (el agente edita el código, el usuario edita las instrucciones en Markdown) y al coordinar esfuerzos (registros compartidos, tablas de clasificación), los científicos ciudadanos pueden explorar colectivamente las opciones de hiperparámetros/modelos para estos problemas de ML en glaucoma. En esencia, invierten la creatividad humana en definir objetivos, y dejan que el agente realice el trabajo pesado de 100 experimentos durante la noche por cada objetivo (medium.com) (www.theneuron.ai).

4. La Restauración de la Visión Específicamente

La restauración de la visión – recuperar la vista después del daño – es un objetivo particularmente emocionante para la optimización impulsada por IA. La investigación actual de restauración de la visión asistida por IA incluye implantes retinianos, prótesis corticales y optogenética. Así es como un bucle de autoresearch podría encajar:

Optimización de la Codificación de Prótesis Visuales: Las prótesis modernas (implantes retinianos o cámaras vinculadas a matrices de electrodos) intentan traducir una imagen de cámara en patrones de estimulación eléctrica que el cerebro interpreta como visión. El desafío es que el “ancho de banda” de los electrodos es muy limitado (a menudo solo decenas a unos pocos cientos de puntos) (pmc.ncbi.nlm.nih.gov). Se puede entrenar un modelo de ML (una pequeña CNN o un transformador) para mapear imágenes de entrada a mapas de estimulación ideales, pero los mejores hiperparámetros o arquitecturas para esta traducción son desconocidos. Un agente de autoresearch podría ejecutar 100 variaciones de un modelo de “codificador neural” en horas. Por ejemplo, configurar un conjunto de datos de pares imagen→estimulación (ya sean fosfenos simulados o datos de pacientes) y hacer que el agente optimice la red codificadora para minimizar una pérdida de reconstrucción o maximizar una métrica de utilidad (integridad del contraste, precisión de reconocimiento). El agente podría intentar añadir capas de atención, cambiar los tamaños de convolución o ajustar las tasas de aprendizaje. A lo largo de muchas ejecuciones, se podrían encontrar pequeñas redes que entreguen salidas protésicas más salientes. Algunos trabajos recientes ya utilizan IA para extraer la saliencia visual para prótesis (pmc.ncbi.nlm.nih.gov); autoresearch podría automatizar la sintonización de tales pipelines.
Patrones de Estimulación Optogenética: En la terapia optogenética, las CGR supervivientes u otras células retinianas se vuelven sensibles a la luz (mediante genes introducidos). Las entradas de una cámara deben codificarse en pulsos de luz. Aquí, de nuevo, un modelo de ML puede controlar los patrones. Se podría enmarcar una tarea de juguete: una pequeña red transforma la imagen de la cámara en un mapa de intensidad de luz (las mismas dimensiones que las células). El objetivo del agente podría ser maximizar alguna métrica de estimulación efectiva (por ejemplo, maximizar la activación de las células objetivo en una retina simulada). Cada ensayo podría ejecutar una simulación rápida de la respuesta. A lo largo de las iteraciones, el agente podría explorar duraciones de pulso o filtros espaciales. Por ejemplo, ajustar la agresividad de un filtro pasa-altas en la entrada de la cámara podría ser beneficioso para algunos patrones. El punto es que muchos parámetros analógicos (kernels de filtro, no linealidad, codificación de pulsos temporales) pueden ser barridos automáticamente.
Optimización de Patrones de Pulsos (TES e Implantes): Incluso los dominios no relacionados con el aprendizaje automático pueden beneficiarse de una búsqueda rápida. Por ejemplo, un estudio reciente (Xie et al. 2025) encontró que duraciones de pulso más cortas y la inserción de intervalos interfase mejoraron significativamente la activación cortical para implantes retinianos (pmc.ncbi.nlm.nih.gov). Esto sugiere que el espacio de parámetros de la estimulación eléctrica tiene efectos fuertes y no intuitivos. Un agente autoresearch podría tratar los parámetros del protocolo de estimulación (duración de la fase, frecuencia, intervalo) como “parámetros de red” y ejecutar muchos experimentos pequeños (cada uno simulado o empírico) para maximizar la respuesta cortical. Por ejemplo, configurar un modelo eléctrico simplificado (o usar datos de potenciales evocados registrados) en prepare.py y dejar que el agente ajuste los parámetros de train.py como la temporización de los pulsos para maximizar una amplitud de respuesta definida. Esto es similar a automatizar lo que los neurocientíficos aficionados hacen manualmente.
Diseño de Vectores Virales y Geometría de Andamios: En un desarrollo de terapias más exploratorio, el enfoque de bucle del agente también podría abordar optimizaciones biomédicas. Por ejemplo, el diseño de cápsides virales de AAV o promotores para dirigir las CGR podría ser guiado por pequeños modelos predictivos (por ejemplo, regresión logística sobre características de secuencia). Autoresearch podría intentar repetidamente modificar un modelo que predice el tropismo o la expresión (entrenado, por ejemplo, en pequeñas bibliotecas virales) para mejorar esa predicción. De manera similar, si alguien tiene código de simulación para el crecimiento en andamios nerviosos (para la reparación del nervio óptico), el agente podría ajustar los parámetros geométricos para maximizar la extensión axonal. Estos son avanzados, pero conceptualmente encajan – el “agente como experimentador” podría ajustar los parámetros del modelo o de la simulación para obtener mejores resultados.

En resumen, cualquier aspecto de la prótesis o restauración de la visión que dependa de algoritmos parametrizados podría mejorarse mediante iteraciones rápidas. Es importante destacar que la limitación es que generalmente solo tenemos datos de simulación para muchas de estas tareas; la prueba real en pacientes de cientos de variantes no es posible. Pero autoresearch puede operar in silico para proponer los mejores candidatos para pruebas clínicas posteriores. Como señaló la revisión de prótesis, “asegurar que los fosfenos se generen de manera fiable en ubicaciones precisas… es un desafío importante” y “los modelos impulsados por IA han mostrado potencial” en esta área (pmc.ncbi.nlm.nih.gov). Autoresearch podría acelerar significativamente la búsqueda de las mejores configuraciones de esos modelos de IA.

5. Conectando con el Impacto Clínico

Los resultados computacionales deben, en última instancia, conectarse con la investigación y el cuidado reales del glaucoma. ¿Cómo pueden validarse y avanzarse las ideas generadas por autoresearch liderado por pacientes?

Colaboración con Grupos de Investigación: Los científicos ciudadanos deben contactar con consorcios de investigación del glaucoma establecidos. Ejemplos incluyen el International Glaucoma Genetics Consortium (IGGC) y el consorcio NEIGHBORHOOD, que agrupan datos genéticos y clínicos (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Los hallazgos de autoresearch (por ejemplo, un nuevo gen candidato o una hipótesis de reutilización de fármacos) podrían compartirse con dichos grupos para un seguimiento experimental. Los laboratorios de cultivo de tejidos (por ejemplo, en las principales universidades) o los investigadores del sueño podrían probar compuestos en la supervivencia de las CGR. Los médicos académicos pueden correlacionar cualquier biomarcador o clasificador de imágenes con los datos de sus pacientes bajo aprobación del IRB. Iniciar diálogos entre grupos de tipo hackathon y laboratorios formales es clave.
Compromiso con Organizaciones de Defensa de Pacientes: Grupos como la Glaucoma Research Foundation o la Cure Glaucoma Foundation a menudo financian la innovación centrada en el paciente. Podrían patrocinar proyectos de prueba de concepto o competiciones ciudadanas utilizando autoresearch. Estas organizaciones tienen redes de clínicos y podrían ayudar a dirigir pistas de modelos prometedoras a la clínica. Por ejemplo, si un agente identifica un fármaco existente aprobado por la FDA como neuroprotector, un grupo de defensa podría ayudar a establecer un pequeño ensayo bajo protocolos adecuados. Destacar los éxitos requerirá enmarcar los resultados como hipótesis (no consejos médicos) y garantizar la transparencia.
Salvaguardias Éticas y de Seguridad: Los científicos ciudadanos deben usar solo datos públicos desidentificados o datos completamente sintéticos. Cualquier uso de registros reales de pacientes requiere un protocolo aprobado por el IRB (y probablemente el consentimiento del paciente). Los resultados de los bucles de autoresearch deben etiquetarse claramente como generadores de hipótesis. Por ejemplo, “Este modelo sugiere que el Fármaco X puede proteger las CGR – se necesita validación experimental.” Las decisiones médicas críticas deben permanecer en manos de los médicos. Los riesgos incluyen la distribución inadvertida de modelos que predicen resultados personales (progresión del glaucoma) – son necesarias exenciones de responsabilidad explícitas para no tratarlos como herramientas de diagnóstico. Las mejores prácticas de privacidad de datos (por ejemplo, el uso de campos agregados o anonimizados) son imprescindibles.
Precedentes en la Ciencia Ciudadana: No es inusual que los aficionados contribuyan a la investigación médica/neurocientífica. El proyecto Eyewire (el juego de mapeo de neuronas de MIT con financiación colectiva) movilizó a voluntarios para reconstruir circuitos neurales retinianos (www.citizenscience.gov). En oftalmología, los no expertos han ayudado a anotar imágenes en desafíos financiados por OpenAI (por ejemplo, conjuntos de datos etiquetados para enfermedades oculares). Fuera del cuidado ocular, juegos como Foldit (rompecabezas de plegamiento de proteínas) y Galaxy Zoo (clasificación de galaxias) muestran que la participación ciudadana puede resolver problemas científicos difíciles. Estos éxitos alientan la idea de que muchas manos (y ahora IAs) pueden de hecho ayudar a la investigación compleja. El enfoque de autoresearch es como dar a cada persona un asistente de laboratorio impulsado por IA: los esfuerzos previos de crowdsourcing solo usaban humanos para analizar tareas fijas, mientras que aquí el humano establece el objetivo y la IA hace la iteración.

Al ser transparente, cautelosa y colaborativa, una iniciativa de autoresearch de ciencia ciudadana puede ganarse la confianza. Debe enfatizar “generar pistas, no recetas”. Si la comunidad documenta métodos y comparte el código abiertamente, los investigadores profesionales pueden reproducir los hallazgos. Por ejemplo, si alguien encuentra una nueva combinación de factores protectores de CGR, podría publicarla en una preimpresión o alertar a un laboratorio. Las referencias estilo cita (como hacemos aquí) ayudan a establecer puentes: por ejemplo, “Tratamos su lista de fármacos candidatos en el contexto de vías conocidas (pmc.ncbi.nlm.nih.gov).” En última instancia, esta es una forma de ciencia abierta – impulsada por el paciente pero científicamente rigurosa. Si se mantienen los estándares éticos, esta innovación de base tiene un gran potencial para generar nuevas colaboraciones y, en última instancia, alimentar la investigación oftalmológica revisada por pares.

6. Una Hoja de Ruta Concreta de 90 Días

Un plan enfocado y con un plazo definido puede unir a una comunidad de 10-50 personas (cada una con al menos una GPU o Apple Silicon) para lanzar un esfuerzo de autoresearch-para-glaucoma. Aquí hay un plan por fases sugerido:

Semanas 1-2: Formación y Configuración
- Reclutamiento y Lanzamiento: Cree un canal de comunicación (por ejemplo, Slack o Discord) y un repositorio de GitHub para el proyecto. Publique en foros de pacientes con glaucoma, grupos de biohackers y encuentros de IA.
- Verificación de Hardware: Asegúrese de que todos puedan instalar PyTorch y clonar el repositorio de Karpathy (o el fork de Maple). Realice una sesión de configuración donde cada miembro ejecute un bucle de autoresearch de muestra en un conjunto de datos de juguete (por ejemplo, un subconjunto de CIFAR-10) para verificar el entorno.
- Selección de Conjuntos de Datos: Decida 1-3 tareas iniciales (por ejemplo, clasificación OCT, progresión de CV). Para cada una, asigne un pequeño equipo para preparar los datos: por ejemplo, un equipo descarga imágenes RIM-ONE (github.com), otro recupera campos GRAPE (www.nature.com), otro recopila resúmenes de literatura. Los equipos deben dividir los datos 80/20 y crear esquemas de prepare.py.
- Modelos de Referencia: Para cada tarea, finalice un train.py simple: por ejemplo, una pequeña CNN para RIM-ONE, un MLP para CVs. Elija métricas de evaluación (AUC, Dice, ECM).
- Redacción Inicial de program.md: Cada equipo escribe un archivo de instrucciones inicial (program.md) que establece el objetivo y los cambios permitidos. Por ejemplo, para RIM-ONE: “maximizar el AUC de detección de glaucoma”, para GRAPE: “minimizar el ECM de CV”.
Semanas 3-6: Primeros Ciclos de Experimentos
- Ejecutar Bucles de Autoresearch: Cada subgrupo ejecuta el agente en su tarea durante la noche (aproximadamente 100 ejecuciones de 5 minutos). Use un solo program.md para comenzar, luego permita que los participantes agreguen variaciones (por ejemplo, “program_temp1.md”).
- Recopilar Resultados: Cada mañana, los equipos examinan los registros (el repositorio registra automáticamente cada ejecución). Registran la mejor métrica alcanzada, los parámetros del modelo en ese momento y cualquier cambio notable que haya encontrado el agente. Para mayor transparencia, suba estos resultados al GitHub compartido (quizás en CSV o JSON).
- Iteración y Retroalimentación: Compare las ejecuciones. ¿Alguna estrategia superó significativamente la línea de base? Si un subequipo ve poco progreso, debe ajustar program.md (por ejemplo, ser más agresivo con los cambios en la tasa de aprendizaje). Cada fin de semana, sintetice los hallazgos en una reunión de la comunidad.
- Herramientas: Use Git para el control de versiones en program.md y en las plantillas de código. Considere una Hoja de Cálculo de Google o una tabla wiki compartida para las tablas de clasificación (por ejemplo, “OCT-AUC: mejor=0.85 por Alice; VF-RMSE: mejor=2.1 por Bob”). Esto motiva una competencia sana y transparencia.
Semanas 7-12: Refinamiento y Divulgación
- Refinar Experimentos: Basado en los primeros resultados, refinar tareas prometedoras. Por ejemplo, quizás el clasificador RIM-ONE superó el 0.90 de AUC – ahora intente agregar aumento de datos o una red ligeramente más profunda. Fomente la ramificación: algunos pueden probar diferentes arquitecturas (por ejemplo, Vision Transformer tiny en lugar de CNN). Los agentes pueden ejecutar múltiples variantes de program.md en paralelo.
- Síntesis de Resultados: Cree informes cortos sobre cada dominio (OCT, CV, etc.), resumiendo lo que funcionó. Por ejemplo, “Mejoramos el Dice de segmentación del CCG de 0.60 a 0.75 cambiando la activación de ReLU a GELU.” Use lenguaje sencillo para que los no expertos puedan seguirlo (glosario de términos de ML).
- Presentación a la Comunidad: Para la semana 10, escriba una entrada de blog o una presentación de diapositivas que resuma la iniciativa hasta el momento. Destaque cualquier hallazgo no trivial (incluso los resultados “nulos” son útiles de compartir). Invite a la retroalimentación de los foros en línea; quizás contacte a un investigador pidiendo comentarios (“Encontramos que los ajustes de la red neural X ayudan a clasificar el glaucoma temprano – ¿alguna idea si esto se alinea con la fisiología?”).
- Plan de Divulgación: Identifique uno o dos laboratorios de oftalmología o clínicos interesados en colaborar. Contacte con ellos con los resultados iniciales. Por ejemplo, conéctese con los autores del conjunto de datos HYGD o el equipo GRAPE en Twitter/LinkedIn, mencione sus hallazgos ciudadanos. Explore las posibilidades de co-validación (por ejemplo, envíeles los pesos del modelo entrenado para que los prueben con sus datos).
Más allá de las 12 Semanas: Próximos Pasos
- Continúe trabajando en las tareas más prometedoras y en nuevas. Por ejemplo, si RIM-ONE arroja buenos resultados, aborde REFUGE a continuación. Quizás construya modelos compuestos (conjunto de CNNs).
- Oficialice una página del proyecto o una preimpresión que describa el esfuerzo.
- Considere organizar un hackathon para atraer más mentes, posiblemente en asociación con una organización benéfica para el glaucoma.

Al estructurar de esta manera, la comunidad puede lograr un progreso constante, aprender juntos y comenzar a establecer puentes con expertos al final de 90 días.

7. Riesgos, Limitaciones y Evaluación Honesta

La idea del autoresearch para el glaucoma es ambiciosa, por lo que requiere honestidad sobre los posibles escollos:

Riesgo de Sobreajuste y Patrones Espurios: Los modelos pequeños en conjuntos de datos pequeños y ruidosos a menudo se aferran a coincidencias. Un agente podría encontrar un ajuste que mejora el AUC de validación simplemente sobreajustando a idiosincrasias. Por ejemplo, si un subconjunto de imágenes tuviera una marca de anotación sutil, la red podría usarla en lugar de las verdaderas características del glaucoma. Esto lleva a una “engaño por descenso de gradiente”. Para mitigar:
- Siempre use conjuntos de prueba de retención (completamente separados de cualquier ajuste) para la evaluación final.
- Limite la complejidad: mantenga los modelos modestos y observe si el agente profundiza o ensancha excesivamente la red más allá de lo razonable.
- Si un modelo logra una puntuación casi perfecta demasiado rápido, cuestiónelo.
- Use comprobaciones de cordura: por ejemplo, mezcle las etiquetas y vea si el AUC cae a valores aleatorios (si no, hay fugas).
Sesgo y Calidad de los Datos: Los conjuntos de datos públicos sobre glaucoma a menudo provienen de poblaciones limitadas (por ejemplo, ORIGA de Singapur) (pubmed.ncbi.nlm.nih.gov). Un modelo ajustado a esos datos puede no generalizar. Los experimentos ciudadanos deben señalar esta limitación. Idealmente, se utilizan múltiples conjuntos de datos (de diferentes cohortes) para verificar si los hallazgos son robustos.
Pistas Falsas (“Teatro de Investigación”): Ejecutar toneladas de experimentos parece productivo, pero si cada mejora es solo en conjuntos de datos sintéticos o triviales, podría no beneficiar a los pacientes. Para evitar esto:
- Concéntrese en tareas con relevancia clínica (por ejemplo, detección temprana a partir de OCT de rutina).
- Vincule los resultados a medidas reales cuando sea posible (por ejemplo, AUC para la progresión, no solo un pequeño delta de pérdida).
- Priorice la interpretabilidad: si el agente “encuentra” un nuevo biomarcador, intente asegurarse de que tenga sentido (por ejemplo, ¿se está enfocando en cambios anatómicos conocidos?).
Sin Garantía Clínica: Debe quedar muy claro: los resultados de estos bucles son generación de hipótesis, no consejos médicos. Un modelo que sugiera un nuevo fármaco debe ser validado en el laboratorio antes de cualquier uso en pacientes. La sobreafirmación es peligrosa. Etiquete todos los resultados compartidos con exenciones de responsabilidad: “Esta es una exploración de IA y no un hallazgo revisado por pares.”
Limitación del “Modelo Pequeño”: Las redes muy pequeñas tienen una capacidad limitada. Pueden pasar por alto patrones complejos. En contraste, los modelos grandes a menudo logran avances, pero requieren una gran cantidad de datos. Aquí aceptamos un alcance limitado: la esperanza es que incluso pequeñas mejoras puedan guiar la investigación. Pero no debemos esperar que estos modelos reemplacen el aprendizaje profundo en datos masivos. Son mejores para probar rápidamente ideas obvias.
Fiabilidad del Agente: El agente (por ejemplo, GPT-4) podría alucinar o desviarse. Es importante que los resultados sean reproducibles: después de una ejecución del agente, un humano debe verificar qué cambios se mantuvieron y volver a ejecutar el entrenamiento para confirmar la métrica. Mantenga al agente honesto incluyendo declaraciones en program.md como “solo aceptar mejoras reales en la métrica de evaluación”.

A pesar de estos desafíos, la salvaguarda clave es la transparencia y el seguimiento crítico. Documente todo. Cuando un modelo muestre un patrón, verifíquelo. Si muchos científicos ciudadanos ven la misma anomalía (por ejemplo, todos los modelos de alto AUC para una tarea de OCT enfatizan la región nasal de la retina), eso fortalece el caso. El objetivo es acelerar la fase de generación de ideas, no evitar la ciencia cuidadosa después.

Conclusión

El glaucoma es una enfermedad compleja y silenciosa que causa ceguera, con muchas necesidades de investigación no cubiertas – desde la protección de neuronas hasta la restauración de la visión. Al mismo tiempo, la IA ha democratizado la experimentación: una persona con una GPU y algo de determinación puede realizar búsquedas automáticas de hiperparámetros que a los equipos les llevarían semanas manualmente. El framework autoresearch de Karpathy esencialmente entrega a cada ciudadano un asistente de laboratorio de IA. Al escribir objetivos claros de alto nivel en Markdown, los investigadores de la comunidad pueden dejar que un agente genere productos y vaya directamente a pistas prometedoras.

Hemos esbozado cómo se puede hacer esto en la práctica: identificando tareas de ML para el glaucoma, seleccionando datos (imágenes de fondo de ojo y OCT, campos visuales, conjuntos de datos moleculares), definiendo modelos y métricas, y utilizando instrucciones de programa para guiar la búsqueda. Hemos bosquejado una hoja de ruta comunitaria de 90 días y señalado puentes con los médicos para garantizar que la producción valiosa pueda informar la ciencia real del glaucoma. El enfoque es muy de “ciencia ciudadana”: abrir herramientas de descubrimiento científico de una manera accesible, sin dejar de depender de la supervisión experta donde importa.

Citas: Hemos referenciado los recursos más recientes tanto en investigación del glaucoma como en IA. Hechos clave (prevalencia de la enfermedad, la mitad sin diagnosticar (physionet.org)), terapias prometedoras (implantes de FNC (pmc.ncbi.nlm.nih.gov), edición genética (pmc.ncbi.nlm.nih.gov)), y trampas (IA en imágenes (pmc.ncbi.nlm.nih.gov)) se basan en la literatura actual. Autoresearch en sí se describe en el tutorial de Karpathy (medium.com) y su revisión (www.theneuron.ai). Estos deberían dar credibilidad a la visión aquí expuesta.

Al final de todo, esperamos que el lector se sienta empoderado: si usted es un paciente, cuidador o aficionado apasionado, podría ser parte de impulsar la investigación del glaucoma. Las herramientas y los datos existen, los problemas están claros, y con coordinación y un agente de IA, podemos acelerar el aprendizaje. Como con cualquier investigación, el camino tendrá falsos comienzos, pero incluso los fracasos nos enseñan algo – a menudo dirigiendo las mentes humanas hacia los enfoques correctos. Con los ojos bien abiertos tanto a las posibilidades como a los escollos, el autoresearch liderado por ciudadanos podría convertirse en un poderoso complemento a la ciencia tradicional del glaucoma.

Empieza aquí

La forma más fácil de iniciarse en el autoresearch para el glaucoma hoy: Ejecutar una pequeña clasificación en imágenes de fondo de ojo de ORIGA.

Obtener los datos: Descargue el conjunto de datos ORIGA-light (650 imágenes de fondo de ojo retinianas etiquetadas como normal vs. glaucoma) (pubmed.ncbi.nlm.nih.gov). Divida aproximadamente 80% entrenamiento / 20% validación.
Modelo inicial: Use o adapte el script de ejemplo de [karpathy/autoresearch] para la clasificación de imágenes. Por ejemplo, un poco de código para cargar imágenes ORIGA y entrenar una pequeña CNN (2-3 capas convolucionales) para distinguir glaucoma de sano.
Escribir program.md: En texto, establezca el objetivo de “maximizar el AUC de validación para la detección de glaucoma”, e instruya al agente que puede ajustar la profundidad del modelo, la tasa de aprendizaje, etc. Por ejemplo:

Objetivo: Maximizar el AUC en glaucoma vs normal para el conjunto de datos ORIGA.

El agente debe intentar ajustar los tamaños de las capas convolucionales, el número de filtros y la tasa de aprendizaje. Cada ensayo es de 5 minutos de entrenamiento. Si el AUC de validación mejora, mantener el cambio. Repetir.

Ejecutar el bucle: Inicie autoresearch (apúntelo a su prepare.py, train.py y program.md). Déjelo ejecutarse durante varias horas o durante la noche en su RTX 3060. Realizará ~100 experimentos automáticamente.
Verificar los resultados: Examine la consola o el registro para ver el mejor AUC de validación alcanzado (debería ser >0.8 si todo va bien). Ahora tiene un modelo y un script de entrenamiento que el agente de IA refinó.

Este simple experimento de fin de semana ya le proporciona experiencia de primera mano en la construcción de un pipeline de ML sin escribir código nuevo a mano. Documente lo que intentó y comparta su program.md y sus resultados con la comunidad. Cada pequeño éxito (aumentos de AUC, cambios interesantes en la red) es un bloque de construcción. Literalmente está instruyendo a una IA para que investigue el problema de glaucoma que elija, y al hacerlo, aprende ciencia de datos del glaucoma y tiene la esperanza de marcar la diferencia en la comprensión o el tratamiento de la pérdida de visión.

¡Buena suerte! Mantenga las preguntas y los hallazgos de código abierto, y recuerde: estas son herramientas de investigación, no consejos médicos. Revise cuidadosamente sus ejecuciones y disfrute del proceso de descubrimiento.

**`

Ojos bien abiertos: Cómo el framework Autoresearch de Karpathy podría democratizar la investigación del glaucoma — Un plan para el descubrimiento dirigido por pacientes e impulsado por IA en la restauración de la visión