Olhos Bem Abertos: Como o Framework Autoresearch de Karpathy Poderia Democratizar a Pesquisa sobre Glaucoma

Introdução

O glaucoma é uma neuropatia óptica crônica que destrói progressivamente as células ganglionares da retina (CGRs) e leva à perda irreversível da visão. Afeta milhões em todo o mundo – estimados 64,3 milhões de pessoas em 2013, com projeção de subir para mais de 110 milhões até 2040 (physionet.org). Preocupantemente, cerca de metade de todos os casos permanecem sem diagnóstico até que a perda de visão já tenha começado (physionet.org). O cuidado tradicional do glaucoma foca-se na redução da pressão intraocular (PIO) através de medicamentos ou cirurgia, mas esses tratamentos não podem reverter o dano ou prevenir totalmente a cegueira (pmc.ncbi.nlm.nih.gov) (physionet.org). Como resultado, há uma necessidade urgente de novas descobertas em áreas como neuroproteção, regeneração de CGR/nervo óptico, e terapias genéticas e celulares inovadoras. No entanto, a pesquisa acadêmica e farmacêutica nessas fronteiras permanece com poucos recursos, em parte porque são esforços de longo prazo e alto risco. Enquanto isso, os avanços em aprendizado de máquina (ML) e inteligência artificial (IA) estão impulsionando novas abordagens para análise de dados e design generativo.

Trabalhos recentes (por exemplo, o projeto “autoresearch” de Andrej Karpathy (www.theneuron.ai) (medium.com)) sugerem que agentes de IA podem executar autonomamente centenas de pequenos experimentos em uma única GPU baseados apenas em instruções simples de alto nível. Nesse paradigma, um humano escreve um curto program.md descrevendo o objetivo da pesquisa, e um agente de IA ajusta iterativamente o modelo ou os hiperparâmetros, executando sessões de treinamento de 5 minutos, mantendo as mudanças bem-sucedidas e descartando as outras (medium.com) (www.theneuron.ai). Durante a noite, esse ciclo pode realizar cerca de 100 experimentos, explorando arquitetura e espaço de parâmetros sem codificação manual.

Este artigo explora como o framework autoresearch de Karpathy poderia ser aplicado à pesquisa sobre glaucoma por pacientes motivados, cuidadores, cientistas cidadãos e desenvolvedores de código aberto. Pesquisaremos áreas de pesquisa sobre glaucoma pouco exploradas (neuroproteção, regeneração, etc.) e identificaremos tarefas de aprendizado de máquina em cada domínio onde a experimentação com modelos pequenos poderia plausivelmente ajudar. Para cada tarefa, sugerimos datasets públicos específicos, modelos/arquiteturas de linha de base, métricas de avaliação e descrevemos como as instruções program.md do agente poderiam ser. Em seguida, discutimos os passos práticos para uma comunidade configurar e compartilhar tais experimentos, incluindo considerações de hardware, preparação de dados e plataformas de colaboração. Examinamos o contexto específico das terapias de restauração da visão e se os ciclos do tipo autoresearch poderiam acelerar a otimização de próteses neurais ou outras intervenções. Finalmente, abordamos como as hipóteses geradas por cidadãos poderiam ser validadas e escaladas para clínicos, e apresentamos um roteiro concreto de 90 dias para lançar uma iniciativa de autoresearch liderada por pacientes – incluindo como evitar as armadilhas do “teatro de pesquisa” e garantir um impacto real. Ao longo do texto, citamos fontes atuais sobre pesquisa em glaucoma e IA na visão, visando um guia equilibrado, realista e acessível.

1. O Cenário da Pesquisa sobre Glaucoma e Necessidades Não Atendidas

A pesquisa sobre glaucoma abrange múltiplas frentes – desde a compreensão dos mecanismos da doença até o desenvolvimento de novas terapias para neuroproteção e restauração da visão. Muitas áreas promissoras estão subfinanciadas:

Neuroproteção: Intervenções que protegem as CGRs da morte (independentemente da PIO). Exemplos incluem fatores neurotróficos e suporte metabólico. Por exemplo, implantes liberando fator neurotrófico ciliar (CNTF) mostraram potencial em testes iniciais (pmc.ncbi.nlm.nih.gov), e outras moléculas como fator de crescimento neural e citicolina estão sendo investigadas (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). No entanto, estes ainda não são tratamentos padrão, e mais trabalho é necessário para traduzi-los para os pacientes. Uma revisão de 2025 adverte que as terapias neuroprotetoras para o glaucoma são um “tratamento futuro” que necessita de mais ensaios (pmc.ncbi.nlm.nih.gov), refletindo uma necessidade não atendida.
Regeneração de CGRs e Regeneração do Nervo Óptico: Uma vez que as CGRs e seus axônios morrem, a medicina atual não tem como reverter isso. Alguns estudos em animais usam terapias genéticas para reprogramar CGRs ou estimular o recrescimento. Por exemplo, a repressão de PTEN (um regulador de crescimento negativo) baseada em CRISPR promoveu o recrescimento de axônios em células neurais de rato (pmc.ncbi.nlm.nih.gov), e experimentos de exclusão conjunta de PTEN e SOCS3 impulsionaram a regeneração sustentada do nervo óptico em camundongos (pmc.ncbi.nlm.nih.gov). No entanto, esses avanços permanecem em modelos de laboratório. A biologia subjacente – por exemplo, como recapitular o desenvolvimento da retina ou contornar inibidores de crescimento – é complexa. Há uma enorme demanda por modalidades (pequenas moléculas, genes, biomateriais) que poderiam estimular a sobrevivência das CGRs ou o recrescimento de axônios, mas o progresso para ensaios em humanos é lento.
Terapias Genéticas e Celulares: Novas tecnologias como CRISPR, vetores virais e CGRs derivadas de células-tronco são promissoras para o glaucoma. As estratégias incluem edição genética para reduzir a PIO (por exemplo, visando a produção de humor aquoso) ou modular vias neurodegenerativas (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Células-tronco poderiam (teoricamente) substituir células da malha trabecular ou CGRs perdidas e secretar fatores protetores (pubmed.ncbi.nlm.nih.gov). Trabalhos iniciais mostraram que certos fatores de transcrição (por exemplo, Oct4-Sox2-Klf4) podem reprogramar não-CGRs em neurônios semelhantes a CGRs em camundongos (restaurando a visão em lesões do nervo óptico) (pmc.ncbi.nlm.nih.gov). No entanto, essas abordagens enfrentam desafios de segurança e entrega antes de chegar aos pacientes. Diversas revisões recentes destacam a terapia genética como uma fronteira excitante, mas ainda não clínica, para o glaucoma (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Em suma, as inovações moleculares e celulares estão avançando, mas os recursos e os dados dos ensaios são limitados – criando uma oportunidade para exploração computacional (por exemplo, projetar construções virais ótimas ou prever edições genéticas eficazes).
Estimulação Elétrica e Optogenética para Restauração da Visão: Para pacientes com glaucoma avançado (ou doenças combinadas como retinose pigmentar), próteses de visão artificial ou terapias optogenéticas visam contornar as CGRs danificadas. Implantes de retina (matrizes de eletrodos epirretinianos ou subretinianos) e implantes corticais geraram percepções artificiais (“fosfenos”), mas a resolução é baixa e os resultados variam amplamente. Uma revisão recente de 2025 sobre IA em próteses visuais observa que “algoritmos de IA mostram promessa na otimização da visão protética, particularmente através da extração aprimorada de saliência de imagem e estratégias de estimulação,” embora até agora a maioria dos estudos sejam simulações (pmc.ncbi.nlm.nih.gov). Em outras palavras, o aprendizado de máquina pode ajudar a transformar imagens de câmeras em padrões de estimulação que são mais informativos dadas as limitações do dispositivo. Optogenética (tornando as células retinianas sobreviventes sensíveis à luz) e pulsos de estimulação elétrica transcorneana (TES) também estão sendo testados para perda de visão relacionada ao glaucoma. Todas essas áreas precisam de um ajuste extensivo de parâmetros (por exemplo, padrões espaço-temporais de estimulação, vetores de expressão gênica) — tarefas potencialmente adequadas para busca autônoma de ML.
Mecanismos Independentes da PIO: Muitas pessoas continuam a perder a visão apesar da PIO bem controlada. Fatores como fluxo sanguíneo ocular prejudicado, disfunção neurovascular ou estresse metabólico na cabeça do nervo óptico são reconhecidos, mas não totalmente compreendidos. Estudos genéticos sugerem componentes significativos “independentes da PIO” no risco de glaucoma (pubmed.ncbi.nlm.nih.gov) (pubmed.ncbi.nlm.nih.gov). Biomarcadores desses processos (além da pressão) são urgentemente necessários. Além disso, metade dos pacientes com glaucoma tem doença de “tensão normal”, destacando que a PIO alta não é o único culpado. A pesquisa sobre fatores vasculares ou outras vias de dano está em andamento, mas fragmentada. Modelagem computacional ou mineração de grandes conjuntos de dados (por exemplo, estudos de associação de genoma completo) poderia ajudar a identificar novos mecanismos ou alvos terapêuticos neste domínio.
Descoberta de Biomarcadores via Imagem e Campos Visuais: A detecção precoce e o monitoramento do glaucoma frequentemente dependem de imagens (fotos de fundo de olho, OCT) e testes funcionais (campos visuais). Algoritmos avançados poderiam descobrir biomarcadores sutis que os clínicos humanos perdem. Por exemplo, o aprendizado profundo começou a detectar a perda de campo visual pré-perimétrica (mudanças invisíveis à análise de campo padrão) (pmc.ncbi.nlm.nih.gov). Da mesma forma, a IA tem sido usada para analisar perfis de espessura de camadas de OCT para prever o glaucoma antes de danos manifestos. No entanto, ainda não existem biomarcadores de IA amplamente aceitos que sejam usados clinicamente para triagem ou estratificação de risco. Os gargalos computacionais aqui incluem a necessidade de grandes conjuntos de dados bem rotulados e protocolos de validação robustos (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Desafios públicos (REFUGE, AIROGS, etc.) começaram a padronizar os dados, mas a cobertura da doença em estágio inicial é escassa (pmc.ncbi.nlm.nih.gov). A descoberta adicional de biomarcadores multimodais (combinando OCT, campos, genética, etc.) impulsionada por máquinas continua sendo uma fronteira aberta.

Onde o ML com modelos pequenos pode ajudar? Muitos dos itens acima descrevem problemas de alto nível. Os gargalos são frequentemente a escassez de dados, muitas variáveis interativas e uma biologia de movimento lento. Onde um agente de autoresearch se destaca é na automação de experimentos em pequena escala com dados disponíveis. Por exemplo, se houver um conjunto de dados modesto de exames de OCT com e sem glaucoma inicial, um cientista cidadão pode configurar um ciclo rápido de teste de modelo para encontrar qual arquitetura os distingue melhor. Da mesma forma, pequenos transformers em genômica ou literatura poderiam sugerir novos genes ou candidatos a medicamentos. O segredo é focar em tarefas restritas com métricas definidas (precisão de classificação, AUC, perda) e iterar rapidamente. Áreas com dados públicos limitados (por exemplo, parâmetros TES ou novos coquetéis genéticos) podem depender de dados sintéticos ou proxies. Na próxima seção, mapeamos tarefas específicas de ML em glaucoma para a abordagem de autoresearch.

2. Mapeando Autoresearch para Problemas de Glaucoma

O framework autoresearch de Karpathy é agnóstico em relação ao domínio: ele pode executar experimentos em qualquer tarefa de ML fornecida por um prepare.py e train.py com uma métrica de avaliação bem definida. Identificamos diversas tarefas concretas relacionadas ao glaucoma e especificamos como um agente poderia lidar com cada uma. Cada caso de uso abaixo inclui: um conjunto de dados publicamente disponível (se possível), um modelo ou arquitetura inicial, uma métrica de avaliação e um esboço das instruções program.md.

2.1 Análise de Imagem OCT (Detecção Estrutural e Segmentação)

Tarefa: Detecção Precoce de Glaucoma a partir de Exames de OCT. A imagem de OCT fornece vistas transversais das camadas da retina. O afinamento da camada de fibras nervosas da retina (CFNR) e do complexo de células ganglionares (CCG) pode preceder a perda de campo visual. Podemos tratar isso como uma tarefa de classificação (glaucoma vs. saudável) ou regressão (por exemplo, espessura da CFNR de saída).
- Dataset: Uma versão recente, SYN-OCT (www.nature.com), é um conjunto de dados sintético de 200.000 imagens de OCT circumpapilar (100 mil com glaucoma, 100 mil normais) geradas por GANs. Cada imagem possui espessura de CFNR e máscaras de segmentação associadas. Estes estão publicamente disponíveis no Zenodo (www.nature.com). (Embora sintéticos, eles são estatisticamente validados para imitar OCT real (www.nature.com).) Alternativamente, pode-se usar o conjunto de dados OCT-DL (www.nature.com) (2064 imagens de várias doenças retinianas) ou coleções menores de OCT clínico.
- Modelo: Comece com uma pequena rede neural convolucional (CNN). Para classificação, um modelo com ~3-5 camadas convolucionais (por exemplo, análogo a uma ResNet-18 truncada, ou uma pequena CNN personalizada) pode funcionar. Para segmentação de CFNR/CCG, um codificador-decodificador como uma pequena U-Net (com profundidade 3-4) é adequado. O train.py inicial poderia implementar uma CNN simples e um ciclo de treinamento, com hiperparâmetros padrão.
- Métrica: Se estiver fazendo classificação de glaucoma em OCT, use AUC (Área Sob a Curva ROC) ou precisão em uma divisão de validação. Para segmentação, use o coeficiente de Dice ou IoU em máscaras de camada de CFNR (SYN-OCT fornece máscaras (www.nature.com)).
- Exemplo de program.md:
  
  "Objetivo: Maximizar o AUC de validação para detecção de glaucoma a partir de imagens de OCT. Modificações permitidas: número de camadas convolucionais, contagens de filtros, tamanhos de kernel, funções de ativação, taxa de aprendizado, escolha do otimizador, tamanho do lote, etc. Após cada execução de treinamento de 5 minutos, avalie o AUC no conjunto de validação. Se o AUC melhorar, mantenha a alteração; caso contrário, reverta." (medium.com) (www.theneuron.ai).
  O agente tentará assim variações (por exemplo, adicionar camadas, ajustar a largura, alternar de Adam para RMSProp) para melhorar o AUC.
Tarefa: Segmentação da Camada CFNR/CCG. A medição precisa da espessura da CFNR é crucial. Usando exames de OCT sintéticos (com segmentações fornecidas) ou qualquer OCT real com camadas anotadas, pode-se enquadrar isso como uma tarefa de segmentação.
- Dataset: SYN-OCT novamente fornece máscaras de segmentação de CFNR (www.nature.com)). Outra fonte: alguns grupos acadêmicos rotularam varreduras OCT B (embora frequentemente proprietárias). Se necessário, pode-se usar conjuntos de dados genéricos de segmentação de OCT (como o desafio de fluido OCT da retina de Duke (www.nature.com)) como proxies.
- Modelo: Uma pequena CNN tipo U-Net, talvez até com canais aparados de uma linha de base. Por exemplo, use 3 blocos de down/up, começando com 16 filtros. O agente pode alterar a profundidade e a largura.
- Métrica: Pontuação Dice ou IoU médio da máscara de CFNR prevista versus o real.
- Exemplo de program.md:
  
  "Objetivo: Maximizar a pontuação Dice para a segmentação da camada CFNR em OCT. O modelo base é uma U-Net de 3 blocos. O agente pode variar o número de filtros, adicionar dropout ou alterar a taxa de aprendizado. Treine por 5 minutos cada tentativa e calcule o Dice na validação. Mantenha as modificações que aumentam o Dice."
Tarefa: Previsão de Progressão via OCT Serial. Usando OCT sequencial, preveja o afinamento futuro. Se existirem dados longitudinais de OCT (por exemplo, UK Biobank ou dados de clínica privada), o objetivo poderia ser prever a mudança da CFNR ou um rótulo binário de “progressor rápido”.
- Dataset: Dados públicos longitudinais de OCT específicos para glaucoma são escassos. No entanto, pode-se reaproveitar dados de desafio SR OCT (ou imagens SYN-OCT com progressão simulada) para simular esta tarefa. Alternativamente, use imagens de OCT do UK Biobank (embora não sejam específicas para glaucoma e não facilmente acessíveis a cientistas cidadãos). Para ilustração, assuma um conjunto de dados de exames de OCT no tempo0 e tempo1 com rótulos.
- Modelo: Uma CNN siamesa ou concatenada que recebe pares de imagens OCT, produzindo a probabilidade de progressão. Comece alimentando o tempo0 e prevendo o limite do tempo1.
- Métrica: AUC para classificação binária de progressão, ou MSE se estiver tentando prever a mudança de espessura.
- Exemplo de program.md:
  
  "Objetivo: Identificar olhos que terão perda rápida da CFNR. Entrada: OCT basal; rótulo: afinamento >5μm após 1 ano. Usamos um classificador CNN. As alterações permitidas incluem profundidade da rede, taxa de aprendizado, aumento de dados. Use o AUC de validação como métrica."

2.2 Análise de Campo Visual (CV)

Tarefa: Prever Perda Futura de Campo Visual. Dados um ou mais exames de campo visual de Humphrey anteriores (valores de sensibilidade ponto a ponto), preveja a sensibilidade futura ou a taxa de progressão. Este é um problema clássico de manejo do glaucoma.
- Dataset: O conjunto de dados GRAPE (www.nature.com) (2023) fornece acompanhamento longitudinal de 263 olhos (1115 registros) com CV e fundo de olho/OCT, incluindo progressão anotada. Outro recurso é o banco de dados longitudinal UH Visual Field (UWHVF) dos EUA (www.nature.com) (28.943 campos de muitos pacientes). No entanto, GRAPE é bem curado e público, com CV e resultados.
- Modelo: Uma abordagem simples é uma rede feed-forward (totalmente conectada) nos dados de CV de 54 pontos (ou compactada para índices globais). Para previsão de progressão, uma MLP menor ou 1D-CNN pode lidar com as 54 ou 30 características de entrada. Outra ideia: tratar a grade 8×8 como uma imagem minúscula e usar uma pequena CNN (por exemplo, kernels 3×3).
- Métrica: Se estiver prevendo desvio médio futuro ou valores de pontos, use MSE (menor é melhor). Se estiver classificando “progressor rápido vs. não”, use AUC.
- Exemplo de program.md:
  
  "Objetivo: Minimizar o MSE do campo visual previsto. Alternativamente, maximizar o AUC para classificar a perda rápida. Modelo base: perceptron de 2 camadas em 54 valores de CV. O agente pode ajustar o tamanho oculto, ativação ou adicionar dropout. Após cada treinamento de 5 minutos, compute a métrica no conjunto de validação."
Tarefa: Identificar Progressores Rápidos. Usando uma série de CVs passados, classifique quais olhos perderão a visão rapidamente.
- Dataset: Use o status de progressão anotado no GRAPE (www.nature.com) (eles marcaram os olhos como progredidos). Ou pegue UWHVF e rotule o decil superior de perda de MD como “rápido”.
- Modelo: Poderia concatenar características de dois ou três campos consecutivos (ou diferenças) em uma pequena rede. Possivelmente incluir PIO basal e idade, se disponível.
- Métrica: AUC para distinguir progressores rápidos vs. lentos.
- Exemplo de program.md:
  
  "Objetivo: Maximizar o AUC para prever a progressão rápida do campo. Características de entrada: diferenças de segunda ordem de CV1 e CV2, mais PIO. Use uma pequena rede FC. O agente pode ajustar as larguras das camadas, taxa de aprendizado, tamanho do lote."

2.3 Rastreamento de Medicamentos/Compostos (Descoberta In Silico de Candidatos)

Tarefa: Prever Compostos Neuroprotetores/Regenerativos Candidatos. Use ML para encontrar pequenas moléculas que possam proteger as CGRs ou encorajar a regeneração. Por exemplo, muitos compostos conhecidos (como nicotinamida, valproato) mostram efeitos neuroprotetores. Podemos treinar modelos para reconhecer quimiotipos correlacionados com eficácia conhecida e então pesquisar o espaço químico.
- Dataset: Isso é desafiador devido à falta de um banco de dados dedicado de medicamentos para glaucoma. Como proxy, pode-se usar conjuntos de dados do MolNet (por exemplo, inibição de HIV, permeabilidade da BHE) ou qualquer conjunto de dados de bioatividade. Alternativamente, compile uma lista de compostos testados em modelos de lesão do nervo óptico (a partir de mineração da literatura) com rótulos. Na prática, pode-se começar com uma propriedade mais genérica (por exemplo, dados de penetração da barreira hematoencefálica do MoleculeNet).
- Modelo: Um pequeno transformer ou rede neural de grafo em strings SMILES. Um transformer (estilo GPT-2) com poucas camadas ou uma rede convolucional de grafo simples (por exemplo, 3 camadas GCN) pode ser implementado no train.py.
- Métrica: Se tratarmos como classificação (ativo vs inativo), use AUROC. Se estiver prevendo afinidade ou logP, use RMSE.
- Exemplo de program.md:
  
  "Objetivo: Maximizar o ROC-AUC de classificação para identificar compostos semelhantes a neuroprotetores. Modelo base: pequeno transformer em SMILES. O agente pode ajustar o número de camadas do transformer, dropout, taxa de aprendizado ou usar featurizações alternativas (por exemplo, entrada de impressão digital). Após cada 5 minutos, avalie o AUC em moléculas de validação."

(Nota: Como os dados públicos para neuroproteção real são escassos, esta tarefa é mais ilustrativa. Na prática, cientistas cidadãos poderiam criar um conjunto de dados personalizado de compostos neuroprotetores conhecidos vs. controles e seguir este padrão.)

2.4 Modelagem de Redes Reguladoras de Genes (CGR de Célula Única)

Tarefa: Identificar Combinações Regenerativas de Fatores de Transcrição (TF). Use dados de RNA-seq de célula única de CGRs para aprender padrões transcricionais de crescimento regenerativo. Por exemplo, alguns subtipos de CGRs se regeneram melhor do que outros. Um modelo de ML pode prever um rótulo de “estado regenerativo”, e pode-se inspecionar quais fatores de transcrição são importantes.
- Dataset: Um estudo de 2018 fornece transcriptomas de célula única de CGRs (acesso GEO GSE115404) (pmc.ncbi.nlm.nih.gov), identificando subtipos distintos de CGRs. Podemos usar este conjunto de dados (ou um subconjunto) onde as células são rotuladas por subtipo ou por condição experimental (por exemplo, pré- vs pós-lesão).
- Modelo: Um pequeno transformer ou MLP operando em vetores de expressão gênica (cada célula possui milhares de abundâncias de genes). Na prática, pré-selecionar-se-ia os ~500 principais genes (por exemplo, genes altamente variáveis). O train.py pode implementar um mini-transformer (por exemplo, 4 camadas, embedding 256) ou um perceptron simples de 2 camadas.
- Métrica: Se usando análise não supervisionada, pode-se usar a pontuação de silhueta, mas mais simplesmente, se rotulando células como “regenerando” vs “não” (se os rótulos existirem), use precisão/AUC de classificação.
- Exemplo de program.md:
  
  "Objetivo: Construir um modelo que distinga perfis de expressão gênica de CGRs em regeneração vs. não regeneração. Comece com um transformer de 3 camadas. O agente pode mudar a dimensão do embedding, profundidade, taxa de aprendizado ou adicionar batchnorm. Otimize a precisão de validação."
  Após as execuções, os pesos de atenção ou as características aprendidas do melhor modelo podem destacar fatores de transcrição chave para experimentação.

2.5 Análise de Sinais Eletrofisiológicos

Tarefa: Detectar Disfunção Subclínica de CGRs via ERG. O eletrorretinograma padrão (pERG) ou outros sinais eletrofisiológicos podem revelar a saúde das CGRs. Por exemplo, respostas de ERG atrasadas ou reduzidas podem preceder defeitos do campo visual. Podemos tentar classificar os sinais como “normal” vs “suspeito de glaucoma”.
- Dataset: Conjuntos de dados públicos de ERG em glaucoma são raros. Pode-se usar um substituto: um conjunto de dados de animais (degeneração da retina) ou sinais sintéticos. Se indisponível, mesmo conjuntos de dados eletrofisiológicos 1D genéricos (por exemplo, ECG) poderiam ilustrar o pipeline.
- Modelo: Uma CNN 1D (por exemplo, 2 camadas convolucionais seguidas por FC) nos dados de séries temporais. Alternativamente, uma LSTM pode ser usada se as sequências forem mais longas.
- Métrica: Precisão ou AUC na classificação de uma disfunção sutil vs. normal. Possivelmente F1 se as classes forem desequilibradas.
- Exemplo de program.md:
  
  "Objetivo: Maximizar a precisão de validação para classificar traçados de ERG (padrão saudável vs. glaucoma precoce). Use uma CNN 1D. O agente pode ajustar os tamanhos dos filtros, o passo ou adicionar uma camada recorrente. Mantenha quaisquer alterações que melhorem a precisão."

2.6 Mineração de Literatura (Geração de Hipóteses)

Tarefa: Ajustar um Pequeno Modelo de Linguagem para Revelar Novas Ideias. Com milhares de artigos de pesquisa sobre glaucoma no PubMed, um agente de ML poderia procurar conexões ou reposicionar candidatos. Por exemplo, ligar vias neuroprotetoras a medicamentos existentes. Podemos tratar isso como um problema de modelagem de linguagem ou como um problema de recuperação.
- Dataset: Compile um corpus de resumos relacionados ao glaucoma (por exemplo, use a pesquisa do PubMed para “terapia genética do glaucoma” etc). Pode-se baixar ~10.000 resumos via APIs do NCBI. Para um começo mais simples, use artigos de glaucoma de acesso aberto do PMC.
- Modelo: Um pequeno modelo de linguagem transformer (por exemplo, GPT-2 de 6 camadas) ou mesmo BERT ajustado. Para fins de autoresearch, provavelmente ajustaremos um modelo causal (GPT) no texto.
- Métrica: Padrão, a perda de validação (perplexidade) é otimizada. Se fazendo uma classificação (por exemplo, dado um resumo, prever um rótulo para um medicamento ou via), use precisão/AUC.
- Exemplo de program.md:
  
  "Objetivo: Minimizar a perplexidade de validação de um pequeno GPT-2 no corpus da literatura sobre glaucoma. Use execuções de ajuste fino de 5 minutos. O agente pode variar o número de camadas, tamanho oculto, taxa de aprendizado, comprimento do contexto. Mantenha as alterações que reduzem a perplexidade."
  Uma vez treinado, pode-se solicitar a este modelo que gere hipóteses (por exemplo, “Principais medicamentos candidatos a serem reaproveitados para neuroproteção no glaucoma: ...”).

Em cada um desses domínios, a chave é que uma única GPU e execuções breves permitem muitas tentativas. Nós não esperamos que o agente codifique novos algoritmos do zero, mas que ajuste um script de treinamento existente. O papel humano é escrever o program.md para guiar a busca do agente em direção a um objetivo específico do glaucoma (como maximizar o AUC em um conjunto de dados de fundo de olho ou prever a espessura da CFNR). Os exemplos acima ilustram como o train.py poderia ser configurado inicialmente e como o program.md solicita melhorias em uma métrica escolhida (medium.com) (www.theneuron.ai).

3. Guia Prático de Implementação da Ciência Cidadã

Como indivíduos motivados com recursos limitados (por exemplo, uma única RTX 3060 ou um MacBook com Apple Silicon) podem realmente aplicar o autoresearch a problemas de glaucoma? A boa notícia é que o repositório de Karpathy é pequeno e tem orientação para escalabilidade descendente. Aqui estão os passos e dicas principais:

Configuração do Ambiente: Clone o repositório karpathy/autoresearch. Você precisará de um Python moderno e, idealmente, acesso a um LLM (o próprio agente é tipicamente um LLM pré-treinado como GPT-4 ou Claude que edita o código). Para GPUs, instale o PyTorch com suporte CUDA/metal adequado. Para Apple Silicon, use um dos forks (por exemplo, MLX) ou uma construção PyTorch para M1/M2 (consulte a documentação do repositório). No Windows/Linux com uma 3060 ou 4070, o PyTorch CUDA normal funciona.
Configurando para GPU Pequena: O autoresearch padrão usa um modelo tipo GPT com ~50 milhões de parâmetros e sequências de comprimento 1024 (medium.com), o que pode ser pesado. Para uma GTX 3060 (12GB), você deve reduzir o tamanho do modelo e o comprimento da sequência. No train.py, defina MAX_SEQ_LEN=512 ou até 256. Diminua o número de camadas e a largura (o GPT médio tem ~8 camadas; tente 4 camadas, 256 de largura). As instruções na comunidade mencionam a redução de “DEPTH”, “WIDTH”, etc. Você também pode reduzir a memória do otimizador usando tamanhos de lote menores (até 16 ou 8). O agente ainda pode mutar esses parâmetros, mas dar-lhe um ponto de partida menor garante execuções <5 minutos. O README do autoresearch GitHub e as discussões de issues também observam que os chips Mac M1 podem lidar com sequências mais curtas (por exemplo, 256 tokens) devido à memória limitada; o dimensionamento similar se aplica a qualquer GPU.
Preparando Dados de Glaucoma: Os dados de cada tarefa devem ser carregados e divididos. Os conjuntos de dados públicos de glaucoma incluem:
- Conjuntos de Dados de Fundo de Olho: ORIGA(-light) (650 imagens rotuladas (pubmed.ncbi.nlm.nih.gov)), RIM-ONE DL (485 imagens com segmentações de disco/escavação (github.com)), REFUGE (mais de 1200 imagens, com divisões de treinamento/teste (refuge.grand-challenge.org)), o novo Hillel Yaffe Glaucoma Dataset (HYGD) com ~1200 imagens de fundo de olho e rótulos de alta qualidade (physionet.org). EyePACS/AIROGS (dezenas de milhares de imagens da retina) também é acessível publicamente via registro (por exemplo, Kaggle).
- Conjuntos de Dados de OCT: SYN-OCT (200 mil varreduras B sintéticas com máscaras de CFNR (www.nature.com) (www.nature.com)), OCTDL (2064 imagens de várias doenças da retina (www.nature.com)), e outros de desafios públicos.
- Dados de Campo Visual: GRAPE (263 olhos com CV longitudinal mais imagens (www.nature.com)). UWHVF (28 mil testes de CV) está aberto se você baixar do repositório da Universidade de Washington (www.nature.com). Alguns desafios do Kaggle incluem dados de CV.
- Eletrofisiologia: Nenhum grande conjunto de dados ERG de glaucoma aberto é conhecido, mas pode-se começar com quaisquer dados de sinal normal vs. glaucoma acessíveis.
- Dados Químicos/Genéticos: Conjuntos de dados padrão como MoleculeNet (para compostos) ou GEO (para genes) podem ser reaproveitados. Por exemplo, baixe as contagens brutas do GSE115404 (via consulta GEO (pmc.ncbi.nlm.nih.gov)) e pré-processe-as para matrizes de expressão.
Para cada um, você precisa de um prepare.py que carrega os dados e define train_set, val_set e uma função de avaliação. O template de Karpathy espera que prepare.py produza dados de treinamento e uma rotina de avaliação que retorne uma perda ou métrica. Por exemplo, o prepare.py para RIM-ONE pode carregar imagens e CC rotuladas como glaucoma, dividi-las em pastas de treino/validação e definir uma função que calcule o AUC de validação. CONSULTE [14†L71-L79] para saber como o RIM-ONE está estruturado.
Ajustando Dados para Pequena Escala: Se os conjuntos de dados forem grandes (como EyePACS ou SYN-OCT), você pode subamostrar para criar um conjunto de dados “pequeno” de algumas centenas de exemplos (o modelo ainda pode aprender algo valioso em um corpus pequeno). O repositório autoresearch até menciona o uso de pequenos conjuntos de dados estilo “TinyStories” para executar em hardware minúsculo. Por exemplo, escolha 500 imagens do ORIGA (balanceado), ou 1000 campos CV do GRAPE. Da mesma forma, para a linguagem, poder-se-ia usar um subconjunto de 5.000 resumos de artigos sobre glaucoma do PubMed. A chave é um conjunto de dados fixo sobre o qual o agente itera. Certifique-se de pré-embaralhar e dividir 80/20 para que cada execução de 5 minutos veja a mesma divisão de treino/validação.
Escrevendo Estratégias para program.md: A comunidade deve compartilhar diferentes prompts program.md (como “receitas”) em controle de versão. Cada arquivo poderia codificar uma estratégia de pesquisa. Por exemplo, uma estratégia poderia dizer “aumentar a profundidade da rede se profundidade <6, caso contrário reduzir a taxa de aprendizado”, enquanto outra poderia dizer “focar em mudanças de aumento de dados”. Com o tempo, os grupos podem comparar quais estratégias produziram melhores métricas nas tabelas de classificação. Um bom program.md inclui um objetivo (por exemplo, maximizar AUC ou minimizar a perda de validação) e sugestões de mutações permitidas (camadas, filtros, LR). O LLM do agente usa essas instruções para propor edições de código. Mantenha as métricas padronizadas (por exemplo, sempre reporte AUC para tarefas de classificação de glaucoma) para que os experimentos sejam comparáveis.
Colaboração Comunitária: Para tornar este esforço escalável, uma comunidade de ciência cidadã deve se organizar:
- Registros de Experimentos Compartilhados: Publique os resultados de cada experimento (por exemplo, “Execução #27 do programa-v1 alcançou Val AUC=0.82 com largura=4, profundidade=3”).
- Métricas Padronizadas: Defina métricas para cada tarefa: por exemplo, “AUC de glaucoma OCT”, “AUC de progressão CV”, “AUC de Atributo”, etc. Uma tabela de classificação compartilhada (semelhante ao val_bpb do autoresearch) pode rastrear as pontuações mais altas. Por exemplo, um Slack ou GitHub Actions pode coletar o melhor AUC de cada agente semanalmente.
- program.md Controlado por Versão: Hospede todos os program.md em um repositório GitHub. Membros podem fazer fork e propor novas estratégias (via pull requests) mantendo as versões históricas. Dessa forma, múltiplas abordagens podem ser testadas em paralelo (por exemplo, “program_word2vec.md” vs “program_transformer.md”).
- Compartilhamento de Dados e Código: Use repositórios públicos ou notebooks para scripts de preparação de dados, e compartilhe as modificações de train.py encontradas pelo agente (para reproduzir em frameworks de ML padrão). Vincular às fontes de dados originais (Kaggle, PhysioNet, Zenodo) garante que outros possam baixar os mesmos dados.

Ao reduzir as barreiras técnicas (o agente edita o código, o usuário edita as instruções em Markdown) e ao coordenar esforços (registros compartilhados, tabelas de classificação), os cientistas cidadãos podem explorar coletivamente as escolhas de hiperparâmetros/modelos para esses problemas de ML em glaucoma. Em essência, eles investem a criatividade humana em definir objetivos, e deixam o agente executar a rotina de 100 experimentos durante a noite por objetivo (medium.com) (www.theneuron.ai).

4. Restauração da Visão Especificamente

A restauração da visão – recuperar a visão após danos – é um alvo particularmente excitante para a otimização impulsionada por IA. A pesquisa atual sobre restauração da visão assistida por IA inclui implantes de retina, próteses corticais e optogenética. Veja como um ciclo de autoresearch poderia se encaixar:

Otimizando a Codificação de Próteses Visuais: Próteses modernas (implantes de retina ou câmeras ligadas a arrays de eletrodos) tentam traduzir uma imagem de câmera em padrões de estimulação elétrica que o cérebro interpreta como visão. O desafio é que a “largura de banda” dos eletrodos é muito limitada (muitas vezes apenas de dezenas a algumas centenas de pontos) (pmc.ncbi.nlm.nih.gov). Um modelo de ML (uma pequena CNN ou transformer) pode ser treinado para mapear imagens de entrada para mapas de estimulação ideais, mas os melhores hiperparâmetros ou arquiteturas para essa tradução são desconhecidos. Um agente de autoresearch poderia executar 100 variações de um modelo de “codificador neural” em horas. Por exemplo, configure um conjunto de dados de pares imagem→estimulação (fosfenos simulados ou dados de pacientes) e faça o agente otimizar a rede codificadora para minimizar uma perda de reconstrução ou maximizar uma métrica de utilidade (integridade do contraste, precisão de reconhecimento). O agente pode tentar adicionar camadas de atenção, mudar os tamanhos da convolução ou ajustar as taxas de aprendizado. Ao longo de muitas execuções, pode-se encontrar pequenas redes que forneçam saídas protéticas mais salientes. Alguns trabalhos recentes já usam IA para extrair saliência visual para próteses (pmc.ncbi.nlm.nih.gov); o autoresearch poderia automatizar o ajuste de tais pipelines.
Padrões de Estimulação Optogenética: Na terapia optogenética, sobreviventes de CGRs ou outras células da retina são tornadas sensíveis à luz (via genes introduzidos). As entradas de uma câmera devem então ser codificadas em pulsos de luz. Aqui novamente, um modelo de ML pode controlar padrões. Pode-se formular uma tarefa de brinquedo: uma pequena rede transforma a imagem da câmera em um mapa de intensidade de luz (com as mesmas dimensões das células). O objetivo do agente poderia ser maximizar alguma métrica de estimulação eficaz (por exemplo, maximizar a ativação de células-alvo em uma retina simulada). Cada tentativa pode executar uma simulação rápida da resposta. Ao longo das iterações, o agente pode explorar durações de pulso ou filtros espaciais. Por exemplo, ajustar a agressividade de um filtro passa-alta na entrada da câmera pode ser benéfico para alguns padrões. O ponto é que muitos parâmetros analógicos (kernels de filtro, não linearidade, codificação de pulso temporal) podem ser varridos automaticamente.
Otimização do Padrão de Pulso (TES e Implantes): Mesmo domínios não relacionados ao aprendizado de máquina podem se beneficiar de uma busca rápida. Por exemplo, um estudo recente (Xie et al. 2025) descobriu que durações de pulso mais curtas e a inserção de intervalos interfásicos melhoraram significativamente a ativação cortical para implantes de retina (pmc.ncbi.nlm.nih.gov). Isso sugere que o espaço de parâmetros da estimulação elétrica possui efeitos fortes e não intuitivos. Um agente de autoresearch poderia tratar os parâmetros do protocolo de estimulação (duração da fase, frequência, intervalo) como “parâmetros de rede” e executar muitos pequenos experimentos (cada um simulado ou empírico) para maximizar a resposta cortical. Por exemplo, configure um modelo elétrico simplificado (ou use dados de potencial evocado registrados) em prepare.py e deixe o agente ajustar os parâmetros de train.py como o tempo de pulso para maximizar uma amplitude de resposta definida. Isso é semelhante a automatizar o que neurocientistas entusiastas fazem manualmente.
Design de Vetores Virais e Geometria de Andaimes: No desenvolvimento de terapias mais exploratórias, a abordagem de ciclo do agente também poderia abordar otimizações biomédicas. Por exemplo, o design de capsídeos virais AAV ou promotores para direcionar CGRs poderia ser guiado por pequenos modelos preditivos (por exemplo, regressão logística em características de sequência). O autoresearch poderia tentar repetidamente modificar um modelo que prevê tropismo ou expressão (treinado em, por exemplo, pequenas bibliotecas virais) para melhorar essa previsão. Da mesma forma, se alguém tiver código de simulação para crescimento em andaimes nervosos (para reparo do nervo óptico), o agente poderia ajustar parâmetros geométricos para maximizar a extensão axonal. Estes são avançados, mas conceitualmente se encaixam – o “agente como experimentador” poderia ajustar os parâmetros do modelo ou da simulação para resultados melhorados.

Em resumo, qualquer aspecto da prótese ou restauração da visão que dependa de algoritmos parametrizados poderia ser melhorado através de iterações rápidas. Importante, a limitação é que geralmente só temos dados de simulação para muitas dessas tarefas; testes reais em pacientes de centenas de variantes não são possíveis. Mas o autoresearch pode operar in silico para propor os melhores candidatos para testes clínicos posteriores. Como a revisão da prótese notou, “garantir que os fosfenos sejam gerados de forma confiável em locais precisos… é um desafio importante” e “modelos impulsionados por IA mostraram potencial” nesta área (pmc.ncbi.nlm.nih.gov). O autoresearch poderia acelerar significativamente a descoberta das melhores configurações desses modelos de IA.

5. Fazendo a Ponte para o Impacto Clínico

Os resultados computacionais devem, em última análise, se conectar à pesquisa e ao cuidado reais do glaucoma. Como as ideias geradas por autoresearch liderado por pacientes podem ser validadas e avançadas?

Colaboração com Grupos de Pesquisa: Cientistas cidadãos devem entrar em contato com consórcios de pesquisa de glaucoma estabelecidos. Exemplos incluem o International Glaucoma Genetics Consortium (IGGC) e o consórcio NEIGHBORHOOD, que agrupam dados genéticos e clínicos (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Descobertas do autoresearch (por exemplo, um novo gene candidato ou hipótese de reposicionamento de medicamento) poderiam ser compartilhadas com esses grupos para acompanhamento experimental. Laboratórios de cultura de tecidos (por exemplo, em grandes universidades) ou pesquisadores do sono podem testar compostos na sobrevivência de CGRs. Clínicos acadêmicos podem correlacionar qualquer biomarcador ou classificador de imagem com os dados de seus pacientes sob aprovação do IRB. Iniciar diálogos entre grupos estilo hackathon e laboratórios formais é fundamental.
Envolvendo Organizações de Defesa do Paciente: Grupos como a Glaucoma Research Foundation ou a Cure Glaucoma Foundation frequentemente financiam a inovação centrada no paciente. Eles poderiam patrocinar projetos de prova de conceito ou competições de cidadãos usando autoresearch. Essas organizações possuem redes de clínicos e poderiam ajudar a encaminhar modelos promissores para a clínica. Por exemplo, se um agente sinaliza um medicamento existente aprovado pela FDA como neuroprotetor, um grupo de defesa pode auxiliar na configuração de um pequeno ensaio sob protocolos adequados. Destacar sucessos exigirá enquadrar os resultados como hipóteses (não conselhos médicos) e garantir a transparência.
Salvaguardas Éticas e de Segurança: Cientistas cidadãos devem usar apenas dados públicos desidentificados ou dados totalmente sintéticos. Qualquer uso de registros reais de pacientes requer um protocolo aprovado por IRB (e provavelmente consentimento do paciente). A saída dos ciclos de autoresearch deve ser claramente rotulada como geradora de hipóteses. Por exemplo, “Este modelo sugere que a Droga X pode proteger as CGRs – validação experimental necessária.” Decisões médicas críticas devem permanecer com os médicos. Os riscos incluem a distribuição inadvertida de modelos que preveem resultados pessoais (progressão do glaucoma) – isenções de responsabilidade explícitas são necessárias para não tratá-los como ferramentas de diagnóstico. As melhores práticas de privacidade de dados (por exemplo, usando campos agregados ou anonimizados) são obrigatórias.
Precedentes na Ciência Cidadã: Não é inédito para amadores contribuírem para a pesquisa médica/neurociência. O projeto Eyewire (jogo de mapeamento de neurônios com crowdsourcing do MIT) mobilizou voluntários para reconstruir circuitos neurais da retina (www.citizenscience.gov). Em oftalmologia, não-especialistas ajudaram a anotar imagens em desafios financiados pela OpenAI (por exemplo, conjuntos de dados rotulados para doenças oculares). Fora do cuidado ocular, jogos como Foldit (quebra-cabeças de dobramento de proteínas) e Galaxy Zoo (classificação de galáxias) mostram que a participação cidadã pode resolver problemas científicos difíceis. Esses sucessos encorajam a ideia de que muitas mãos (e agora IAs) podem de fato auxiliar na pesquisa complexa. A abordagem de autoresearch é como dar a cada pessoa um assistente de laboratório alimentado por IA: esforços anteriores de crowdsourcing usavam apenas humanos para analisar tarefas fixas, enquanto aqui o humano define o objetivo e a IA faz a iteração.

Ao ser transparente, cautelosa e colaborativa, uma iniciativa de autoresearch de ciência cidadã pode ganhar confiança. Deve-se enfatizar “gerar pistas, não prescrições”. Se a comunidade documentar os métodos e compartilhar o código abertamente, pesquisadores profissionais podem reproduzir os achados. Por exemplo, se alguém encontrar uma nova combinação de fatores protetores de CGRs, poderá publicá-la em um preprint ou alertar um laboratório. Referências estilo citação (como fazemos aqui) ajudam a fazer a ponte: por exemplo, “Tratamos sua lista de medicamentos candidatos no contexto de vias conhecidas (pmc.ncbi.nlm.nih.gov).” Em última análise, esta é uma forma de ciência aberta – impulsionada por pacientes, mas cientificamente rigorosa. Se os padrões éticos forem mantidos, essa inovação de base tem grande potencial para gerar novas colaborações e, em última análise, alimentar a pesquisa oftalmológica revisada por pares.

6. Um Roteiro Concreto de 90 Dias

Um plano focado e com prazo definido pode reunir uma comunidade de 10 a 50 pessoas (com pelo menos uma GPU ou Apple Silicon cada) para lançar um esforço de autoresearch-para-glaucoma. Aqui está um plano faseado sugerido:

Semana 1–2: Formação e Configuração
- Recrutamento e Lançamento: Crie um canal de comunicação (por exemplo, Slack ou Discord) e um repositório GitHub para o projeto. Divulgue em fóruns de pacientes com glaucoma, grupos de biohacking e encontros de IA.
- Verificação de Hardware: Certifique-se de que todos podem instalar o PyTorch e clonar o repositório de Karpathy (ou o fork Maple). Realize uma sessão de configuração onde cada membro executa um ciclo de autoresearch de exemplo em um conjunto de dados de brinquedo (por exemplo, subconjunto CIFAR-10) para verificar o ambiente.
- Seleção de Conjuntos de Dados: Decida 1 a 3 tarefas iniciais (por exemplo, classificação OCT, progressão CV). Para cada uma, designe uma pequena equipe para preparar os dados: por exemplo, uma equipe baixa imagens RIM-ONE (github.com), outra recupera campos GRAPE (www.nature.com), outra coleta resumos de literatura. As equipes devem dividir os dados 80/20 e criar stubs de prepare.py.
- Modelos de Linha de Base: Para cada tarefa, finalize um train.py simples: por exemplo, uma pequena CNN para RIM-ONE, um MLP para CVs. Escolha métricas de avaliação (AUC, Dice, MSE).
- Elaboração Inicial de program.md: Cada equipe escreve um arquivo de instrução inicial (program.md) declarando o objetivo e as mudanças permitidas. Por exemplo, para RIM-ONE: “maximizar o AUC de detecção de glaucoma”, para GRAPE: “minimizar o MSE de CV”.
Semana 3–6: Primeiros Ciclos de Experimentos
- Execute os Ciclos de Autoresearch: Cada subgrupo executa o agente em sua tarefa durante a noite (aproximadamente 100 execuções de 5 minutos). Use um único program.md para começar, então permita que os participantes adicionem variações (por exemplo, “program_temp1.md”).
- Colete os Resultados: Cada manhã, as equipes examinam os logs (o repositório registra automaticamente cada execução). Registre a melhor métrica alcançada, os parâmetros do modelo naquele momento e quaisquer mudanças notáveis que o agente encontrou. Para transparência, envie esses resultados para o GitHub compartilhado (talvez em CSV ou JSON).
- Iteração e Feedback: Compare as execuções. Alguma estratégia superou a linha de base significativamente? Se uma subequipe vir pouco progresso, ela deve ajustar o program.md (por exemplo, sendo mais agressiva com as mudanças na taxa de aprendizado). A cada fim de semana, sintetize as descobertas em uma reunião da comunidade.
- Ferramentas: Use Git para controle de versão em program.md e nos templates de código. Considere uma Planilha Google ou tabela wiki compartilhada para as tabelas de classificação (por exemplo, “OCT-AUC: melhor=0.85 por Alice; CV-RMSE: melhor=2.1 por Bob”). Isso motiva uma competição saudável e transparência.
Semana 7–12: Refinamento e Divulgação
- Refine os Experimentos: Com base nos resultados iniciais, refine tarefas promissoras. Por exemplo, talvez o classificador RIM-ONE tenha superado 0.90 AUC – agora tente adicionar aumento de dados ou uma rede ligeiramente mais profunda. Incentive a ramificação: alguns podem tentar arquiteturas diferentes (por exemplo, Vision Transformer tiny em vez de CNN). Os agentes podem executar múltiplas variantes de program.md em paralelo.
- Síntese de Resultados: Crie relatórios curtos sobre cada domínio (OCT, CV, etc.), resumindo o que funcionou. Por exemplo, “Melhoramos o Dice de segmentação de CCG de 0.60 para 0.75 ao mudar de ativação ReLU para GELU.” Use linguagem leiga para que não especialistas possam acompanhar (glossário para termos de ML).
- Apresentação à Comunidade: Até a semana 10, escreva uma postagem de blog ou um deck de slides resumindo a iniciativa até o momento. Destaque quaisquer descobertas não triviais (mesmo resultados “nulos” são úteis para compartilhar). Convide feedback de fóruns online; talvez entre em contato com um pesquisador pedindo comentários (“Descobrimos que X ajustes na rede neural ajudam a classificar o glaucoma precoce – alguma ideia se isso se alinha com a fisiologia?”).
- Planejar Divulgação: Identifique um ou dois laboratórios de oftalmologia ou clínicos interessados em colaborar. Entre em contato com os resultados iniciais. Por exemplo, conecte-se com os autores do conjunto de dados HYGD ou com a equipe GRAPE no Twitter/LinkedIn, mencionando suas descobertas de ciência cidadã. Explore possibilidades de co-validação (por exemplo, envie a eles os pesos do modelo treinado para testar em seus dados).
Além das 12 Semanas: Próximos Passos
- Continue os ciclos nas tarefas mais promissoras e em novas. Por exemplo, se RIM-ONE produz bons resultados, em seguida aborde REFUGE. Talvez construa modelos compostos (ensemble de CNNs).
- Oficialize uma página de projeto ou preprint descrevendo o esforço.
- Considere organizar um hackathon para trazer mais mentes, possivelmente em parceria com uma instituição de caridade de glaucoma.

Ao estruturar dessa forma, a comunidade pode progredir constantemente, aprender em conjunto e começar a fazer a ponte com especialistas ao final de 90 dias.

7. Riscos, Limitações e Avaliação Honesta

A ideia do autoresearch para glaucoma é ambiciosa, portanto, requer honestidade sobre as armadilhas potenciais:

Risco de Overfitting e Padrões Espúrios: Modelos pequenos em conjuntos de dados pequenos e ruidosos frequentemente se apegam a coincidências. Um agente pode encontrar um ajuste que melhora o AUC de validação simplesmente por overfitting a idiossincrasias. Por exemplo, se um subconjunto de imagens tivesse uma marca de anotação sutil, a rede poderia usar isso em vez de características verdadeiras de glaucoma. Isso leva à “trapaça do gradiente descendente”. Para mitigar:
- Sempre use conjuntos de teste separados (completamente distintos de qualquer ajuste) para avaliação final.
- Limite a complexidade: mantenha os modelos modestos e observe se o agente aprofunda ou alarga excessivamente a rede além da razão.
- Se um modelo atingir uma pontuação quase perfeita muito rapidamente, questione-o.
- Use verificações de sanidade: por exemplo, embaralhe os rótulos e veja se o AUC cai para aleatório (se não, há vazamento).
Viés e Qualidade dos Dados: Conjuntos de dados públicos de glaucoma frequentemente vêm de populações restritas (por exemplo, ORIGA de Cingapura) (pubmed.ncbi.nlm.nih.gov). Um modelo ajustado a esses dados pode não generalizar. Experimentos cidadãos devem observar essa limitação. Idealmente, múltiplos conjuntos de dados (de diferentes coortes) são usados para verificar se as descobertas são robustas.
Pistas Falsas (“Teatro de Pesquisa”): Executar muitos experimentos parece produtivo, mas se cada melhoria for apenas em conjuntos de dados sintéticos ou triviais, isso pode não beneficiar os pacientes. Para evitar isso:
- Concentre-se em tarefas com relevância clínica (por exemplo, detecção precoce a partir de OCT de rotina).
- Vincule os resultados a medidas reais quando possível (por exemplo, AUC para progressão, não apenas uma pequena variação de perda).
- Priorize a interpretabilidade: se o agente “encontrar” um novo biomarcador, tente garantir que ele faça sentido (por exemplo, está focado em mudanças anatômicas conhecidas?).
Sem Garantia Clínica: Deve ser cristalino: a saída desses ciclos é geração de hipóteses, não aconselhamento médico. Um modelo que sugere um novo medicamento deve ser validado em laboratório antes de qualquer uso em pacientes. Exagerar é perigoso. Rotule todos os resultados compartilhados com avisos: “Esta é uma exploração de IA e não uma descoberta revisada por pares.”
Limitação do “Modelo Pequeno”: Redes muito pequenas têm capacidade limitada. Elas podem perder padrões complexos. Em contraste, grandes modelos frequentemente alcançam avanços, mas exigem grandes quantidades de dados. Aqui aceitamos um escopo limitado: a esperança é que mesmo pequenas melhorias possam guiar a pesquisa. Mas não devemos esperar que esses modelos substituam o aprendizado profundo em dados massivos. Eles são melhores para tentar ideias óbvias rapidamente.
Confiabilidade do Agente: O agente (por exemplo, GPT-4) pode alucinar ou desviar. É importante que os resultados sejam reproduzíveis: após uma execução do agente, um humano deve verificar quais alterações foram mantidas e executar novamente o treinamento para confirmar a métrica. Mantenha o agente honesto incluindo declarações em program.md como “aceitar apenas melhorias reais na métrica de avaliação”.

Apesar desses desafios, a salvaguarda fundamental é a transparência e o acompanhamento crítico. Documente tudo. Quando um modelo mostra um padrão, verifique-o. Se muitos cientistas cidadãos virem a mesma anomalia (por exemplo, todos os modelos de alto AUC para uma tarefa OCT enfatizam a região nasal da retina), isso fortalece o caso. O objetivo é acelerar a fase de geração de ideias, não evitar a ciência cuidadosa depois.

Conclusão

O glaucoma é uma doença complexa e silenciosa que causa cegueira, com muitas necessidades de pesquisa não atendidas – desde a proteção de neurônios até a restauração da visão. Ao mesmo tempo, a IA democratizou a experimentação: uma pessoa com uma GPU e alguma determinação pode executar buscas automatizadas de hiperparâmetros que levariam semanas para equipes manualmente. O framework autoresearch de Karpathy essencialmente entrega a cada cidadão um assistente de laboratório de IA. Ao escrever objetivos claros de alto nível em Markdown, pesquisadores da comunidade podem deixar um agente processar produtos e ir direto às pistas promissoras.

Esboçamos como isso pode ser feito na prática: identificando tarefas de ML em glaucoma, selecionando dados (imagens de fundo de olho e OCT, campos visuais, conjuntos de dados moleculares), definindo modelos e métricas, e usando instruções de programa para guiar a busca. Esboçamos um roteiro comunitário de 90 dias e destacamos pontes para clínicos para garantir que a produção valiosa possa informar a ciência real do glaucoma. A abordagem é muito “ciência cidadã”: abrindo ferramentas de descoberta científica de forma acessível, enquanto ainda se baseia na supervisão de especialistas onde é importante.

Citações: Referenciamos os mais recentes recursos tanto em pesquisa de glaucoma quanto em IA. Fatos-chave (prevalência da doença, metade não diagnosticada (physionet.org)), terapias promissoras (implantes de CNTF (pmc.ncbi.nlm.nih.gov), edição genética (pmc.ncbi.nlm.nih.gov)), e armadilhas duvidosas (IA em imagens (pmc.ncbi.nlm.nih.gov)) estão fundamentados na literatura atual. O próprio autoresearch é descrito no guia de Karpathy (medium.com) e na revisão (www.theneuron.ai). Estes devem conferir credibilidade à visão aqui delineada.

Ao final de tudo, esperamos que o leitor se sinta capacitado: se você é um paciente, cuidador ou entusiasta apaixonado, você pode fazer parte do avanço da pesquisa sobre glaucoma. As ferramentas e os dados existem, os problemas são claros e, com coordenação e um agente de IA, podemos acelerar o aprendizado. Como em qualquer pesquisa, a jornada terá falsos começos, mas mesmo as falhas nos ensinam algo – muitas vezes direcionando mentes humanas para as abordagens certas. Com os olhos bem abertos tanto para as possibilidades quanto para as armadilhas, o autoresearch liderado por cidadãos pode se tornar um complemento poderoso à ciência tradicional do glaucoma.

Comece Aqui

A maneira mais fácil de começar com o autoresearch para glaucoma hoje: Execute uma pequena classificação em imagens de fundo de olho ORIGA.

Obtenha os dados: Baixe o conjunto de dados ORIGA-light (650 imagens de fundo de olho da retina rotuladas normal vs glaucoma) (pubmed.ncbi.nlm.nih.gov). Divida ~80% para treino / 20% para validação.
Modelo inicial: Use ou adapte o script de exemplo de [karpathy/autoresearch] para classificação de imagens. Por exemplo, um pouco de código para carregar imagens ORIGA e treinar uma pequena CNN (2–3 camadas convolucionais) para distinguir glaucoma vs. saudável.
Escreva program.md: Em texto, defina o objetivo como “maximizar o AUC de validação para detecção de glaucoma”, e instrua o agente que ele pode ajustar a profundidade do modelo, taxa de aprendizado, etc. Por exemplo:

Objetivo: Maximizar o AUC em glaucoma vs normal para o conjunto de dados ORIGA.

O agente deve tentar ajustar os tamanhos das camadas convolucionais, o número de filtros e a taxa de aprendizado. Cada tentativa é de 5 minutos de treinamento. Se o AUC de validação melhorar, mantenha a alteração. Repita.
Execute o ciclo: Lance o autoresearch (apontando-o para seu prepare.py, train.py e program.md). Deixe-o rodar por várias horas ou durante a noite em sua RTX 3060. Ele realizará ~100 experimentos automaticamente.
Verifique os resultados: Examine o console ou o log para ver o melhor AUC de validação alcançado (deve ser >0.8 se tudo correr bem). Você agora tem um modelo e um script de treinamento que o agente de IA refinou.

Este simples experimento de fim de semana já lhe dá experiência em primeira mão na construção de um pipeline de ML sem escrever código novo manualmente. Documente o que você tentou e compartilhe seu program.md e resultados com a comunidade. Cada pequeno sucesso (aumentos de AUC, mudanças interessantes na rede) é um bloco de construção. Você está literalmente instruindo uma IA a fazer pesquisa sobre o problema de glaucoma de sua escolha – e ao fazê-lo, você aprende tanto ciência de dados do glaucoma quanto tem esperança de fazer a diferença na compreensão ou tratamento da perda de visão.

Boa sorte! Mantenha as perguntas e descobertas em código aberto, e lembre-se: estas são ferramentas de pesquisa de brinquedo, não aconselhamento médico. Verifique suas execuções cuidadosamente e aproveite o processo de descoberta.

**`

Olhos Bem Abertos: Como o Framework Autoresearch de Karpathy Poderia Democratizar a Pesquisa sobre Glaucoma — Um Modelo para a Descoberta Orientada por Pacientes e Impulsionada por IA na Restauração da Visão