眼界大开:Karpathy 的 Autoresearch 框架如何能使青光眼研究大众化
引言
青光眼是一种慢性视神经病变,它会逐渐破坏视网膜神经节细胞 (RGCs),导致不可逆的视力丧失。它影响着全球数百万人——2013年估计有6430万人,预计到2040年将超过1.1亿人 (physionet.org)。令人担忧的是,大约一半的病例在视力丧失已经开始之前仍未被诊断出来 (physionet.org)。传统的青光眼治疗着重于通过药物或手术降低眼内压 (IOP),但这些治疗方法无法逆转损伤或完全预防失明 (pmc.ncbi.nlm.nih.gov) (physionet.org)。因此,在神经保护、RGC/视神经再生以及创新基因和细胞疗法等领域迫切需要新的发现。然而,这些前沿领域的学术和制药研究仍资源不足,部分原因是它们是长期、高风险的工作。与此同时,机器学习 (ML) 和人工智能 (AI) 的进步正在为数据分析和生成设计提供新的方法。
最近的研究(例如,Andrej Karpathy 的 “autoresearch” 项目 (www.theneuron.ai) (medium.com)) 表明,AI 智能体仅根据简单的高级指令,就能在单个 GPU 上自主运行数百个小型实验。在这种范式中,人类编写一个简短的 program.md 文件来描述研究目标,AI 智能体则迭代地调整模型或超参数,运行5分钟的训练,保留成功的更改,并丢弃其他更改 (medium.com) (www.theneuron.ai)。这种循环一夜之间可以进行大约100次实验,无需手动编码即可探索架构和参数空间。
本文探讨了 Karpathy 的 autoresearch 框架如何能被积极的患者、护理人员、公民科学家和开源开发者应用于青光眼研究。我们将调查青光眼研究中未被充分探索的领域(神经保护、再生等),并识别每个领域中小型模型实验可能有所帮助的机器学习任务。对于每项任务,我们建议了具体的公共数据集、基线模型/架构、评估指标,并概述了智能体 program.md 指令可能的样子。接着,我们讨论了一个社区如何设置和分享此类实验的实际步骤,包括硬件考量、数据准备和协作平台。我们审视了视力恢复疗法的具体背景,以及 autoresearch 式的循环是否能加速神经假体或其他干预措施的优化。最后,我们讨论了如何验证公民提出的假设并将其提交给临床医生,并提出了一个具体的90天路线图,用于启动一项由患者主导的自动化研究倡议——包括如何避免“研究剧场”的陷阱并确保实际影响。贯穿全文,我们引用了青光眼研究和视觉AI领域的最新资料,旨在提供一份平衡、现实且易于理解的指南。
1. 青光眼研究现状与未满足的需求
青光眼研究涵盖多个方面——从了解疾病机制到开发用于神经保护和视力恢复的新疗法。许多有前景的领域资源不足:
-
神经保护:保护RGCs免于死亡的干预措施(独立于IOP)。例子包括神经营养因子和代谢支持。例如,释放睫状神经营养因子 (CNTF) 的植入物在早期试验中显示出潜力 (pmc.ncbi.nlm.nih.gov),其他分子如神经生长因子和胞磷胆碱也在研究中 (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov)。然而,这些尚未成为标准治疗方法,需要更多工作才能将其转化为患者福祉。2025年的一篇综述警告说,青光眼神经保护疗法是一种“未来疗法”,需要进一步试验 (pmc.ncbi.nlm.nih.gov),反映了未满足的需求。
-
RGC 再生与视神经再生:一旦RGCs及其轴突死亡,目前的医学无法逆转。一些动物研究使用基因疗法重编程RGCs或刺激再生。例如,基于CRISPR抑制 PTEN(一种负性生长调节因子)促进了大鼠神经细胞的轴突再生 (pmc.ncbi.nlm.nih.gov),并且共同删除 PTEN 和 SOCS3 的实验驱动了小鼠持续的视神经再生 (pmc.ncbi.nlm.nih.gov)。然而,这些突破仍停留在实验室模型中。潜在的生物学机制——例如如何重现视网膜发育或绕过生长抑制剂——是复杂的。对于能够刺激RGC存活或轴突再生的模式(小分子、基因、生物材料)有巨大的需求,但进展到人体试验缓慢。
-
基因和细胞疗法:CRISPR、病毒载体和干细胞衍生的RGCs等新技术为青光眼带来了希望。策略包括基因编辑以降低IOP(例如靶向房水产生)或调节神经退行性通路 (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov)。干细胞理论上可以替代丢失的小梁网细胞或RGCs并分泌保护因子 (pubmed.ncbi.nlm.nih.gov)。早期工作表明,某些转录因子(例如Oct4-Sox2-Klf4)可以在小鼠中将非RGCs重编程为RGC样神经元(在视神经损伤中恢复视力) (pmc.ncbi.nlm.nih.gov)。然而,这些方法在到达患者之前面临安全和递送挑战。最近的几篇综述强调基因疗法是青光眼一个令人兴奋但尚未临床化的前沿领域 (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov)。总而言之,分子和细胞创新正在发展,但资源和试验数据有限——为计算探索(例如设计最佳病毒载体或预测有效基因编辑)创造了机会。
-
电刺激和光遗传学刺激用于视力恢复:对于晚期青光眼患者(或结合视网膜色素变性等疾病),人工视觉假体或光遗传学疗法旨在绕过受损的RGCs。视网膜植入物(视网膜上或视网膜下电极阵列)和皮质植入物已产生人工感知(“光幻视”),但分辨率低且结果差异很大。2025年关于视觉假体中AI的最新综述指出,“AI算法在优化假体视觉方面显示出潜力,特别通过增强图像显著性提取和刺激策略”,尽管到目前为止大多数研究都是模拟 (pmc.ncbi.nlm.nih.gov)。换句话说,机器学习可以帮助将相机图像转换为在设备限制下最具信息量的刺激模式。光遗传学(使存活的视网膜细胞对光敏感)和经角膜电刺激 (TES) 脉冲也在试验中用于青光眼相关的视力丧失。所有这些领域都需要广泛的参数调整(例如时空刺激模式、基因表达载体)——这些任务可能适合自主ML搜索。
-
独立于IOP的机制:许多人即使在IOP得到良好控制的情况下仍继续丧失视力。视眼血流受损、神经血管功能障碍或视盘代谢应激等因素已被认识但尚未完全理解。遗传学研究表明青光眼风险存在显著的“独立于IOP”的组成部分 (pubmed.ncbi.nlm.nih.gov) (pubmed.ncbi.nlm.nih.gov)。迫切需要这些过程的生物标志物(超越压力)。此外,一半青光眼患者患有“正常眼压”青光眼,这突出表明高IOP并非唯一的罪魁祸首。对血管因素或其他损伤通路的研究正在进行中但分散。计算建模或挖掘大型数据集(例如全基因组关联研究)可能有助于在此领域识别新机制或治疗靶点。
-
通过成像和视野发现生物标志物:青光眼的早期检测和监测通常依赖于成像(眼底照片、OCT)和功能测试(视野)。高级算法可以发现人类临床医生遗漏的微妙生物标志物。例如,深度学习已开始检测视野前缺损(标准视野分析无法察觉的变化) (pmc.ncbi.nlm.nih.gov)。同样,AI已被用于分析OCT层厚度剖面图,以在出现明显损伤之前预测青光眼。然而,目前尚未有被临床广泛接受用于筛查或风险分层的AI生物标志物。这里的计算瓶颈包括需要大型、良好标记的数据集和鲁棒的验证协议 (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov)。公共挑战赛 (REFUGE, AIROGS 等) 已开始标准化数据,但早期疾病的覆盖范围很薄弱 (pmc.ncbi.nlm.nih.gov)。进一步通过机器驱动的多模态生物标志物发现(结合OCT、视野、遗传学等)仍然是一个开放的前沿。
小型模型ML能提供什么帮助? 上述许多问题都是高层次的。瓶颈通常是数据稀缺、许多相互作用的变量和缓慢发展的生物学。autoresearch 智能体擅长的是自动化对可用数据的小规模实验。例如,如果有一个包含早期青光眼和非早期青光眼OCT扫描的适度数据集,公民科学家可以设置一个快速模型测试循环,以找到最能区分它们的架构。同样,基因组学或文献上的小型 Transformer 模型可以提出新的基因或药物候选。关键是专注于具有明确指标(分类准确率、AUC、损失)的狭窄任务,并快速迭代。公共数据有限的领域(例如TES参数或新型基因组合)可能依赖于合成数据或代理数据。在下一节中,我们将青光眼中的特定ML任务映射到自动化研究方法。
2. 将 Autoresearch 映射到青光眼问题
Karpathy 的 autoresearch 框架与领域无关:它可以在 prepare.py 和 train.py 提供的任何ML任务中运行实验,只要有明确定义的评估指标。我们确定了几个具体的青光眼相关任务,并说明了智能体如何应对每个任务。以下每个用例都包括:一个公开可用的数据集(如果可能)、一个起始模型或架构、一个评估指标以及 program.md 指令的草图。
2.1 OCT 图像分析(结构检测和分割)
-
任务:通过OCT扫描进行早期青光眼检测。 OCT成像提供视网膜层面的横截面视图。视网膜神经纤维层 (RNFL) 和神经节细胞复合体 (GCC) 的变薄可能发生在视野丧失之前。我们可以将其视为分类任务(青光眼与健康)或回归任务(例如输出RNFL厚度)。
- 数据集: 最近发布的一个合成数据集 SYN-OCT (www.nature.com),包含200,000张视盘周围OCT图像(10万张青光眼,10万张正常),由GAN生成。每张图像都关联有RNFL厚度和分割掩模。这些数据可在Zenodo上公开获取 (www.nature.com)。(尽管是合成数据,但它们经过统计验证,可以模拟真实的OCT图像 (www.nature.com)。)或者,可以使用 OCT-DL 数据集 (www.nature.com)(2064张各种视网膜疾病的图像)或较小的临床OCT集合。
- 模型: 从小型卷积神经网络 (CNN) 开始。对于分类,一个具有约3-5个卷积层(例如截断的 ResNet-18 或自定义的小型CNN)的模型可以工作。对于RNFL/GCC的分割,像小型 U-Net(深度3-4)这样的编码器-解码器是合适的。最初的
train.py可以实现一个简单的CNN和训练循环,并带有默认超参数。 - 指标: 如果在OCT上进行青光眼分类,使用AUC (ROC曲线下面积) 或验证集上的准确率。对于分割,使用RNFL层掩模上的Dice 系数或IoU(SYN-OCT提供了掩模 (www.nature.com))。
program.md示例:“目标:最大化从OCT图像检测青光眼的验证AUC。允许的修改:卷积层数、滤波器数量、核大小、激活函数、学习率、优化器选择、批量大小等。每次5分钟训练运行后,评估在保留集上的AUC。如果AUC提高,则保留更改;否则回滚。” (medium.com) (www.theneuron.ai)。 智能体因此会尝试变体(例如添加层、调整宽度、从Adam切换到RMSProp)以提高AUC。
-
任务:RNFL/GCC 层分割。 精确测量RNFL厚度至关重要。使用合成OCT扫描(提供分割)或任何带有标注层的真实OCT,可以将其视为一个分割任务。
- 数据集: SYN-OCT 再次提供RNFL分割掩模 (www.nature.com)。另一个来源:一些学术团体已标注了OCT B扫描(尽管通常是专有的)。如果需要,可以使用通用OCT分割数据集(如Duke视网膜OCT液体挑战赛 (www.nature.com)) 作为代理。
- 模型: 一个小型U-Net类CNN,甚至可以是基线模型的通道修剪版本。例如,使用3个下/上采样块,从16个滤波器开始。智能体可以改变深度和宽度。
- 指标: 预测的RNFL掩模与真实值之间的Dice 分数或平均IoU。
program.md示例:“目标:最大化OCT上RNFL层分割的Dice分数。基础模型是一个3块U-Net。智能体可以改变滤波器数量、添加dropout或改变学习率。每次试验训练5分钟,并在验证集上计算Dice分数。保留增加Dice分数的修改。”
-
任务:通过连续OCT预测进展。 使用连续OCT,预测未来的变薄情况。如果存在纵向OCT数据(例如英国生物样本库或私人诊所数据),目标可以是预测RNFL变化或二元“快速进展者”标签。
- 数据集: 针对青光眼的公共纵向OCT数据稀缺。然而,可以重新利用SR OCT挑战数据(或带有模拟进展的SYN-OCT图像)来模拟此任务。或者,使用英国生物样本库OCT图像(尽管不是青光眼特异性,且公民科学家不易获取)。为说明起见,假设有一个包含时间0和时间1的OCT扫描数据集,并带有标签。
- 模型: 一个 Siamese 或串联CNN,接收成对的OCT图像,输出进展概率。从输入时间0并预测时间1截止点开始。
- 指标: 对于二元进展分类使用AUC,如果尝试预测厚度变化则使用MSE。
program.md示例:“目标:识别RNFL将快速丢失的眼睛。输入:基线OCT;标签:1年后变薄>5μm。我们使用CNN分类器。允许的更改包括网络深度、学习率、数据增强。使用验证AUC作为指标。”
2.2 视野 (VF) 分析
-
任务:预测未来视野丧失。 给定一次或多次过去的Humphrey视野测试(点状敏感度值),预测未来的敏感度或进展速度。这是一个经典的青光眼管理问题。
- 数据集: GRAPE 数据集 (www.nature.com) (2023) 提供了263只眼睛(1115条记录)的纵向随访数据,包括VF和眼底/OCT,以及标注的进展情况。另一个资源是美国 UH 视野 (UWHVF) 纵向数据库 (www.nature.com)(来自许多患者的28,943个视野)。然而,GRAPE经过良好整理,公开,并包含VF和结果。
- 模型: 一个简单的方法是在54点VF数据上使用前馈网络(全连接)(或压缩为全局索引)。对于进展预测,一个较小的MLP或1D-CNN可以处理54或30个输入特征。另一个想法:将8×8网格视为一个微型图像,并使用小型CNN(例如,3×3核)。
- 指标: 如果预测未来的平均偏差或点值,使用MSE(越低越好)。如果分类“快速进展者与否”,使用AUC。
program.md示例:“目标:最小化预测视野的MSE。或者,最大化快速丧失分类的AUC。基础模型:54个VF值上的2层感知器。智能体可以调整隐藏层大小、激活函数或添加dropout。每次5分钟训练后,在验证集上计算指标。”
-
任务:识别快速进展者。 使用一系列过去的VF,分类哪些眼睛会快速丧失视力。
- 数据集: 使用GRAPE中已标注的进展状态 (www.nature.com)(他们将眼睛标记为已进展)。或者选取UWHVF,将MD损失最高的前十分之一标记为“快速”。
- 模型: 可以将连续两三个视野的特征(或差异)串联成一个小网络。如果可用,可能包括基线IOP和年龄。
- 指标: AUC 用于区分快速进展者与缓慢进展者。
program.md示例:“目标:最大化预测视野快速进展的AUC。输入特征:VF1和VF2的二阶差异,加上IOP。使用小型FC网络。智能体可以调整层宽度、学习率、批量大小。”
2.3 药物/化合物筛选(计算机辅助候选药物发现)
- 任务:预测候选神经保护/再生化合物。 使用ML寻找可能保护RGCs或促进再生的分子。例如,许多已知化合物(如烟酰胺、丙戊酸盐)显示出神经保护作用。我们可以训练模型识别与已知功效相关的化学类型,然后搜索化学空间。
- 数据集: 由于缺乏专门的青光眼药物数据库,这具有挑战性。作为替代,可以使用MolNet数据集(例如HIV抑制、BBB渗透性)或任何生物活性数据集。或者,从文献挖掘中汇编一份在视神经损伤模型中测试过的化合物列表并附带标签。实际上,可以从更通用的属性(例如来自MoleculeNet的血脑屏障渗透数据)开始。
- 模型: SMILES字符串上的小型Transformer或图神经网络。
train.py中可以实现一个层数较少的Transformer(如GPT-2风格)或一个简单的图卷积网络(如3层GCN)。 - 指标: 如果视为分类(活性与非活性),使用AUROC。如果预测亲和力或logP,使用RMSE。
program.md示例:“目标:最大化识别神经保护类化合物的分类ROC-AUC。基础模型:SMILES上的小型Transformer。智能体可以调整Transformer层数、dropout、学习率,或使用其他特征化方法(例如指纹输入)。每次5分钟后,评估验证分子上的AUC。”
(注:由于实际神经保护的公共数据稀缺,此任务更具说明性。实际上,公民科学家可以创建已知神经保护化合物与对照的自定义数据集,并遵循此模式。)
2.4 基因调控网络建模(单细胞RGC)
- 任务:识别再生转录因子组合。 使用RGC的单细胞RNA-seq数据来学习再生生长的转录模式。例如,某些RGC亚型比其他亚型再生得更好。ML模型可能预测一个“再生状态”标签,然后可以检查哪些转录因子是重要的。
- 数据集: 2018年的一项研究提供了RGC单细胞转录组数据 (GEO登录号 GSE115404) (pmc.ncbi.nlm.nih.gov),识别了不同的RGC亚型。我们可以使用此数据集(或其子集),其中细胞按亚型或实验条件(例如损伤前与损伤后)标记。
- 模型: 一个作用于基因表达向量的小型Transformer或MLP(每个细胞有数千个基因丰度)。实际上,会预选大约500个顶级基因(例如高变基因)。
train.py可能实现一个迷你Transformer(例如4层,嵌入256)或简单的2层感知器。 - 指标: 如果使用无监督分析,可以使用轮廓系数,但更简单的是,如果将细胞标记为“再生”与“非再生”(如果存在标签),则使用分类准确率/AUC。
program.md示例:“目标:构建一个区分再生与非再生RGC基因表达谱的模型。从一个3层Transformer开始。智能体可以改变嵌入维度、深度、学习率,或添加批量归一化。优化验证准确率。” 运行后,最佳模型的注意力权重或学习到的特征可能会突出关键转录因子以供实验。
2.5 电生理信号分析
- 任务:通过ERG检测亚临床RGC功能障碍。 模式视网膜电图 (pERG) 或其他电生理信号可以揭示RGC健康状况。例如,延迟或减弱的ERG反应可能先于视野缺损。我们可以尝试将信号分类为“正常”与“青光眼疑似”。
- 数据集: 青光眼中的公共ERG数据集很少。可以使用替代数据:来自动物(视网膜退行性变)的数据集或合成信号。如果不可用,即使是通用1D电生理数据集(例如心电图)也可以说明管道。
- 模型: 一个1D CNN(例如2个卷积层后跟FC)处理时间序列数据。或者,如果序列较长,可以使用LSTM。
- 指标: 分类微妙功能障碍与正常的准确率或AUC。如果类别不平衡,可能使用F1分数。
program.md示例:“目标:最大化分类ERG轨迹(健康与早期青光眼模式)的验证准确率。使用1D CNN。智能体可以调整滤波器大小、步长,或添加循环层。保留任何提高准确率的更改。”
2.6 文献挖掘(假设生成)
- 任务:微调小型语言模型以发现新见解。 PubMed中有数千篇青光眼研究论文,ML智能体可以寻找联系或重新利用候选药物。例如,将神经保护通路与现有药物联系起来。我们可以将其视为语言建模问题或检索问题。
- 数据集: 编译一个青光眼相关摘要语料库(例如使用PubMed搜索“青光眼基因疗法”等)。可以通过NCBI API下载约10,000篇摘要。为了更简单的开始,可以使用PMC开放获取的青光眼文章。
- 模型: 一个小型Transformer语言模型(例如6层GPT-2)甚至BERT微调模型。为了自动化研究目的,我们可能会在文本上微调一个因果模型(GPT)。
- 指标: 通常,优化验证损失(困惑度)。如果进行分类(例如,给定摘要,预测药物或通路的标签),则使用准确率/AUC。
program.md示例:“目标:最小化小型GPT-2在青光眼文献语料库上的验证困惑度。使用5分钟的微调运行。智能体可以改变层数、隐藏层大小、学习率、上下文长度。保留降低困惑度的更改。” 一旦训练完成,可以提示此模型生成假设(例如,“青光眼神经保护的最佳可再利用药物候选:...”)。
在所有这些领域中,关键在于单个GPU和短暂运行可以进行多次试验。我们不期望智能体从头开始编写新算法,而是调整现有训练脚本。人类的作用是编写 program.md 来指导智能体的搜索,以实现青光眼特定目标(例如在眼底数据集上最大化AUC或预测RNFL厚度)。上述示例说明了 train.py 如何最初设置以及 program.md 如何提示改进选定的指标 (medium.com) (www.theneuron.ai)。
3. 实用公民科学实施指南
资源有限(例如单个RTX 3060或配备Apple Silicon的MacBook)的积极个人如何实际将 autoresearch 应用于青光眼问题?好消息是Karpathy的仓库很小,并且有缩小规模的指导。以下是关键步骤和技巧:
-
环境设置: 克隆 karpathy/autoresearch 仓库。您需要一个现代的Python版本,最好能访问LLM(智能体本身通常是预训练的LLM,如GPT-4或Claude,用于编辑代码)。对于GPU,安装支持CUDA/metal的PyTorch。对于Apple Silicon,使用其中一个分支(例如MLX)或适用于M1/M2的PyTorch构建(参见仓库文档)。在配备3060或4070的Windows/Linux上,正常的PyTorch CUDA即可工作。
-
小型GPU配置: 默认的autoresearch使用约50M参数的GPT类模型和1024的序列长度 (medium.com),这可能比较重。对于GTX 3060 (12GB),应减少模型大小和序列长度。在
train.py中,设置MAX_SEQ_LEN=512甚至256。减少层数和宽度(中型GPT大约8层;尝试4层,256宽度)。社区中的说明提到降低“DEPTH”、“WIDTH”等。您还可以通过使用更小的批量大小(甚至16或8)来减少优化器的内存。智能体仍然可以修改这些参数,但提供一个较小的起点可确保运行时间少于5分钟。autoresearch GitHub 的README和问题讨论也指出,由于内存限制,Mac M1芯片可以处理较短的序列(例如256个token);类似的缩放适用于任何GPU。 -
准备青光眼数据: 每个任务的数据都必须加载和分割。公共青光眼数据集包括:
- 眼底数据集: ORIGA(-light)(650张标记图像 (pubmed.ncbi.nlm.nih.gov))、RIM-ONE DL(485张带有杯盘分割的图像 (github.com))、REFUGE(1200多张图像,带有训练/测试分割 (refuge.grand-challenge.org))、新的Hillel Yaffe青光眼数据集 (HYGD) 包含约1200张眼底图像和高质量标签 (physionet.org)。EyePACS/AIROGS(数万张视网膜图像)也可通过注册公开访问(例如Kaggle)。
- OCT数据集: SYN-OCT(20万张合成B扫描,带有RNFL掩模 (www.nature.com) (www.nature.com))、OCTDL(2064张各种视网膜疾病的图像 (www.nature.com)),以及其他公共挑战赛的数据集。
- 视野数据: GRAPE(263只眼睛的纵向VF加上图像 (www.nature.com))。UWHVF(28k VF测试)如果您从华盛顿大学仓库下载,是开放的 (www.nature.com)。一些Kaggle挑战赛也包含VF数据。
- 电生理学: 尚无大型开放青光眼ERG数据集,但可以从任何可访问的正常与青光眼信号数据开始。
- 化学/基因数据: 标准数据集如MoleculeNet(用于化合物)或GEO(用于基因)可以重新利用。例如,通过GEO查询下载GSE115404原始计数 (pmc.ncbi.nlm.nih.gov),并预处理为表达矩阵。
对于每个任务,您需要一个
prepare.py,它加载数据并定义train_set、val_set和评估函数。Karpathy的模板期望prepare.py输出训练数据和返回损失或指标的评估例程。例如,RIM-ONE的prepare.py可能会加载标记为青光眼的图像和CC,分割成训练/验证文件夹,并定义一个计算验证AUC的函数。请参阅 [14†L71-L79] 了解RIM-ONE的结构方式。 -
调整数据以适应小规模: 如果数据集很大(如EyePACS或SYN-OCT),您可以对其进行子采样,创建包含几百个示例的“微型”数据集(模型仍然可以在小型语料库上学到有价值的东西)。autoresearch仓库甚至提到使用“TinyStories”风格的微型数据集来在微型硬件上运行。例如,从ORIGA中选择500张图像(平衡),或从GRAPE中选择1000个VF字段。同样,对于语言,可以使用PubMed青光眼论文的5000篇摘要子集。关键是智能体要迭代一个固定的数据集。确保预先打乱并按80/20分割,以便每个5分钟运行都能看到相同的训练/验证分割。
-
编写
program.md策略: 社区应在版本控制中分享不同的program.md提示(如“食谱”)。每个文件可以编码一种研究策略。例如,一种策略可能说“如果深度<6则增加网络深度,否则降低学习率”,而另一种策略可能说“专注于数据增强更改”。随着时间的推移,小组可以比较哪些策略在排行榜上产生了更好的指标。一个好的program.md包括一个目标(例如最大化AUC或最小化验证损失)并暗示允许的修改(层、滤波器、学习率)。智能体的LLM使用这些指令来提出代码修改。保持指标标准化(例如,对于青光眼分类任务始终报告AUC),以便实验具有可比性。 -
社区协作: 为了使这项工作可扩展,公民科学社区应进行组织:
- 共享实验日志: 发布每个实验的结果(例如,“program-v1的第27次运行实现了Val AUC=0.82,宽度=4,深度=3”)。
- 标准化指标: 为每个任务定义指标:例如“OCT青光眼AUC”、“VF进展AUC”、“属性AUC”等。共享排行榜(类似于autoresearch的val_bpb)可以跟踪最高分数。例如,Slack或GitHub Actions每周可能收集每个智能体的最佳AUC。
- 版本控制的
program.md: 将所有program.md托管在GitHub仓库中。成员可以分叉并通过拉取请求提出新策略,同时保留历史版本。这样可以并行测试多种方法(例如“program_word2vec.md”与“program_transformer.md”)。 - 数据和代码共享: 使用公共仓库或笔记本进行数据准备脚本,并分享智能体发现的
train.py修改(以便在标准ML框架中重现)。链接到原始数据集来源 (Kaggle, PhysioNet, Zenodo) 可确保其他人可以下载相同的数据。
通过降低技术门槛(智能体编辑代码,用户在Markdown中编辑指令)和协调工作(共享日志、排行榜),公民科学家可以集体探索这些青光眼ML问题中的超参数/模型选择。实质上,他们将人类的创造力投入到定义目标中,然后让智能体为每个目标一夜之间完成100个实验的繁重工作 (medium.com) (www.theneuron.ai)。
4. 专门针对视力恢复
视力恢复——在损伤后恢复视力——是AI驱动优化的一个特别令人兴奋的目标。目前AI辅助的视力恢复研究包括视网膜植入物、皮质假体和光遗传学。以下是自动化研究循环如何融入其中:
-
优化视觉假体编码: 现代假体(视网膜植入物或连接到电极阵列的相机)试图将相机图像转换为大脑解释为视觉的电刺激模式。挑战在于电极的“带宽”非常有限(通常只有几十到几百个点) (pmc.ncbi.nlm.nih.gov)。ML模型(小型CNN或Transformer)可以训练来将输入图像映射到理想的刺激图,但这种转换的最佳超参数或架构是未知的。自动化研究智能体可以在数小时内运行100个“神经编码器”模型的变体。例如,设置一个图像→刺激对数据集(无论是模拟光幻视还是患者数据)并让智能体优化编码器网络以最小化重建损失或最大化效用指标(对比度完整性、识别准确率)。智能体可能会尝试添加注意力层、改变卷积大小或调整学习率。通过多次运行,可以找到能提供更显著假体输出的小型网络。一些最近的研究已经使用AI来提取假体的视觉显著性 (pmc.ncbi.nlm.nih.gov);自动化研究可以自动化此类管道的调整。
-
光遗传学刺激模式: 在光遗传疗法中,存活的RGCs或其他视网膜细胞通过引入的基因变得对光敏感。然后,来自相机的输入必须被编码为光脉冲。在这里,ML模型可以控制模式。可以构建一个玩具任务:小网络将相机图像转换为光强度图(与细胞维度相同)。智能体的目标可以是最大化有效刺激的某个指标(例如,在模拟视网膜中最大化目标细胞的激活)。每次试验都可能快速运行一个响应模拟。通过迭代,智能体可能会探索脉冲持续时间或空间滤波器。例如,调整相机输入上高通滤波器的激进程度可能对某些模式有益。关键在于许多模拟参数(滤波器核、非线性、时间脉冲编码)可以自动扫描。
-
脉冲模式优化(TES和植入物): 即使是非机器学习领域也可以从快速搜索中受益。例如,最近一项研究 (Xie et al. 2025) 发现,较短的脉冲持续时间和插入相间间隔显著改善了视网膜植入物的皮质激活 (pmc.ncbi.nlm.nih.gov)。这表明电刺激的参数空间具有强烈、非直观的影响。autoresearch 智能体可以将刺激协议参数(相持续时间、频率、间隔)视为“网络参数”,并运行许多小型实验(每次模拟或经验性实验)以最大化皮质响应。例如,在
prepare.py中设置一个简化的电模型(或使用记录的诱发电位数据),并让智能体调整train.py中的参数,如脉冲时序,以最大化定义的响应幅度。这类似于将资深神经科学家手动进行的工作自动化。 -
病毒载体设计和支架几何形状: 在更具探索性的疗法开发中,智能体的循环方法也可以解决生物医学优化问题。例如,AAV病毒衣壳或启动子设计以靶向RGCs可以通过小型预测模型(例如基于序列特征的逻辑回归)进行指导。自动化研究可以反复尝试修改预测嗜性或表达的模型(例如在小型病毒文库上训练),以改进该预测。同样,如果有人有神经支架中生长(用于视神经修复)的模拟代码,智能体可以调整几何参数以最大化轴突延伸。这些是高级的,但在概念上是匹配的——“作为实验者的智能体”可以调整模型或模拟参数以获得改进的结果。
总之,视力假体或恢复中任何依赖参数化算法的方面都可以通过快速迭代得到改进。重要的是,限制在于我们通常只有这些任务的模拟数据;对数百种变体的实际患者测试是不可能的。但 autoresearch 可以在计算机内部运行,以提出最佳候选方案供后期临床测试。正如假体综述所指出的,“确保在精确位置可靠地产生光幻视……是一项重要挑战”,并且“AI驱动的模型已显示出潜力” (pmc.ncbi.nlm.nih.gov)。自动化研究可以显著加速找到这些AI模型的最佳配置。
5. 衔接到临床影响
计算结果最终必须与真实的青光眼研究和护理相结合。由患者主导的自动化研究产生的想法如何验证和推进?
-
与研究小组协作: 公民科学家应联系已建立的青光眼研究联盟。例如,国际青光眼遗传学联盟 (IGGC) 和 NEIGHBORHOOD 联盟,它们汇集了遗传和临床数据 (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov)。自动化研究的发现(例如新的候选基因或药物再利用假设)可以与这些小组共享以进行实验性后续研究。组织培养实验室(例如主要大学的)或睡眠研究人员可能会在RGC存活上测试化合物。学术临床医生可以在IRB下将任何生物标志物或图像分类器与他们的患者数据相关联。启动黑客马拉松式小组与正式实验室之间的对话是关键。
-
参与患者倡导组织: 青光眼研究基金会或治愈青光眼基金会等组织通常资助以患者为中心的创新。他们可以赞助概念验证项目或使用自动化研究的公民竞赛。这些组织拥有临床医生网络,可以帮助将有前景的模型线索引向临床。例如,如果一个智能体标记出一种现有FDA批准的药物具有神经保护作用,倡导组织可以协助在适当协议下设立小型试验。强调成功将需要将产出框定为假设(而非医疗建议),并确保透明度。
-
伦理和安全保障: 公民科学家必须只使用去识别化的公共数据或完全合成的数据。任何使用实际患者记录的行为都需要IRB批准的协议(并可能需要患者同意)。自动化研究循环的输出应明确标记为假设生成。例如,“该模型表明药物X可能保护RGCs——需要实验验证。”关键的医疗决策必须由医生做出。风险包括无意中分发预测个人结果(青光眼进展)的模型——必须明确免责声明,不得将其视为诊断工具。数据隐私最佳实践(例如使用汇总或匿名化字段)是必须的。
-
公民科学的先例: 业余爱好者对医学/神经科学研究做出贡献并非史无前例。Eyewire项目(麻省理工学院众包的神经元绘图游戏)动员志愿者重建视网膜神经回路 (www.citizenscience.gov)。在眼科领域,非专业人士已帮助在OpenAI资助的挑战赛中标注图像(例如眼部疾病的标记数据集)。在眼科护理之外,Foldit(蛋白质折叠谜题)和Galaxy Zoo(分类星系)等游戏表明,公民参与可以解决困难的科学问题。这些成功鼓励了许多双手(现在还有AI)确实可以帮助复杂研究的想法。自动化研究方法就像给每个人配备一个AI驱动的实验室助手:以前的众包工作只使用人类来分析固定任务,而这里人类设定目标,AI完成迭代。
通过透明、谨慎和协作,公民科学自动化研究倡议可以赢得信任。它应强调“生成线索,而非处方”。如果社区公开文档方法并分享代码,专业研究人员可以重现发现。例如,如果有人发现RGC保护因子的一种新组合,他们可以将其发布到预印本中或通知实验室。引用式参考文献(如我们在此处所做)有助于衔接:例如“我们在已知通路的背景下处理了您的候选药物列表 (pmc.ncbi.nlm.nih.gov)。”最终,这是一种开放科学的形式——由患者驱动但科学严谨。如果维护伦理标准,这种草根创新具有巨大的潜力,可以激发新的合作,并最终融入同行评审的眼科学研究。
6. 具体90天路线图
一个专注、有时限的计划可以召集一个由10-50人组成的社区(每人至少一个GPU或Apple Silicon)来启动一项青光眼自动化研究工作。以下是建议的分阶段计划:
-
第1-2周:组建与设置
- 招募和启动: 创建一个通信渠道(例如Slack或Discord)和一个项目的GitHub仓库。向青光眼患者论坛、生物黑客小组和AI聚会进行宣传。
- 硬件检查: 确保每个人都能安装PyTorch并克隆Karpathy的仓库(或Maple分支)。举行一个设置会话,每个成员在一个玩具数据集(例如CIFAR-10子集)上运行一个示例自动化研究循环,以验证环境。
- 数据集选择: 决定1-3个初始任务(例如OCT分类、VF进展)。为每个任务分配一个小团队准备数据:例如,一个团队下载RIM-ONE图像 (github.com),另一个检索GRAPE视野 (www.nature.com),另一个收集文献摘要。团队应将数据按80/20分割并创建
prepare.py存根。 - 基线模型: 为每个任务最终确定一个简单的
train.py:例如,用于RIM-ONE的微型CNN,用于VF的MLP。选择评估指标(AUC、Dice、MSE)。 - 初始
program.md草稿: 每个团队编写一个初始指令文件 (program.md),说明目标和允许的更改。例如,对于RIM-ONE:“最大化青光眼检测AUC”,对于GRAPE:“最小化VF MSE”。
-
第3-6周:第一个实验周期
- 运行自动化研究循环: 每个小组在他们的任务上运行智能体一夜(大约100次5分钟的运行)。首先使用一个
program.md,然后让参与者添加变体(例如“program_temp1.md”)。 - 收集结果: 每天早上,团队检查日志(仓库会自动记录每次运行)。记录达到的最佳指标、当时的模型参数以及智能体发现的任何值得注意的更改。为了透明化,将这些结果推送到共享的GitHub(可能采用CSV或JSON格式)。
- 迭代与反馈: 比较运行结果。是否有任何策略显著优于基线?如果一个小组进展不大,他们应该调整
program.md(例如,更积极地更改学习率)。每个周末,在社区会议中综合发现。 - 工具: 使用Git进行
program.md和代码模板的版本控制。考虑使用共享的Google Sheet或wiki表格作为排行榜(例如“OCT-AUC:Alice最佳=0.85;VF-RMSE:Bob最佳=2.1”)。这激励了健康的竞争和透明度。
- 运行自动化研究循环: 每个小组在他们的任务上运行智能体一夜(大约100次5分钟的运行)。首先使用一个
-
第7-12周:完善与推广
- 完善实验: 根据早期结果,完善有前景的任务。例如,如果RIM-ONE分类器达到了0.90以上的AUC——现在尝试添加数据增强或稍微深一点的网络。鼓励分支:一些人可以尝试不同的架构(例如Vision Transformer tiny而不是CNN)。智能体可以并行运行多个
program.md变体。 - 结果综合: 为每个领域(OCT、VF等)创建简短报告,总结有效的方法。例如,“通过将ReLU激活函数切换为GELU,我们将GCC分割的Dice分数从0.60提高到0.75。”使用通俗语言,以便非专业人士能够理解(提供ML术语词汇表)。
- 社区展示: 在第10周前,撰写一篇博客文章或幻灯片,总结迄今为止的倡议。突出任何非平凡的发现(即使是“空”结果也值得分享)。邀请在线论坛的反馈;或许联系一位研究人员征求意见(“我们发现X种神经网络调整有助于分类早期青光眼——这与生理学是否一致,您有什么想法?”)。
- 计划推广: 确定一两个有兴趣合作的眼科实验室或临床医生。与他们联系并分享初步结果。例如,在Twitter/LinkedIn上与HYGD数据集或GRAPE团队的作者联系,提及您的公民发现。探索共同验证的可能性(例如,将训练好的模型权重发送给他们,让他们在自己的数据上测试)。
- 完善实验: 根据早期结果,完善有前景的任务。例如,如果RIM-ONE分类器达到了0.90以上的AUC——现在尝试添加数据增强或稍微深一点的网络。鼓励分支:一些人可以尝试不同的架构(例如Vision Transformer tiny而不是CNN)。智能体可以并行运行多个
-
12周以后:下一步
- 继续在最有前景的任务和新任务上循环。例如,如果RIM-ONE取得了好的结果,接下来解决REFUGE。也许可以构建复合模型(CNN集成)。
- 正式化一个项目页面或预印本,描述这项工作。
- 考虑组织一个黑客马拉松,以引入更多人才,可能与青光眼慈善机构合作。
通过这种结构化方式,社区可以稳步取得进展,共同学习,并在90天结束时开始与专家建立联系。
7. 风险、局限性与坦诚评估
青光眼自动化研究的理念雄心勃勃,因此需要坦诚地评估潜在的陷阱:
-
过拟合和虚假模式的风险: 小型模型在小型、嘈杂的数据集上经常会偶然发现巧合。智能体可能会发现一个调整,仅仅通过过拟合数据的特异性来提高验证AUC。例如,如果图像子集有细微的标注标记,网络可能会使用它而不是真正的青光眼特征。这会导致“梯度下降的愚弄”。为了缓解:
- 始终使用保留的测试集(完全独立于任何调整)进行最终评估。
- 限制复杂性:保持模型适度,并观察智能体是否过度加深或加宽网络超出了合理范围。
- 如果模型过快达到近乎完美的分数,请质疑它。
- 进行健全性检查:例如,打乱标签,看看AUC是否降至随机水平(如果不是,则存在数据泄露)。
-
偏见和数据质量: 公共青光眼数据集通常来自狭窄人群(例如新加坡的ORIGA) (pubmed.ncbi.nlm.nih.gov)。针对这些数据调整的模型可能无法泛化。公民实验应注意这一局限性。理想情况下,使用多个数据集(来自不同队列)来检查发现是否稳健。
-
错误线索(“研究剧场”): 运行大量实验感觉很有效率,但如果每个改进都只针对合成或微不足道的数据集,可能对患者无益。为避免这种情况:
- 专注于具有临床相关性的任务(例如,从常规OCT进行早期检测)。
- 在可能的情况下,将结果与实际测量值联系起来(例如,进展的AUC,而不仅仅是微小的损失变化)。
- 优先考虑可解释性:如果智能体“发现”了一个新的生物标志物,尝试确保其合理性(例如,它是否关注已知的解剖学变化?)。
-
无临床保证: 必须非常清楚:这些循环的产出是假设生成,而非医疗建议。模型建议的新药物必须在实验室进行验证,然后才能用于任何患者。过度宣称是危险的。所有共享结果都应附带免责声明:“这是一项AI探索,而非同行评审的发现。”
-
“小模型”局限性: 非常小的网络容量有限。它们可能错过复杂的模式。相比之下,大型模型通常会带来突破,但需要海量数据。在这里我们接受有限的范围:希望即使是小的改进也能指导研究。但我们不应期望这些模型取代基于海量数据的深度学习。它们最擅长快速尝试显而易见的想法。
-
智能体的可信度: 智能体(例如GPT-4)可能会产生幻觉或偏离。重要的是结果是可重现的:在智能体运行后,人类应该检查保留了哪些更改,并重新运行训练以确认指标。通过在
program.md中包含诸如“只接受评估指标的实际改进”之类的语句来保持智能体的诚实。
尽管存在这些挑战,关键的保障是透明度和批判性后续行动。记录一切。当模型显示出一种模式时,进行验证。如果许多公民科学家看到相同的异常(例如,所有用于OCT任务的高AUC模型都强调鼻侧视网膜区域),这将加强该论点。目标是加速想法生成阶段,而不是避免之后的严谨科学。
结论
青光眼是一种复杂、无声的致盲疾病,存在许多未满足的研究需求——从保护神经元到恢复视力。与此同时,AI使实验民主化:一个人只需一个GPU和一些决心,就可以运行自动化超参数搜索,而这手动操作可能需要团队花费数周。Karpathy 的 autoresearch 框架实质上是为每位公民配备了一个AI实验室助手。通过在Markdown中编写清晰的高级目标,社区研究人员可以让人工智能代理筛选产品并直接找到有前景的线索。
我们概述了如何实际操作:识别青光眼ML任务,选择数据(眼底和OCT图像、视野、分子数据集),定义模型和指标,并使用程序指令指导搜索。我们勾勒了90天社区路线图,并指出与临床医生建立联系,以确保有价值的产出能够为实际的青光眼科学提供信息。这种方法非常“公民科学”:以可访问的方式开放科学发现工具,同时在关键之处仍然依赖专家监督。
引用: 我们引用了青光眼研究和AI领域的最新资源。关键事实(疾病流行率,一半未确诊 (physionet.org))、有前景的疗法(CNTF植入物 (pmc.ncbi.nlm.nih.gov),基因编辑 (pmc.ncbi.nlm.nih.gov)) 和潜在陷阱(医学影像中的AI (pmc.ncbi.nlm.nih.gov)) 都基于当前的文献。Autoresearch本身在Karpathy的教程 (medium.com) 和评论 (www.theneuron.ai) 中有所描述。这些都应为本文概述的愿景提供可信度。
归根结底,我们希望读者感到被赋能:如果您是一名患者、护理人员或充满热情的爱好者,您就可以成为推动青光眼研究前进的一部分。工具和数据已经存在,问题清晰明确,通过协调和AI智能体,我们可以加速学习。正如任何研究一样,这段旅程会有错误的开始,但即使是失败也会教会我们一些东西——通常会引导人类走向正确的方法。以开阔的眼界看待可能性和陷阱,由公民主导的自动化研究可以成为传统青光眼科学的强大补充。
从这里开始
今天开始涉足青光眼自动化研究最简单的方法:对ORIGA眼底图像进行一个微型分类。
-
获取数据: 下载ORIGA-light数据集(650张视网膜眼底图像,标记为正常与青光眼) (pubmed.ncbi.nlm.nih.gov)。将大约80%用于训练 / 20%用于验证。
-
初始模型: 使用或修改 [karpathy/autoresearch] 中的示例脚本进行图像分类。例如,一段加载ORIGA图像并训练一个小型CNN(2-3个卷积层)以区分青光眼与健康的
代码。 -
编写
program.md: 在文本中,设定目标为*“最大化青光眼检测的验证AUC”*,并指示智能体可以调整模型深度、学习率等。例如:Goal: Maximize AUC on glaucoma vs normal for ORIGA dataset.
The agent should try adjusting convolutional layer sizes, number of filters, and learning rate. Each trial is 5 minutes of training. If the validation AUC improves, keep the change. Repeat.
-
运行循环: 启动自动化研究(将其指向您的
prepare.py、train.py和program.md)。让它在您的RTX 3060上运行几个小时或一夜。它将自动执行大约100个实验。 -
检查结果: 检查控制台或日志,查看达到的最佳验证AUC(如果一切顺利,应大于0.8)。您现在拥有一个由AI智能体完善的模型和训练脚本。
这个简单的周末实验已经让您亲身体验了无需手动编写新代码即可构建ML管道。记录您尝试过的内容,并将您的 program.md 和结果与社区分享。每一个小小的成功(AUC的提升、有趣的N网络变化)都是一个基石。您正在字面上指示AI为您的青光眼问题进行研究——通过这样做,您既学习了青光眼数据科学,也对理解或治疗视力丧失抱有希望。
祝您好运! 保持问题和发现开源,并记住:这些是研究型玩具工具,而非医疗建议。仔细检查您的运行结果,享受发现的过程。
**`
