Глаза широко открыты: Как фреймворк *Autoresearch* Карпати может демократизировать исследования глаукомы — Проект для управляемых пациентами, основанных на ИИ открытий в восстановлении зрения

Глаза широко открыты: Как фреймворк Autoresearch Карпати может демократизировать исследования глаукомы

Введение

Глаукома — это хроническая оптическая нейропатия, которая прогрессивно разрушает ганглиозные клетки сетчатки (ГКС) и приводит к необратимой потере зрения. Она поражает миллионы людей по всему миру — по оценкам, 64,3 миллиона человек в 2013 году, и прогнозируется, что к 2040 году их число превысит 110 миллионов (physionet.org). Вызывает тревогу то, что около половины всех случаев остаются недиагностированными, пока потеря зрения уже не началась (physionet.org). Традиционное лечение глаукомы сосредоточено на снижении внутриглазного давления (ВГД) с помощью медикаментов или операции, но эти методы лечения не могут обратить повреждение вспять или полностью предотвратить слепоту (pmc.ncbi.nlm.nih.gov) (physionet.org). В результате существует острая потребность в новых открытиях в таких областях, как нейропротекция, регенерация ГКС/зрительного нерва, а также инновационные генные и клеточные терапии. Однако академические и фармацевтические исследования в этих областях остаются недостаточно финансируемыми, отчасти потому, что это долгосрочные, высокорискованные усилия. Тем временем достижения в машинном обучении (МО) и искусственном интеллекте (ИИ) открывают новые подходы к анализу данных и генеративному дизайну.

Недавние работы (например, проект Андрея Карпати «автоисследование» (www.theneuron.ai) (medium.com)) предполагают, что агенты ИИ могут автономно проводить сотни небольших экспериментов на одной графической процессоре на основе лишь простых высокоуровневых инструкций. В этой парадигме человек пишет короткий program.md, описывающий цель исследования, а агент ИИ итеративно настраивает модель или гиперпараметры, выполняя 5-минутные циклы обучения, сохраняя успешные изменения и отбрасывая остальные (medium.com) (www.theneuron.ai). За ночь этот цикл может выполнить порядка 100 экспериментов, исследуя архитектуру и пространство параметров без ручного кодирования.

Эта статья исследует, как фреймворк autoresearch Карпати может быть применен к исследованиям глаукомы мотивированными пациентами, лицами, осуществляющими уход, гражданскими учеными и разработчиками открытого исходного кода. Мы рассмотрим недостаточно изученные области исследований глаукомы (нейропротекция, регенерация и т. д.) и выявим задачи машинного обучения в каждой области, где эксперименты с небольшими моделями могут помочь. Для каждой задачи мы предлагаем конкретные общедоступные наборы данных, базовые модели/архитектуры, метрики оценки и описываем, как могут выглядеть инструкции program.md для агента. Затем мы обсуждаем практические шаги для сообщества по настройке и обмену такими экспериментами, включая аппаратные соображения, подготовку данных и платформы для совместной работы. Мы рассматриваем конкретный контекст терапий восстановления зрения и то, могут ли циклы в стиле autoresearch ускорить оптимизацию нейронных протезов или других вмешательств. Наконец, мы обсуждаем, как гипотезы, созданные гражданами, могут быть проверены и переданы клиницистам, и излагаем конкретную 90-дневную дорожную карту для запуска инициативы по автоисследованию под руководством пациентов, включая способы избежать ловушек «имитации исследований» и обеспечить реальное воздействие. На протяжении всей статьи мы ссылаемся на текущие источники по исследованиям глаукомы и ИИ в области зрения, стремясь к сбалансированному, реалистичному и доступному руководству.

1. Ландшафт исследований глаукомы и неудовлетворенные потребности

Исследования глаукомы охватывают множество направлений — от понимания механизмов заболевания до разработки новых методов терапии для нейропротекции и восстановления зрения. Многие многообещающие области недофинансированы:

Нейропротекция: Вмешательства, защищающие ГКС от гибели (независимо от ВГД). Примеры включают нейротрофические факторы и метаболическую поддержку. Например, имплантаты, высвобождающие цилиарный нейротрофический фактор (ЦНТФ), показали потенциал в ранних испытаниях (pmc.ncbi.nlm.nih.gov), и исследуются другие молекулы, такие как фактор роста нервов и цитиколин (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Однако они еще не являются стандартным лечением, и требуется дополнительная работа для их внедрения в практику. Обзор 2025 года предупреждает, что нейропротективные терапии глаукомы являются «будущим лечением», требующим дальнейших испытаний (pmc.ncbi.nlm.nih.gov), что отражает неудовлетворенную потребность.
Регенерация ГКС и регенерация зрительного нерва: Как только ГКС и их аксоны умирают, современная медицина не имеет способа обратить это вспять. Некоторые исследования на животных используют генную терапию для перепрограммирования ГКС или стимуляции их отрастания. Например, CRISPR-опосредованное подавление PTEN (отрицательного регулятора роста) способствовало отрастанию аксонов в нейронных клетках крыс (pmc.ncbi.nlm.nih.gov), а эксперименты с со-делецией PTEN и SOCS3 привели к устойчивой регенерации зрительного нерва у мышей (pmc.ncbi.nlm.nih.gov). Однако эти прорывы остаются на лабораторных моделях. Основополагающая биология — например, как воспроизвести развитие сетчатки или обойти ингибиторы роста — сложна. Существует огромный спрос на модальности (малые молекулы, гены, биоматериалы), которые могли бы стимулировать выживание ГКС или отрастание аксонов, но прогресс до клинических испытаний идет медленно.
Генные и клеточные терапии: Новые технологии, такие как CRISPR, вирусные векторы и ГКС, полученные из стволовых клеток, обещают многое для лечения глаукомы. Стратегии включают генное редактирование для снижения ВГД (например, путем воздействия на продукцию водянистой влаги) или модуляцию нейродегенеративных путей (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Стволовые клетки могли бы (теоретически) заменить утраченные клетки трабекулярной сети или ГКС и выделять защитные факторы (pubmed.ncbi.nlm.nih.gov). Ранние работы показали, что определенные факторы транскрипции (например, Oct4-Sox2-Klf4) могут перепрограммировать не-ГКС в нейроны, подобные ГКС, у мышей (восстанавливая зрение при повреждении зрительного нерва) (pmc.ncbi.nlm.nih.gov). Тем не менее, эти подходы сталкиваются с проблемами безопасности и доставки, прежде чем достигнут пациентов. Несколько недавних обзоров подчеркивают генную терапию как захватывающую, но еще не клиническую область для лечения глаукомы (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). В общем, молекулярные и клеточные инновации развиваются, но ресурсы и данные испытаний ограничены, что создает возможность для вычислительного исследования (например, разработка оптимальных вирусных конструкций или прогнозирование эффективных генных модификаций).
Электрическая и оптогенетическая стимуляция для восстановления зрения: Для пациентов с развитой глаукомой (или комбинированными заболеваниями, такими как пигментный ретинит) искусственные зрительные протезы или оптогенетические терапии направлены на обход поврежденных ГКС. Сетчаточные имплантаты (эпиретинальные или субретинальные электродные массивы) и кортикальные имплантаты генерируют искусственные восприятия («фосфены»), но разрешение низкое, а результаты сильно различаются. Недавний обзор 2025 года по ИИ в зрительных протезах отмечает, что «алгоритмы ИИ показывают потенциал в оптимизации протезированного зрения, особенно за счет улучшенного извлечения заметности изображений и стратегий стимуляции», хотя пока большинство исследований являются симуляциями (pmc.ncbi.nlm.nih.gov). Другими словами, машинное обучение может помочь преобразовать изображения с камеры в паттерны стимуляции, которые являются наиболее информативными, учитывая ограничения устройства. Оптогенетика (повышение светочувствительности выживших клеток сетчатки) и трансроговичная электрическая стимуляция (TES) также проходят испытания для лечения потери зрения, связанной с глаукомой. Все эти области нуждаются в обширной настройке параметров (например, пространственно-временные паттерны стимуляции, векторы экспрессии генов) — задачи, потенциально подходящие для автономного поиска с помощью МО.
Механизмы, не зависящие от ВГД: Многие люди продолжают терять зрение, несмотря на хорошо контролируемое ВГД. Такие факторы, как нарушение глазного кровотока, нейрососудистая дисфункция или метаболический стресс в головке зрительного нерва, признаны, но не до конца поняты. Генетические исследования предполагают значительные «независимые от ВГД» компоненты риска глаукомы (pubmed.ncbi.nlm.nih.gov) (pubmed.ncbi.nlm.nih.gov). Срочно необходимы биомаркеры этих процессов (помимо давления). Кроме того, половина пациентов с глаукомой страдают «глаукомой нормального давления», что подчеркивает, что высокое ВГД не является единственной причиной. Исследования сосудистых факторов или других путей повреждения продолжаются, но фрагментированы. Вычислительное моделирование или анализ больших наборов данных (например, полногеномных ассоциативных исследований) могут помочь выявить новые механизмы или терапевтические мишени в этой области.
Обнаружение биомаркеров с помощью изображений и полей: Раннее обнаружение и мониторинг глаукомы часто основаны на методах визуализации (фотографии глазного дна, ОКТ) и функциональных тестах (поля зрения). Передовые алгоритмы могли бы выявлять тонкие биомаркеры, которые пропускают врачи. Например, глубокое обучение начало обнаруживать допериметрическую потерю поля зрения (изменения, невидимые при стандартном анализе поля) (pmc.ncbi.nlm.nih.gov). Аналогичным образом, ИИ использовался для анализа профилей толщины слоев ОКТ для прогнозирования глаукомы до явного повреждения. Однако пока нет широко принятых биомаркеров ИИ, которые используются в клинической практике для скрининга или стратификации риска. Вычислительные узкие места здесь включают потребность в больших, хорошо размеченных наборах данных и надежных протоколах валидации (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Публичные конкурсы (REFUGE, AIROGS и т. д.) начали стандартизировать данные, но охват ранних стадий заболевания невелик (pmc.ncbi.nlm.nih.gov). Дальнейшее машинное обнаружение мультимодальных биомаркеров (объединяющих ОКТ, поля, генетику и т. д.) остается открытой областью.

Где может помочь МО с малыми моделями? Многие из вышеперечисленных проблем описывают высокоуровневые проблемы. Узкими местами часто являются дефицит данных, множество взаимодействующих переменных и медленно развивающаяся биология. Autoresearch агент особенно хорош в автоматизации мелкомасштабных экспериментов на доступных данных. Например, если имеется скромный набор данных ОКТ-сканов с ранней глаукомой и без нее, гражданский ученый может настроить быстрый цикл тестирования моделей, чтобы найти лучшую архитектуру для их различения. Аналогичным образом, небольшие трансформеры по геномике или литературе могут предлагать новые гены или кандидаты на лекарства. Ключевым является сосредоточение на узких задачах с определенными метриками (точность классификации, AUC, потери) и быстрое итеративное улучшение. Области с ограниченными общедоступными данными (например, параметры TES или новые генные коктейли) могут полагаться на синтетические данные или прокси. В следующем разделе мы сопоставляем конкретные задачи МО в области глаукомы с подходом автоисследования.

2. Применение Autoresearch к проблемам глаукомы

Фреймворк autoresearch Карпати является доменно-независимым: он может проводить эксперименты в любой задаче машинного обучения, предоставленной с помощью prepare.py и train.py с четко определенной метрикой оценки. Мы определяем несколько конкретных задач, связанных с глаукомой, и указываем, как агент может решить каждую из них. Каждый вариант использования ниже включает: общедоступный набор данных (если возможно), начальную модель или архитектуру, метрику оценки и набросок инструкций program.md.

2.1 Анализ изображений ОКТ (структурное обнаружение и сегментация)

Задача: Раннее обнаружение глаукомы по сканам ОКТ. ОКТ-изображения предоставляют поперечные сечения слоев сетчатки. Истончение слоя нервных волокон сетчатки (СНВС) и комплекса ганглиозных клеток (КГКС) может предшествовать потере поля зрения. Мы можем рассматривать это как задачу классификации (глаукома против здорового состояния) или регрессии (например, выходная толщина СНВС).
- Набор данных: Недавний релиз, SYN-OCT (www.nature.com), представляет собой синтетический набор данных из 200 000 циркумпапиллярных ОКТ-изображений (100k глаукома, 100k норма) сгенерированных ГАН. Каждое изображение имеет связанную толщину СНВС и маски сегментации. Они общедоступны на Zenodo (www.nature.com). (Хотя они синтетические, они статистически подтверждены как имитирующие реальные ОКТ (www.nature.com).) В качестве альтернативы можно использовать набор данных OCT-DL (www.nature.com) (2064 изображения различных заболеваний сетчатки) или меньшие клинические коллекции ОКТ.
- Модель: Начните с небольшой сверточной нейронной сети (CNN). Для классификации может подойти модель с ~ 3–5 сверточными слоями (например, аналог усеченного ResNet-18 или пользовательская небольшая CNN). Для сегментации СНВС/КГКС подходит кодер-декодер, такой как миниатюрный U-Net (с глубиной 3–4). Исходный train.py мог бы реализовывать простую CNN и цикл обучения с параметрами по умолчанию.
- Метрика: Если выполняется классификация глаукомы по ОКТ, используйте AUC (площадь под ROC-кривой) или точность на валидационной выборке. Для сегментации используйте коэффициент Дайса или IoU на масках слоя СНВС (SYN-OCT предоставляет маски (www.nature.com)).
- Пример program.md:
  
  «Цель: Максимизировать AUC валидации для обнаружения глаукомы по изображениям ОКТ. Разрешенные модификации: количество сверточных слоев, количество фильтров, размеры ядер, функции активации, скорость обучения, выбор оптимизатора, размер пакета и т. д. После каждого 5-минутного цикла обучения оценивать AUC на отложенном наборе данных. Если AUC улучшается, сохранить изменение; в противном случае откатиться.» (medium.com) (www.theneuron.ai). Таким образом, агент будет пробовать вариации (например, добавление слоев, настройку ширины, переключение с Adam на RMSProp) для улучшения AUC.
Задача: Сегментация слоев СНВС/КГКС. Точное измерение толщины СНВС имеет решающее значение. Используя синтетические ОКТ-сканы (с предоставленными сегментациями) или любые реальные ОКТ с аннотированными слоями, можно сформулировать это как задачу сегментации.
- Набор данных: SYN-OCT снова предоставляет маски сегментации СНВС (www.nature.com). Другой источник: некоторые академические группы имеют размеченные ОКТ B-сканы (хотя часто проприетарные). При необходимости можно использовать общие наборы данных для сегментации ОКТ (например, Duke retina OCT fluid challenge (www.nature.com)) в качестве прокси.
- Модель: Небольшая CNN типа U-Net, возможно, даже с уменьшенным количеством каналов от базовой модели. Например, использовать 3 блока понижения/повышения, начиная с 16 фильтров. Агенту разрешено изменять глубину и ширину.
- Метрика: Показатель Дайса или средний IoU для предсказанной маски СНВС по сравнению с истинной.
- Пример program.md:
  
  «Цель: Максимизировать показатель Дайса для сегментации слоя СНВС на ОКТ. Базовая модель — U-Net с 3 блоками. Агент может варьировать количество фильтров, добавлять дропаут или изменять скорость обучения. Обучать 5 минут каждое испытание и вычислять Дайса на валидации. Сохранять модификации, которые увеличивают Дайса.»
Задача: Прогнозирование прогрессии с помощью серийных ОКТ. Используя последовательные ОКТ, прогнозировать будущее истончение. Если существуют продольные данные ОКТ (например, UK Biobank или данные частных клиник), целью может быть прогнозирование изменения СНВС или бинарная метка «быстро прогрессирующий».
- Набор данных: Общедоступные продольные данные ОКТ, специфичные для глаукомы, скудны. Однако можно перепрофилировать данные задачи SR OCT (или изображения SYN-OCT с симулированной прогрессией) для симуляции этой задачи. В качестве альтернативы можно использовать изображения ОКТ из UK Biobank (хотя они не специфичны для глаукомы и нелегко доступны гражданским ученым). Для иллюстрации предположим набор данных ОКТ-сканов в момент времени 0 и момент времени 1 с метками.
- Модель: Сиамская или конкатенированная CNN, принимающая пары ОКТ-изображений и выдающая вероятность прогрессии. Начните с подачи данных времени 0 и предсказания отсечения времени 1.
- Метрика: AUC для бинарной классификации прогрессии или MSE, если пытаетесь предсказать изменение толщины.
- Пример program.md:
  
  «Цель: Определить глаза, у которых будет быстрая потеря СНВС. Вход: базовая ОКТ; метка: истончение >5 мкм через 1 год. Используем классификатор CNN. Разрешенные изменения включают глубину сети, скорость обучения, аугментацию. В качестве метрики используйте AUC валидации.»

2.2 Анализ полей зрения (ПЗ)

Задача: Прогнозирование будущей потери поля зрения. Учитывая одно или несколько прошлых исследований поля зрения Хамфри (точечные значения чувствительности), прогнозировать будущую чувствительность или скорость прогрессии. Это классическая проблема управления глаукомой.
- Набор данных: Набор данных GRAPE (www.nature.com) (2023) предоставляет продольные наблюдения за 263 глазами (1115 записей) с ПЗ и данными глазного дна/ОКТ, включая аннотированную прогрессию. Другой ресурс — продольная база данных США UH Visual Field (UWHVF) (www.nature.com) (28 943 поля от многих пациентов). Однако GRAPE хорошо курируется и является общедоступным с данными как ПЗ, так и исходами.
- Модель: Простой подход — это прямая нейронная сеть (полносвязная) на 54-точечных данных ПЗ (или сжатие до глобальных индексов). Для прогнозирования прогрессии меньшая MLP или 1D-CNN может обрабатывать 54 или 30 входных признаков. Другая идея: рассматривать сетку 8×8 как крошечное изображение и использовать небольшую CNN (например, с ядрами 3×3).
- Метрика: Если прогнозируется будущее среднее отклонение или точечные значения, используйте MSE (меньше — лучше). Если классифицируется «быстро прогрессирующий против нет», используйте AUC.
- Пример program.md:
  
  «Цель: Минимизировать MSE предсказанного поля зрения. Альтернативно, максимизировать AUC для классификации быстрой потери. Базовая модель: 2-слойный персептрон на 54 значениях ПЗ. Агент может корректировать размер скрытого слоя, активацию или добавлять дропаут. После каждого 5-минутного обучения вычислять метрику на валидационном наборе.»
Задача: Выявление быстро прогрессирующих. Используя ряд прошлых ПЗ, классифицировать, какие глаза будут быстро терять зрение.
- Набор данных: Используйте аннотированный статус прогрессии в GRAPE (www.nature.com) (они помечали глаза как прогрессирующие). Или возьмите UWHVF и пометьте верхний дециль потери MD как «быстрый».
- Модель: Можно конкатенировать признаки из двух или трех последовательных полей (или различия) в небольшую сеть. Возможно, включить базовое ВГД и возраст, если доступны.
- Метрика: AUC для различения быстро и медленно прогрессирующих.
- Пример program.md:
  
  «Цель: Максимизировать AUC для прогнозирования быстрой прогрессии поля. Входные признаки: разности второго порядка ПЗ1 и ПЗ2, плюс ВГД. Использовать небольшую полносвязную сеть. Агент может настраивать ширину слоев, скорость обучения, размер пакета.»

2.3 Скрининг лекарств/соединений (обнаружение кандидатов In Silico)

Задача: Прогнозирование потенциальных нейропротективных/регенеративных соединений. Использовать МО для поиска малых молекул, которые могут защищать ГКС или стимулировать регенерацию. Например, многие известные соединения (такие как никотинамид, вальпроат) проявляют нейропротективные эффекты. Мы можем обучать модели распознавать хемотипы, коррелирующие с известной эффективностью, а затем искать в химическом пространстве.
- Набор данных: Это сложно из-за отсутствия специализированной базы данных лекарств от глаукомы. В качестве прокси можно использовать наборы данных MolNet (например, ингибирование ВИЧ, проницаемость ГЭБ) или любой набор данных биоактивности. В качестве альтернативы, составить список соединений, протестированных на моделях повреждения зрительного нерва (из литературного поиска) с метками. На практике можно начать с более общего свойства (например, данные о проникновении через гематоэнцефалический барьер из MoleculeNet).
- Модель: Небольшой трансформер или графовая нейронная сеть на SMILES-строках. Трансформер (типа GPT-2) с небольшим количеством слоев или простая графовая сверточная сеть (например, 3 слоя GCN) может быть реализована в train.py.
- Метрика: Если рассматривать как классификацию (активный против неактивного), используйте AUROC. Если прогнозируется аффинность или logP, используйте RMSE.
- Пример program.md:
  
  «Цель: Максимизировать ROC-AUC классификации для выявления нейропротективных соединений. Базовая модель: небольшой трансформер на SMILES. Агент может настраивать количество слоев трансформера, дропаут, скорость обучения или использовать альтернативные фичеризации (например, вход в виде отпечатка). После каждой 5-минутной попытки оценивать AUC на валидационных молекулах.»

(Примечание: Поскольку общедоступные данные для фактической нейропротекции скудны, эта задача носит скорее иллюстративный характер. На практике гражданские ученые могли бы создать пользовательский набор данных известных нейропротективных соединений по сравнению с контролем и следовать этому шаблону.)

2.4 Моделирование генной регуляторной сети (моноклеточные ГКС)

Задача: Выявление комбинаций регенеративных факторов транскрипции. Использовать данные одноклеточной РНК-секвенирования из ГКС для изучения транскрипционных паттернов регенеративного роста. Например, некоторые подтипы ГКС регенерируют лучше, чем другие. Модель машинного обучения может предсказывать метку «регенеративное состояние», и можно было бы изучить, какие факторы транскрипции важны.
- Набор данных: Исследование 2018 года предоставляет транскриптомы одноклеточных ГКС (идентификатор GEO GSE115404) (pmc.ncbi.nlm.nih.gov), идентифицируя различные подтипы ГКС. Мы можем использовать этот набор данных (или его подмножество), где клетки помечены по подтипу или по экспериментальному условию (например, до или после повреждения).
- Модель: Небольшой трансформер или MLP, работающий с векторами экспрессии генов (каждая клетка имеет тысячи содержаний генов). Практически, можно было бы предварительно выбрать около 500 лучших генов (например, сильно варьирующиеся гены). train.py мог бы реализовать мини-трансформер (например, 4 слоя, вложение 256) или простой 2-слойный персептрон.
- Метрика: При использовании неконтролируемого анализа можно было бы использовать коэффициент силуэта, но проще, если маркировать клетки как «регенерирующие» против «нерегенерирующих» (если метки существуют), использовать точность/AUC классификации.
- Пример program.md:
  
  «Цель: Создать модель, различающую профили генной экспрессии регенерирующих и нерегенерирующих ГКС. Начать с 3-слойного трансформера. Агент может изменять размер вложения, глубину, скорость обучения или добавлять пакетную нормализацию. Оптимизировать точность валидации.» После запусков веса внимания или изученные признаки лучшей модели могут выделить ключевые факторы транскрипции для экспериментов.

2.5 Анализ электрофизиологических сигналов

Задача: Обнаружение субклинической дисфункции ГКС с помощью ЭРГ. Паттерн-электроретинограмма (пЭРГ) или другие электрофизиологические сигналы могут выявлять состояние ГКС. Например, замедленные или сниженные ЭРГ-ответы могут предшествовать дефектам поля зрения. Мы можем попытаться классифицировать сигналы как «нормальные» против «подозреваемых на глаукому».
- Набор данных: Общедоступные наборы данных ЭРГ при глаукоме редки. Можно использовать суррогат: набор данных от животных (дегенерация сетчатки) или синтетические сигналы. Если недоступно, даже общие 1D-электрофизиологические наборы данных (например, ЭКГ) могут проиллюстрировать конвейер.
- Модель: 1D CNN (например, 2 сверточных слоя, за которыми следует полносвязный) на данных временных рядов. Альтернативно, можно использовать LSTM, если последовательности длиннее.
- Метрика: Точность или AUC в классификации тонкой дисфункции против нормы. Возможно, F1, если классы несбалансированы.
- Пример program.md:
  
  «Цель: Максимизировать точность валидации для классификации ЭРГ-трасс (здоровый против раннего глаукомного паттерна). Использовать 1D CNN. Агент может настраивать размеры фильтров, шаг или добавлять рекуррентный слой. Сохранять любые изменения, которые улучшают точность.»

2.6 Анализ литературы (генерация гипотез)

Задача: Точная настройка небольшой языковой модели для выявления новых идей. С тысячами исследовательских работ по глаукоме в PubMed агент МО мог бы искать связи или перепрофилировать кандидатов. Например, связывать нейропротективные пути с существующими лекарствами. Мы можем рассматривать это как задачу языкового моделирования или задачу извлечения информации.
- Набор данных: Собрать корпус рефератов, связанных с глаукомой (например, использовать поиск PubMed по «генная терапия глаукомы» и т. д.). Можно загрузить ~10 000 рефератов через API NCBI. Для более простого старта используйте статьи по глаукоме в открытом доступе PMC.
- Модель: Небольшая языковая модель-трансформер (например, 6-слойная GPT-2) или даже тонко настроенный BERT. Для целей автоисследования мы, вероятно, будем тонко настраивать причинную модель (GPT) на тексте.
- Метрика: Стандартно оптимизируется потери валидации (перплексия). Если выполняется классификация (например, для данного реферата предсказать метку для лекарства или пути), используйте точность/AUC.
- Пример program.md:
  
  «Цель: Минимизировать перплексию валидации небольшой GPT-2 на корпусе литературы по глаукоме. Использовать 5-минутные циклы тонкой настройки. Агент может варьировать количество слоев, размер скрытого слоя, скорость обучения, длину контекста. Сохранять изменения, которые уменьшают перплексию.» После обучения эту модель можно будет запрашивать для генерации гипотез (например, «Ведущие кандидаты для перепрофилирования лекарств для нейропротекции при глаукоме: ...»).

В каждой из этих областей ключевым является то, что один графический процессор и короткие запуски позволяют проводить множество испытаний. Мы не ожидаем, что агент будет кодировать новые алгоритмы с нуля, а будет настраивать существующий скрипт обучения. Роль человека заключается в написании program.md для направления поиска агента к цели, специфичной для глаукомы (например, максимизации AUC на наборе данных глазного дна или прогнозировании толщины СНВС). Приведенные выше примеры иллюстрируют, как можно изначально настроить train.py и как program.md побуждает улучшать выбранную метрику (medium.com) (www.theneuron.ai).

3. Практическое руководство по внедрению гражданской науки

Как мотивированные люди с ограниченными ресурсами (например, с одним RTX 3060 или MacBook с Apple Silicon) могут на самом деле применить автоисследование к проблемам глаукомы? Хорошая новость заключается в том, что репозиторий Карпати невелик и содержит рекомендации по масштабированию. Вот основные шаги и советы:

Настройка среды: Клонируйте репозиторий karpathy/autoresearch. Вам потребуется современный Python и в идеале доступ к LLM (сам агент обычно является предварительно обученной LLM, такой как GPT-4 или Claude, которая редактирует код). Для графических процессоров установите PyTorch с соответствующей поддержкой CUDA/metal. Для Apple Silicon используйте один из форков (например, MLX) или сборку PyTorch для M1/M2 (см. документацию репозитория). На Windows/Linux с 3060 или 4070 работает обычный PyTorch CUDA.
Настройка для небольших графических процессоров: По умолчанию автоисследование использует модель, похожую на GPT, с ~50 млн параметров и последовательности длиной 1024 (medium.com), что может быть тяжело. Для GTX 3060 (12 ГБ) вам следует уменьшить размер модели и длину последовательности. В train.py установите MAX_SEQ_LEN=512 или даже 256. Уменьшите количество слоев и ширину (средняя GPT имеет ~8 слоев; попробуйте 4 слоя, ширину 256). В инструкциях сообщества упоминается снижение «DEPTH», «WIDTH» и т. д. Вы также можете уменьшить объем памяти оптимизатора, используя меньшие размеры пакетов (даже 16 или 8). Агент все еще может изменять эти параметры, но предоставление ему меньшей отправной точки гарантирует, что запуски будут длиться менее 5 минут. README репозитория autoresearch GitHub и обсуждения проблем также отмечают, что чипы Mac M1 могут обрабатывать более короткие последовательности (например, 256 токенов) из-за ограниченной памяти; аналогичное масштабирование применимо к любому графическому процессору.
Подготовка данных о глаукоме: Данные для каждой задачи должны быть загружены и разделены. Общедоступные наборы данных о глаукоме включают:
- Наборы данных глазного дна: ORIGA(-light) (650 размеченных изображений (pubmed.ncbi.nlm.nih.gov)), RIM-ONE DL (485 изображений с сегментациями диска/чашки (github.com)), REFUGE (1200+ изображений с разделением на тренировочные/тестовые (refuge.grand-challenge.org)), новый набор данных Hillel Yaffe Glaucoma Dataset (HYGD) с ~1200 изображениями глазного дна и высококачественными метками (physionet.org). EyePACS/AIROGS (десятки тысяч изображений сетчатки) также общедоступен после регистрации (например, Kaggle).
- Наборы данных ОКТ: SYN-OCT (200 тыс. синтетических B-сканов с масками СНВС (www.nature.com) (www.nature.com)), OCTDL (2064 изображения различных заболеваний сетчатки (www.nature.com)) и другие из публичных конкурсов.
- Данные полей зрения: GRAPE (продольные данные ПЗ 263 глаз плюс изображения (www.nature.com)). UWHVF (28 тыс. тестов ПЗ) открыт, если вы загрузите его из репозитория Университета Вашингтона (www.nature.com). Некоторые конкурсы Kaggle включают данные ПЗ.
- Электрофизиология: Крупных открытых наборов данных ЭРГ при глаукоме не известно, но можно начать с любых доступных данных сигнала «норма против глаукомы».
- Химические/генетические данные: Стандартные наборы данных, такие как MoleculeNet (для соединений) или GEO (для генов), могут быть перепрофилированы. Например, загрузите необработанные данные GSE115404 (через запрос GEO (pmc.ncbi.nlm.nih.gov)) и предварительно обработайте их в матрицы экспрессии.
Для каждого из них вам нужен prepare.py, который загружает данные и определяет train_set, val_set, а также функцию оценки. Шаблон Карпати ожидает, что prepare.py будет выдавать обучающие данные и процедуру оценки, которая возвращает потери или метрику. Например, prepare.py для RIM-ONE может загружать изображения и CC, помеченные как глаукома, разделять их на тренировочные/валидационные папки и определять функцию, вычисляющую AUC валидации. См. [14†L71-L79] для того, как структурирован RIM-ONE.
Настройка данных для малого масштаба: Если наборы данных большие (например, EyePACS или SYN-OCT), вы можете сделать подвыборку, чтобы создать «крошечный» набор данных из нескольких сотен примеров (модель все равно может извлечь что-то ценное из небольшого корпуса). Репозиторий автоисследования даже упоминает использование крошечных наборов данных в стиле «TinyStories» для работы на крошечном оборудовании. Например, выберите 500 изображений из ORIGA (сбалансированных) или 1000 полей зрения из GRAPE. Аналогично, для языка можно использовать подмножество из 5000 рефератов статей по глаукоме из PubMed. Ключевым моментом является фиксированный набор данных, по которому агент итерирует. Убедитесь, что данные предварительно перемешаны и разделены в соотношении 80/20, чтобы каждый 5-минутный запуск видел одно и то же разделение на обучение/валидацию.
Стратегии написания program.md: Сообщество должно обмениваться различными подсказками program.md (как «рецептами») в системе контроля версий. Каждый файл может кодировать стратегию исследования. Например, одна стратегия может гласить: «увеличьте глубину сети, если глубина <6, иначе уменьшите скорость обучения», в то время как другая может гласить: «сосредоточьтесь на изменениях в аугментации данных». Со временем группы могут сравнивать, какие стратегии дали лучшие метрики в таблицах лидеров. Хороший program.md включает цель (например, максимизировать AUC или минимизировать потери валидации) и намеки на допустимые мутации (слои, фильтры, LR). LLM агента использует эти инструкции для предложения изменений кода. Сохраняйте метрики стандартизированными (например, всегда сообщайте AUC для задач классификации глаукомы), чтобы эксперименты были сопоставимы.
Сотрудничество сообщества: Чтобы сделать это усилие масштабируемым, сообщество гражданской науки должно организоваться:
- Общие журналы экспериментов: Публикуйте результаты каждого эксперимента (например, «Запуск №27 программы-v1 достиг Val AUC=0,82 при ширине=4, глубине=3»).
- Стандартизированные метрики: Определите метрики для каждой задачи: например, «AUC ОКТ глаукомы», «AUC прогрессии ПЗ», «AUC атрибута» и т. д. Общая таблица лидеров (подобная val_bpb автоисследования) может отслеживать лучшие результаты. Например, Slack или GitHub Actions могут еженедельно собирать лучший AUC каждого агента.
- program.md под контролем версий: Разместите все program.md в репозитории GitHub. Участники могут форкать и предлагать новые стратегии (через запросы на слияние), сохраняя исторические версии. Таким образом, можно параллельно тестировать несколько подходов (например, «program_word2vec.md» против «program_transformer.md»).
- Обмен данными и кодом: Используйте общедоступные репозитории или ноутбуки для скриптов подготовки данных и делитесь модификациями train.py, найденными агентом (для воспроизведения в стандартных фреймворках МО). Ссылки на исходные наборы данных (Kaggle, PhysioNet, Zenodo) гарантируют, что другие могут загрузить те же данные.

Снижая технические барьеры (агент редактирует код, пользователь редактирует инструкции в Markdown) и координируя усилия (общие журналы, таблицы лидеров), гражданские ученые могут коллективно исследовать гиперпараметры/выбор моделей для этих проблем МО, связанных с глаукомой. По сути, они вкладывают человеческое творчество в определение целей и позволяют агенту выполнять тяжелую работу по проведению 100 экспериментов за ночь для каждой цели (medium.com) (www.theneuron.ai).

4. Конкретно восстановление зрения

Восстановление зрения — возвращение зрения после повреждения — это особенно захватывающая цель для оптимизации с помощью ИИ. Текущие исследования по восстановлению зрения с помощью ИИ включают сетчаточные имплантаты, кортикальные протезы и оптогенетику. Вот как может вписаться цикл автоисследования:

Оптимизация кодирования зрительных протезов: Современные протезы (сетчаточные имплантаты или камеры, связанные с электродными массивами) пытаются преобразовать изображение с камеры в электрические паттерны стимуляции, которые мозг интерпретирует как зрение. Проблема заключается в том, что «пропускная способность» электродов очень ограничена (часто всего от десятков до нескольких сотен точек) (pmc.ncbi.nlm.nih.gov). Модель МО (небольшая CNN или трансформер) может быть обучена отображать входные изображения на идеальные карты стимуляции, но лучшие гиперпараметры или архитектуры для этого преобразования неизвестны. Агент автоисследования мог бы провести 100 вариантов модели «нейронного кодера» за несколько часов. Например, создать набор данных пар изображение→стимуляция (либо симулированные фосфены, либо данные пациентов) и заставить агента оптимизировать сеть кодера для минимизации потерь реконструкции или максимизации метрики полезности (целостность контраста, точность распознавания). Агент мог бы попробовать добавить слои внимания, изменить размеры свертки или настроить скорости обучения. За многие запуски можно было бы найти небольшие сети, которые дают более заметные протезные выходы. Некоторые недавние работы уже используют ИИ для извлечения зрительной заметности для протезов (pmc.ncbi.nlm.nih.gov); автоисследование может автоматизировать настройку таких конвейеров.
Паттерны оптогенетической стимуляции: В оптогенетической терапии выжившие ГКС или другие клетки сетчатки делаются светочувствительными (через введенные гены). Входные данные с камеры затем должны быть закодированы в световые импульсы. Здесь снова модель МО может управлять паттернами. Можно было бы сформулировать игрушечную задачу: небольшая сеть преобразует изображение с камеры в карту интенсивности света (те же размеры, что и клетки). Целью агента могло бы быть максимизация некоторой метрики эффективной стимуляции (например, максимизация активации целевых клеток в симулированной сетчатке). Каждое испытание могло бы запускать быструю симуляцию ответа. В ходе итераций агент мог бы исследовать длительности импульсов или пространственные фильтры. Например, корректировка агрессивности фильтра высоких частот на входе камеры может быть полезна для некоторых паттернов. Суть в том, что многие аналоговые параметры (ядра фильтров, нелинейность, временное кодирование импульсов) могут быть автоматически просканированы.
Оптимизация импульсных паттернов (TES и имплантаты): Даже не-машинное обучение может извлечь выгоду из быстрого поиска. Например, недавнее исследование (Xie et al. 2025) показало, что более короткие длительности импульсов и введение межфазных интервалов значительно улучшили кортикальную активацию для сетчаточных имплантатов (pmc.ncbi.nlm.nih.gov). Это говорит о том, что пространство параметров электрической стимуляции имеет сильные, неинтуитивные эффекты. Агент autoresearch мог бы рассматривать параметры протокола стимуляции (длительность фазы, частота, интервал) как «параметры сети» и проводить множество небольших экспериментов (каждый симулированный или эмпирический) для максимизации кортикального ответа. Например, настроить упрощенную электрическую модель (или использовать записанные данные вызванных потенциалов) в prepare.py и позволить агенту настраивать параметры train.py, такие как время импульсов, для максимизации определенной амплитуды ответа. Это похоже на автоматизацию того, что ученые-нейрофизиологи-энтузиасты делают вручную.
Дизайн вирусных векторов и геометрия каркаса: В более экспериментальной разработке терапии подход агента с циклами также мог бы решить задачи биомедицинской оптимизации. Например, дизайн вирусных капсидов AAV или промоторов для таргетирования ГКС мог бы быть направлен с помощью небольших прогностических моделей (например, логистическая регрессия по признакам последовательности). Autoresearch мог бы многократно пытаться модифицировать модель, которая предсказывает тропизм или экспрессию (обученную, например, на небольших вирусных библиотеках), чтобы улучшить это предсказание. Аналогично, если у кого-то есть код симуляции роста в нервных каркасах (для восстановления зрительного нерва), агент мог бы настраивать геометрические параметры для максимизации удлинения аксона. Это продвинутые задачи, но концептуально они подходят — «агент как экспериментатор» мог бы настраивать параметры модели или симуляции для улучшения результатов.

Таким образом, любой аспект зрительного протеза или восстановления, который зависит от параметризованных алгоритмов, может быть улучшен за счет быстрых итераций. Важно отметить, что ограничение заключается в том, что для многих из этих задач у нас обычно есть только симуляционные данные; фактическое тестирование сотен вариантов на пациентах невозможно. Но autoresearch может работать in silico, чтобы предложить лучшие кандидаты для последующих клинических испытаний. Как отмечалось в обзоре протезирования, «обеспечение надежной генерации фосфенов в точных местах... является важной задачей», и «модели, управляемые ИИ, показали потенциал» в этой области (pmc.ncbi.nlm.nih.gov). Autoresearch может значительно ускорить поиск наилучших конфигураций этих моделей ИИ.

5. Переход к клиническому влиянию

Вычислительные результаты в конечном итоге должны быть связаны с реальными исследованиями и лечением глаукомы. Как идеи, генерируемые автоисследованиями под руководством пациентов, могут быть подтверждены и продвинуты?

Сотрудничество с исследовательскими группами: Гражданские ученые должны обратиться к признанным консорциумам по исследованию глаукомы. Примеры включают Международный консорциум по генетике глаукомы (IGGC) и консорциум NEIGHBORHOOD, которые объединяют генетические и клинические данные (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Результаты автоисследований (например, новая гипотеза о гене-кандидате или перепрофилировании лекарства) могут быть переданы таким группам для экспериментального подтверждения. Лаборатории тканевых культур (например, в крупных университетах) или исследователи сна могут тестировать соединения на выживаемость ГКС. Академические клиницисты могут коррелировать любой биомаркер или классификатор изображений с данными своих пациентов в соответствии с протоколами IRB. Установление диалога между группами, работающими в стиле хакатона, и формальными лабораториями является ключевым.
Привлечение организаций по защите прав пациентов: Группы, такие как Glaucoma Research Foundation или Cure Glaucoma Foundation, часто финансируют инновации, ориентированные на пациентов. Они могли бы спонсировать проекты проверки концепции или гражданские конкурсы с использованием автоисследований. Эти организации имеют сети клиницистов и могли бы помочь направить перспективные модели в клинику. Например, если агент помечает существующее одобренное FDA лекарство как нейропротективное, группа защиты прав пациентов могла бы помочь в организации небольшого испытания в соответствии с надлежащими протоколами. Подчеркивание успехов потребует представления результатов как гипотез (а не медицинских советов) и обеспечения прозрачности.
Этические и безопасные меры: Гражданские ученые должны использовать только деидентифицированные общедоступные данные или полностью синтетические данные. Любое использование фактических записей пациентов требует протокола, одобренного IRB (и, вероятно, согласия пациента). Результаты циклов автоисследования должны быть четко помечены как генерирующие гипотезы. Например: «Эта модель предполагает, что препарат X может защищать ГКС — требуется экспериментальная проверка». Критические медицинские решения должны оставаться за врачами. Риски включают непреднамеренное распространение моделей, которые предсказывают личные результаты (прогрессирование глаукомы) — необходимы четкие заявления об отказе от ответственности, чтобы не рассматривать их как диагностические инструменты. Передовые методы обеспечения конфиденциальности данных (например, использование агрегированных или анонимных полей) являются обязательными.
Прецеденты в гражданской науке: Вклад непрофессионалов в медицинские/нейробиологические исследования не является беспрецедентным. Проект Eyewire (игра MIT по картированию нейронов с помощью краудсорсинга) мобилизовал добровольцев для реконструкции нейронных цепей сетчатки (www.citizenscience.gov). В офтальмологии непрофессионалы помогали аннотировать изображения в финансируемых OpenAI конкурсах (например, размеченные наборы данных для заболеваний глаз). Вне сферы зрения, такие игры, как Foldit (головоломки со сворачиванием белков) и Galaxy Zoo (классификация галактик), показывают, что участие граждан может решать сложные научные проблемы. Эти успехи вселяют надежду на то, что многие руки (а теперь и ИИ) действительно могут помочь в сложных исследованиях. Подход автоисследования похож на то, как если бы каждому человеку дали лабораторного помощника на базе ИИ: предыдущие краудсорсинговые усилия использовали только людей для анализа фиксированных задач, тогда как здесь человек ставит цель, а ИИ выполняет итерации.

Благодаря прозрачности, осторожности и сотрудничеству инициатива гражданской науки в области автоисследования может завоевать доверие. Она должна подчеркивать «генерирование подсказок, а не предписаний». Если сообщество документирует методы и открыто делится кодом, профессиональные исследователи смогут воспроизвести результаты. Например, если кто-то находит новую комбинацию факторов, защищающих ГКС, он может опубликовать ее в препринте или сообщить в лабораторию. Ссылки в стиле цитирования (как мы делаем здесь) помогают наладить связь: например, «Мы рассмотрели ваш список препаратов-кандидатов в контексте известных путей (pmc.ncbi.nlm.nih.gov).» В конечном итоге, это форма открытой науки — управляемой пациентами, но научно строгой. Если этические стандарты соблюдаются, такие низовые инновации имеют большой потенциал для стимулирования нового сотрудничества и, в конечном итоге, для включения в рецензируемые офтальмологические исследования.

6. Конкретная 90-дневная дорожная карта

Сфокусированный, ограниченный по времени план может объединить сообщество из 10–50 человек (каждый с хотя бы одним графическим процессором или Apple Silicon) для запуска проекта автоисследования глаукомы. Вот предложенный поэтапный план:

Недели 1–2: Формирование и настройка
- Набор и начало работы: Создайте канал связи (например, Slack или Discord) и репозиторий GitHub для проекта. Опубликуйте информацию на форумах пациентов с глаукомой, в группах биохакеров и на встречах по ИИ.
- Проверка оборудования: Убедитесь, что каждый может установить PyTorch и клонировать репозиторий Карпати (или форк Maple). Проведите сессию по настройке, где каждый участник запустит пример цикла автоисследования на игрушечном наборе данных (например, подмножестве CIFAR-10) для проверки среды.
- Выбор набора данных: Определите 1–3 первоначальные задачи (например, классификация ОКТ, прогрессия ПЗ). Для каждой назначьте небольшую команду для подготовки данных: например, одна команда загружает изображения RIM-ONE (github.com), другая извлекает поля GRAPE (www.nature.com), третья собирает литературные рефераты. Команды должны разделить данные 80/20 и создать заглушки prepare.py.
- Базовые модели: Для каждой задачи доработайте простой train.py: например, крошечная CNN для RIM-ONE, MLP для ПЗ. Выберите метрики оценки (AUC, Дайс, MSE).
- Первоначальная разработка program.md: Каждая команда пишет исходный файл инструкций (program.md), указывающий цель и разрешенные изменения. Например, для RIM-ONE: «максимизировать AUC обнаружения глаукомы», для GRAPE: «минимизировать MSE ПЗ».
Недели 3–6: Первые циклы экспериментов
- Запуск циклов автоисследования: Каждая подгруппа запускает агента на своей задаче на ночь (примерно 100 5-минутных запусков). Для начала используйте один program.md, затем позвольте участникам добавлять варианты (например, «program_temp1.md»).
- Сбор результатов: Каждое утро команды изучают журналы (репозиторий автоматически регистрирует каждый запуск). Записывайте лучшую достигнутую метрику, параметры модели на тот момент и любые заметные изменения, найденные агентом. Для прозрачности публикуйте эти результаты на общем GitHub (возможно, в формате CSV или JSON).
- Итерация и обратная связь: Сравнивайте запуски. Превзошла ли какая-либо стратегия базовую значительно? Если подкоманда видит небольшой прогресс, она должна подкорректировать program.md (например, быть более агрессивной с изменениями скорости обучения). Каждые выходные подводите итоги на собрании сообщества.
- Инструменты: Используйте Git для контроля версий program.md и шаблонов кода. Рассмотрите возможность использования общей таблицы Google Sheet или вики для таблиц лидеров (например, «OCT-AUC: лучший=0,85 от Алисы; VF-RMSE: лучший=2,1 от Боба»). Это мотивирует здоровую конкуренцию и прозрачность.
Недели 7–12: Уточнение и распространение
- Уточнение экспериментов: На основе ранних результатов уточняйте перспективные задачи. Например, возможно, классификатор RIM-ONE превысил 0,90 AUC — теперь попробуйте добавить аугментацию данных или немного более глубокую сеть. Поощряйте ветвление: некоторые могут попробовать разные архитектуры (например, Vision Transformer tiny вместо CNN). Агенты могут запускать несколько вариантов program.md параллельно.
- Синтез результатов: Создайте короткие отчеты по каждой области (ОКТ, ПЗ и т. д.), суммирующие то, что сработало. Например, «Мы улучшили сегментацию КГКС по Дайсу с 0,60 до 0,75, переключившись с активации ReLU на GELU». Используйте простой язык, чтобы неспециалисты могли понять (глоссарий для терминов МО).
- Презентация сообщества: К 10-й неделе напишите сообщение в блоге или создайте презентацию, обобщающую инициативу на данный момент. Выделите любые нетривиальные находки (даже «нулевые» результаты полезно делиться). Пригласите обратную связь с онлайн-форумов; возможно, свяжитесь с исследователем, запросив комментарии («Мы обнаружили, что такие-то настройки нейронной сети помогают классифицировать раннюю глаукому — есть ли идеи, соответствует ли это физиологии?»).
- Планирование распространения: Определите одну или две офтальмологические лаборатории или клиницистов, заинтересованных в сотрудничестве. Свяжитесь с ними, предоставив первоначальные результаты. Например, свяжитесь с авторами набора данных HYGD или командой GRAPE в Twitter/LinkedIn, упомяните свои гражданские находки. Изучите возможности для совместной валидации (например, отправьте им обученные веса модели для тестирования на их данных).
После 12 недель: Следующие шаги
- Продолжайте циклы по наиболее перспективным задачам и новым. Например, если RIM-ONE дает хорошие результаты, следующим шагом займитесь REFUGE. Возможно, создайте составные модели (ансамбль CNN).
- Официализируйте страницу проекта или препринт, описывающий проделанную работу.
- Рассмотрите возможность организации хакатона для привлечения большего количества умов, возможно, в партнерстве с благотворительной организацией по борьбе с глаукомой.

Таким образом, сообщество может добиться устойчивого прогресса, учиться вместе и начать налаживать контакты с экспертами к концу 90 дней.

7. Риски, ограничения и честная оценка

Идея автоисследования глаукомы амбициозна, поэтому требует честности в отношении потенциальных подводных камней:

Риск переобучения и ложных закономерностей: Небольшие модели на маленьких, зашумленных наборах данных часто цепляются за совпадения. Агент может найти настройку, которая улучшает AUC валидации просто путем переобучения на особенностях. Например, если подмножество изображений имело тонкую метку аннотации, сеть могла бы использовать ее вместо истинных признаков глаукомы. Это приводит к «обману градиентного спуска». Для смягчения:
- Всегда используйте отложенные тестовые наборы (полностью отдельные от любой настройки) для окончательной оценки.
- Ограничьте сложность: держите модели скромными и следите, не углубляет ли или не расширяет ли агент сеть чрезмерно без причины.
- Если модель достигает почти идеального результата слишком быстро, подвергните это сомнению.
- Используйте проверки на вменяемость: например, перемешайте метки и посмотрите, падает ли AUC до случайного (если нет, значит, есть утечка).
Предвзятость и качество данных: Общедоступные наборы данных по глаукоме часто поступают от узких групп населения (например, ORIGA из Сингапура) (pubmed.ncbi.nlm.nih.gov). Модель, настроенная на них, может не обобщаться. Гражданские эксперименты должны отмечать это ограничение. В идеале для проверки надежности результатов используются несколько наборов данных (из разных когорт).
Ложные выводы («Имитация исследований»): Проведение множества экспериментов кажется продуктивным, но если каждое улучшение происходит только на синтетических или тривиальных наборах данных, это может не принести пользы пациентам. Чтобы избежать этого:
- Сосредоточьтесь на задачах, имеющих клиническую значимость (например, раннее выявление по рутинным ОКТ).
- По возможности связывайте результаты с реальными измерениями (например, AUC для прогрессирования, а не просто крошечная дельта потерь).
- Приоритизируйте интерпретируемость: если агент «находит» новый биомаркер, постарайтесь убедиться, что он имеет смысл (например, фокусируется ли он на известных анатомических изменениях?).
Нет клинической гарантии: Должно быть предельно ясно: выходные данные этих циклов — это генерация гипотез, а не медицинские рекомендации. Модель, предлагающая новый препарат, должна быть проверена в лаборатории до любого использования пациентом. Преувеличение опасно. Помечайте все опубликованные результаты отказами от ответственности: «Это исследование с использованием ИИ, а не рецензируемое открытие».
Ограничение «малой модели»: Очень маленькие сети имеют ограниченную емкость. Они могут упустить сложные закономерности. В отличие от этого, большие модели часто приводят к прорывам, но требуют огромных данных. Здесь мы принимаем ограниченный объем: надежда заключается в том, что даже небольшие улучшения могут направлять исследования. Но мы не должны ожидать, что эти модели заменят глубокое обучение на массивных данных. Они лучше всего подходят для быстрого опробования очевидных идей.
Надежность агента: Агент (например, GPT-4) может галлюцинировать или отклоняться от цели. Важно, чтобы результаты были воспроизводимыми: после запуска агента человек должен проверить, какие изменения были сохранены, и повторно запустить обучение, чтобы подтвердить метрику. Поддерживайте честность агента, включая в program.md такие утверждения, как «принимать только фактические улучшения метрики оценки».

Несмотря на эти проблемы, ключевой гарантией является прозрачность и критический контроль. Документируйте все. Когда модель показывает закономерность, проверьте ее. Если многие гражданские ученые видят одну и ту же аномалию (например, все модели с высоким AUC для задачи ОКТ подчеркивают назальную область сетчатки), это усиливает аргумент. Цель состоит в ускорении фазы генерации идей, а не в избегании тщательной науки впоследствии.

Заключение

Глаукома — сложное, незаметно приводящее к слепоте заболевание с множеством неудовлетворенных исследовательских потребностей — от защиты нейронов до восстановления зрения. В то же время, ИИ демократизировал экспериментирование: один человек с графическим процессором и некоторой решимостью может проводить автоматический поиск гиперпараметров, на который командам вручную потребовались бы недели. Фреймворк autoresearch Карпати по сути предоставляет каждому гражданину помощника в лаборатории ИИ. Записывая четкие высокоуровневые цели в Markdown, исследователи-энтузиасты могут позволить агенту проработать продукты и перейти непосредственно к многообещающим направлениям.

Мы изложили, как это можно сделать на практике: определение задач МО по глаукоме, выбор данных (изображения глазного дна и ОКТ, поля зрения, молекулярные наборы данных), определение моделей и метрик, а также использование программных инструкций для направления поиска. Мы наметили 90-дневную дорожную карту для сообщества и указали пути взаимодействия с клиницистами, чтобы обеспечить, что ценные результаты могут информировать фактическую науку о глаукоме. Подход в значительной степени является «гражданской наукой»: открытие инструментов научных открытий доступным способом, при этом все еще полагаясь на экспертный надзор там, где это важно.

Цитаты: Мы ссылались на последние ресурсы как в исследованиях глаукомы, так и в области ИИ. Ключевые факты (распространенность заболевания, половина недиагностированных случаев (physionet.org)), перспективные методы терапии (имплантаты CNTF (pmc.ncbi.nlm.nih.gov), генное редактирование (pmc.ncbi.nlm.nih.gov)), и теневые подводные камни (ИИ в визуализации (pmc.ncbi.nlm.nih.gov)) основаны на современной литературе. Само автоисследование описано в пошаговом руководстве Карпати (medium.com) и обзоре (www.theneuron.ai). Это должно придать достоверность изложенной здесь концепции.

В конечном итоге, мы надеемся, что читатель почувствует себя уполномоченным: если вы пациент, опекун или увлеченный любитель, вы можете стать частью движения вперед в исследованиях глаукомы. Инструменты и данные существуют, проблемы ясны, и благодаря координации и агенту ИИ мы можем ускорить обучение. Как и в любом исследовании, на пути будут ложные старты, но даже неудачи чему-то учат нас — часто направляя человеческий разум к правильным подходам. С широко открытыми глазами как на возможности, так и на подводные камни, гражданское автоисследование может стать мощным дополнением к традиционной науке о глаукоме.

Начните здесь

Самый простой способ погрузиться в автоисследование глаукомы уже сегодня: Запустите крошечную классификацию на изображениях глазного дна ORIGA.

Получите данные: Загрузите набор данных ORIGA-light (650 изображений глазного дна, помеченных как норма против глаукомы) (pubmed.ncbi.nlm.nih.gov). Разделите примерно 80% на обучение / 20% на валидацию.
Начальная модель: Используйте или адаптируйте пример скрипта из [karpathy/autoresearch] для классификации изображений. Например, немного кода для загрузки изображений ORIGA и обучения небольшой CNN (2–3 сверточных слоя) для различения глаукомы и здорового состояния.
Напишите program.md: В тексте установите цель «максимизировать AUC валидации для обнаружения глаукомы» и проинструктируйте агента, что он может настраивать глубину модели, скорость обучения и т. д. Например:

Цель: Максимизировать AUC для обнаружения глаукомы против нормы на наборе данных ORIGA.

Агент должен попробовать настроить размеры сверточных слоев, количество фильтров и скорость обучения. Каждое испытание - 5 минут обучения. Если AUC валидации улучшается, сохраните изменение. Повторите.
Запустите цикл: Запустите автоисследование (укажите ему ваши prepare.py, train.py и program.md). Позвольте ему работать несколько часов или на ночь на вашем RTX 3060. Он выполнит около 100 экспериментов автоматически.
Проверьте результаты: Проверьте консоль или журнал, чтобы увидеть лучший достигнутый AUC валидации (должен быть >0,8, если все пройдет хорошо). Теперь у вас есть модель и скрипт обучения, которые были доработаны агентом ИИ.

Этот простой эксперимент выходного дня уже дает вам непосредственный опыт создания конвейера машинного обучения без ручного написания нового кода. Документируйте, что вы пробовали, и делитесь своим program.md и результатами с сообществом. Каждый маленький успех (повышение AUC, интересные изменения в сети) — это строительный блок. Вы буквально инструктируете ИИ проводить исследование по выбранной вами проблеме глаукомы — и при этом вы изучаете науку о данных глаукомы и имеете надежду изменить ситуацию в понимании или лечении потери зрения.

Удачи! Держите вопросы и находки открытыми, и помните: это исследовательские инструменты, а не медицинские рекомендации. Внимательно проверяйте свои запуски и наслаждайтесь процессом открытий.

**`