Широко відкриті очі: Як фреймворк Autoresearch Карпаті може демократизувати дослідження глаукоми
Вступ
Глаукома — це хронічна оптична нейропатія, яка прогресивно руйнує гангліозні клітини сітківки (ГКС) і призводить до незворотної втрати зору. Вона вражає мільйони людей по всьому світу – за оцінками, 64,3 мільйона людей у 2013 році, і, за прогнозами, ця цифра зросте до понад 110 мільйонів до 2040 року (physionet.org). Тривожно, що близько половини всіх випадків залишаються недіагностованими, доки втрата зору вже не почалася (physionet.org). Традиційне лікування глаукоми зосереджене на зниженні внутрішньоочного тиску (ВОТ) за допомогою медикаментів або хірургії, але ці методи лікування не можуть змінити пошкодження або повністю запобігти сліпоті (pmc.ncbi.nlm.nih.gov) (physionet.org). В результаті, існує нагальна потреба в нових відкриттях у таких областях, як нейропротекція, регенерація ГКС/зорового нерва, та інноваційні генні та клітинні терапії. Однак академічні та фармацевтичні дослідження в цих передових областях залишаються недостатньо фінансованими, частково через те, що це довгострокові, високоризиковані зусилля. Тим часом досягнення в машинному навчанні (МЛ) та штучному інтелекті (ШІ) відкривають нові підходи до аналізу даних та генеративного дизайну.
Недавні роботи (наприклад, проект Андрія Карпаті “autoresearch” (www.theneuron.ai) (medium.com)) свідчать про те, що агенти ШІ можуть автономно запускати сотні невеликих експериментів на одній відеокарті на основі лише простих високорівневих інструкцій. У цій парадигмі людина пише коротку program.md, що описує мету дослідження, а агент ШІ ітераційно змінює модель або гіперпараметри, запускаючи 5-хвилинні цикли навчання, зберігаючи успішні зміни та відкидаючи інші (medium.com) (www.theneuron.ai). За ніч цей цикл може виконати близько 100 експериментів, досліджуючи архітектуру та простір параметрів без ручного кодування.
Ця стаття досліджує, як фреймворк autoresearch Карпаті може бути застосований до дослідження глаукоми мотивованими пацієнтами, опікунами, цивільними вченими та розробниками відкритого програмного забезпечення. Ми розглянемо недостатньо досліджені області дослідження глаукоми (нейропротекція, регенерація тощо) та визначимо завдання машинного навчання в кожній області, де експерименти з невеликими моделями могли б реально допомогти. Для кожного завдання ми пропонуємо конкретні публічні набори даних, базові моделі/архітектури, метрики оцінки та окреслюємо, як можуть виглядати інструкції program.md для агента. Потім ми обговоримо практичні кроки для спільноти щодо налаштування та обміну такими експериментами, включаючи міркування щодо обладнання, підготовку даних та платформи для співпраці. Ми розглянемо конкретний контекст терапій відновлення зору та чи можуть цикли в стилі autoresearch прискорити оптимізацію нейронних протезів або інших втручань. Нарешті, ми розглянемо, як гіпотези, створені громадянами, можуть бути перевірені та доведені до клініцистів, і викладемо конкретний 90-денний план для запуску ініціативи autoresearch, керованої пацієнтами — включно з тим, як уникнути підводних каменів “дослідницького театру” та забезпечити реальний вплив. Протягом усього тексту ми посилаємося на актуальні джерела з дослідження глаукоми та ШІ в галузі зору, прагнучи створити збалансований, реалістичний та доступний посібник.
1. Ландшафт дослідження глаукоми та незадоволені потреби
Дослідження глаукоми охоплюють багато напрямків — від розуміння механізмів захворювання до розробки нових методів терапії для нейропротекції та відновлення зору. Багато перспективних областей недостатньо забезпечені ресурсами:
-
Нейропротекція: Втручання, що захищають ГКС від загибелі (незалежно від ВОТ). Приклади включають нейротрофічні фактори та метаболічну підтримку. Наприклад, імплантати, що вивільняють циліарний нейротрофічний фактор (CNTF), показали потенціал у ранніх випробуваннях (pmc.ncbi.nlm.nih.gov), а інші молекули, такі як фактор росту нервів та цитиколін, досліджуються (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Однак вони ще не є стандартною практикою, і потрібна додаткова робота для їхнього переходу до пацієнтів. Огляд 2025 року попереджає, що нейропротекторні терапії глаукоми є “майбутнім лікуванням”, яке потребує подальших випробувань (pmc.ncbi.nlm.nih.gov), що відображає незадоволену потребу.
-
Регенерація ГКС та регенерація зорового нерва: Після загибелі ГКС та їхніх аксонів сучасна медицина не має способу це змінити. Деякі дослідження на тваринах використовують генні терапії для перепрограмування ГКС або стимуляції їхнього відростання. Наприклад, CRISPR-опосередкована репресія PTEN (негативного регулятора росту) сприяла відростанню аксонів у нервових клітинах щурів (pmc.ncbi.nlm.nih.gov), а експерименти з ко-делецією PTEN та SOCS3 призвели до стійкої регенерації зорового нерва у мишей (pmc.ncbi.nlm.nih.gov). Однак ці прориви залишаються в лабораторних моделях. Основоположна біологія – наприклад, як відтворити розвиток сітківки або обійти інгібітори росту – є складною. Існує величезний попит на модальності (дрібні молекули, гени, біоматеріали), які могли б стимулювати виживання ГКС або відростання аксонів, але прогрес до випробувань на людях відбувається повільно.
-
Генні та клітинні терапії: Нові технології, такі як CRISPR, вірусні вектори та ГКС, отримані зі стовбурових клітин, обіцяють багато для лікування глаукоми. Стратегії включають редагування генів для зниження ВОТ (наприклад, шляхом таргетування виробництва водянистої вологи) або модуляції нейродегенеративних шляхів (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Стовбурові клітини могли б (теоретично) замінити втрачені клітини трабекулярної сітки або ГКС та секретувати захисні фактори (pubmed.ncbi.nlm.nih.gov). Ранні роботи показали, що певні транскрипційні фактори (наприклад, Oct4-Sox2-Klf4) можуть перепрограмувати не-ГКС в нейрони, подібні до ГКС, у мишей (відновлюючи зір при пошкодженні зорового нерва) (pmc.ncbi.nlm.nih.gov). Однак ці підходи стикаються з проблемами безпеки та доставки, перш ніж досягти пацієнтів. Кілька недавніх оглядів виділяють генну терапію як захоплюючий, але ще не клінічний фронт для глаукоми (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Отже, молекулярні та клітинні інновації розвиваються, але ресурси та дані випробувань обмежені — створюючи можливість для обчислювального дослідження (наприклад, розробки оптимальних вірусних конструкцій або прогнозування ефективних генних редагувань).
-
Електрична та оптогенетична стимуляція для відновлення зору: Для пацієнтів з розвиненою глаукомою (або комбінованими захворюваннями, такими як пігментний ретиніт), штучні зорові протези або оптогенетичні терапії спрямовані на обхід пошкоджених ГКС. Імплантати сітківки (епіретинальні або субретинальні електродні масиви) та кортикальні імплантати створюють штучні сприйняття (“фосфени”), але роздільна здатність низька, а результати сильно відрізняються. Недавній огляд 2025 року щодо ШІ у візуальних протезах зазначає, що “Алгоритми ШІ демонструють перспективу в оптимізації протезного зору, зокрема завдяки покращеній екстракції помітності зображення та стратегіям стимуляції,” хоча наразі більшість досліджень є симуляціями (pmc.ncbi.nlm.nih.gov). Іншими словами, машинне навчання може допомогти перетворити зображення з камери в патерни стимуляції, які є найбільш інформативними з огляду на обмеження пристрою. Оптогенетика (роблячи вижилі клітини сітківки світлочутливими) та транскорнеальна електрична стимуляція (ТЕС) також випробовуються для втрати зору, пов'язаної з глаукомою. Усі ці області потребують широкого налаштування параметрів (наприклад, просторово-часові патерни стимуляції, вектори експресії генів) — завдання, потенційно придатні для автономного МЛ пошуку.
-
ВОТ-незалежні механізми: Багато людей продовжують втрачати зір, незважаючи на добре контрольований ВОТ. Такі фактори, як порушення очного кровотоку, нейроваскулярна дисфункція або метаболічний стрес у диску зорового нерва, визнані, але не повністю зрозумілі. Генетичні дослідження свідчать про значні “ВОТ-незалежні” компоненти ризику глаукоми (pubmed.ncbi.nlm.nih.gov) (pubmed.ncbi.nlm.nih.gov). Терміново потрібні біомаркери цих процесів (крім тиску). Також половина пацієнтів з глаукомою мають захворювання “нормального тиску”, що підкреслює, що високий ВОТ не є єдиною причиною. Дослідження судинних факторів або інших шляхів пошкодження тривають, але фрагментовані. Обчислювальне моделювання або видобуток великих наборів даних (наприклад, повногеномні асоціативні дослідження) могли б допомогти виявити нові механізми або терапевтичні мішені в цій області.
-
Відкриття біомаркерів за допомогою візуалізації та полів: Раннє виявлення та моніторинг глаукоми часто покладаються на візуалізацію (фундус-фото, ОКТ) та функціональні тести (поля зору). Передові алгоритми могли б виявити тонкі біомаркери, які людські клініцисти пропускають. Наприклад, глибоке навчання почало виявляти препериметричну втрату поля зору (зміни, невидимі для стандартного аналізу полів) (pmc.ncbi.nlm.nih.gov). Подібним чином ШІ використовувався для аналізу профілів товщини шарів ОКТ для прогнозування глаукоми до явних пошкоджень. Однак ще немає широко прийнятих біомаркерів ШІ, які використовуються клінічно для скринінгу або стратифікації ризику. Обчислювальні вузькі місця тут включають потребу у великих, добре маркованих наборах даних та надійних протоколах валідації (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Публічні конкурси (REFUGE, AIROGS тощо) почали стандартизувати дані, але охоплення ранніх стадій захворювання є невеликим (pmc.ncbi.nlm.nih.gov). Подальше машиноорієнтоване відкриття мультимодальних біомаркерів (комбінування ОКТ, полів, генетики тощо) залишається відкритою сферою.
Де може допомогти МЛ на малих моделях? Багато з вищезазначеного описують високорівневі проблеми. Вузькі місця часто полягають у дефіциті даних, багатьох взаємодіючих змінних та повільно прогресуючій біології. Де autoresearch агент сяє, так це в автоматизації невеликих експериментів на доступних даних. Наприклад, якщо є скромний набір даних сканувань ОКТ з ранньою глаукомою та без неї, цивільний вчений може налаштувати швидкий цикл тестування моделей, щоб знайти архітектуру, яка найкраще їх розрізняє. Так само, невеликі трансформери на геномних даних або літературі могли б запропонувати нові гени або лікарські кандидати. Ключовим є зосередження на вузьких завданнях з визначеними метриками (точність класифікації, AUC, втрати) та швидка ітерація. Області з обмеженими публічними даними (наприклад, параметри ТЕС або нові генні коктейлі) можуть покладатися на синтетичні дані або проксі. У наступному розділі ми відображаємо конкретні завдання МЛ в галузі глаукоми на підхід autoresearch.
2. Застосування Autoresearch до проблем глаукоми
Фреймворк autoresearch Карпаті є доменно-незалежним: він може проводити експерименти в будь-якому завданні МЛ, наданому prepare.py та train.py з чітко визначеною метрикою оцінки. Ми визначаємо кілька конкретних завдань, пов'язаних з глаукомою, і вказуємо, як агент може вирішити кожне з них. Кожен приклад використання нижче включає: загальнодоступний набір даних (якщо можливо), початкову модель або архітектуру, метрику оцінки та нарис інструкцій program.md.
2.1 Аналіз зображень ОКТ (структурне виявлення та сегментація)
-
Завдання: Виявлення ранньої глаукоми за допомогою сканувань ОКТ. ОКТ-візуалізація надає поперечні зрізи шарів сітківки. Потоншення шару нервових волокон сітківки (ШНВС) та комплексу гангліозних клітин (КГК) може передувати втраті поля зору. Ми можемо розглядати це як завдання класифікації (глаукома проти здорового ока) або регресії (наприклад, вивід товщини ШНВС).
- Набір даних: Нещодавній випуск, SYN-OCT (www.nature.com), є синтетичним набором даних з 200 000 перипапілярних ОКТ-зображень (100 тис. глаукома, 100 тис. норма) згенерованих GAN. Кожне зображення має відповідну товщину ШНВС та маски сегментації. Вони загальнодоступні на Zenodo (www.nature.com). (Хоча вони синтетичні, їх статистично підтверджено, що вони імітують реальні ОКТ-зображення (www.nature.com).) Альтернативно, можна використовувати набір даних OCT-DL (www.nature.com) (2064 зображення різних захворювань сітківки) або менші клінічні колекції ОКТ.
- Модель: Почніть з невеликої згорткової нейронної мережі (CNN). Для класифікації може працювати модель з ~ 3–5 згортковими шарами (наприклад, аналогічна обрізаній ResNet-18 або спеціальна невелика CNN). Для сегментації ШНВС/КГК підходить кодер-декодер, такий як мініатюрна U-Net (з глибиною 3–4). Початковий
train.pyможе реалізувати просту CNN та цикл навчання з параметрами за замовчуванням. - Метрика: Якщо проводиться класифікація глаукоми на ОКТ, використовуйте AUC (Площа під кривою ROC) або точність на валідаційному поділі. Для сегментації використовуйте коефіцієнт Дайса або IoU на масках шарів ШНВС (SYN-OCT надає маски (www.nature.com)).
- Приклад
program.md:"Мета: Максимізувати AUC валідації для виявлення глаукоми за зображеннями ОКТ. Дозволені модифікації: кількість згорткових шарів, кількість фільтрів, розміри ядер, функції активації, швидкість навчання, вибір оптимізатора, розмір пакету тощо. Після кожного 5-хвилинного циклу навчання оцінювати AUC на відкладеному наборі. Якщо AUC покращується, зберігати зміну; в іншому випадку відхиляти." (medium.com) (www.theneuron.ai). Таким чином, агент буде пробувати варіації (наприклад, додавання шарів, налаштування ширини, перехід від Adam до RMSProp) для покращення AUC.
-
Завдання: Сегментація шарів ШНВС/КГК. Точне вимірювання товщини ШНВС є критично важливим. Використовуючи синтетичні ОКТ-сканування (з наданими сегментаціями) або будь-які реальні ОКТ з анотованими шарами, це можна сформулювати як завдання сегментації.
- Набір даних: SYN-OCT знову надає маски сегментації ШНВС (www.nature.com). Інше джерело: деякі академічні групи мають марковані B-сканування ОКТ (хоча часто пропрієтарні). За необхідності можна використовувати загальні набори даних сегментації ОКТ (наприклад, Duke retina OCT fluid challenge (www.nature.com)) як проксі.
- Модель: Невелика CNN типу U-Net, можливо, навіть з обрізаними каналами від базової моделі. Наприклад, використовувати 3 блоки down/up, починаючи з 16 фільтрів. Агенту дозволено змінювати глибину та ширину.
- Метрика: Оцінка Дайса або середнє IoU передбаченої маски ШНВС порівняно з істиною.
- Приклад
program.md:"Мета: Максимізувати оцінку Дайса для сегментації шару ШНВС на ОКТ. Базова модель — U-Net з 3 блоками. Агент може змінювати кількість фільтрів, додавати відсів або змінювати швидкість навчання. Навчати протягом 5 хвилин кожне випробування та обчислювати Дайса на валідації. Зберігати модифікації, які збільшують Дайса."
-
Завдання: Прогнозування прогресування за допомогою серійної ОКТ. Використовуючи послідовні ОКТ, прогнозувати майбутнє потоншення. Якщо існують поздовжні дані ОКТ (наприклад, UK Biobank або дані приватних клінік), метою може бути прогнозування зміни ШНВС або бінарної мітки “швидкий прогресор”.
- Набір даних: Публічних поздовжніх даних ОКТ, специфічних для глаукоми, мало. Однак можна перепрофілювати дані викликів SR OCT (або зображення SYN-OCT зі змодельованим прогресуванням) для імітації цього завдання. Альтернативно, використовувати зображення ОКТ з UK Biobank (хоча вони не специфічні для глаукоми і не легко доступні для цивільних вчених). Для ілюстрації, припустимо, що існує набір даних сканувань ОКТ у час0 та час1 з мітками.
- Модель: Сіамська або конкатенована CNN, яка приймає пари зображень ОКТ, виводячи ймовірність прогресування. Почніть з подачі час0 та прогнозування відсікання час1.
- Метрика: AUC для бінарної класифікації прогресування, або MSE, якщо намагаєтеся передбачити зміну товщини.
- Приклад
program.md:"Мета: Визначити очі, які матимуть швидку втрату ШНВС. Вхід: базова ОКТ; мітка: потоншення >5 мкм після 1 року. Ми використовуємо класифікатор CNN. Дозволені зміни включають глибину мережі, швидкість навчання, аугментацію. Використовувати AUC валідації як метрику."
2.2 Аналіз поля зору (ПЗ)
-
Завдання: Прогнозування майбутньої втрати поля зору. Враховуючи один або кілька минулих тестів поля зору Гемфрі (точкові значення чутливості), прогнозувати майбутню чутливість або швидкість прогресування. Це класична проблема управління глаукомою.
- Набір даних: Набір даних GRAPE (www.nature.com) (2023) надає поздовжнє спостереження за 263 очима (1115 записів) з ПЗ та фундусом/ОКТ, включаючи анотований прогрес. Іншим ресурсом є американська поздовжня база даних UH Visual Field (UWHVF) (www.nature.com) (28 943 поля від багатьох пацієнтів). Однак GRAPE добре курований та публічний, містить як ПЗ, так і результати.
- Модель: Простий підхід — це мережа прямого поширення (повністю зв'язана) на 54-точкових даних ПЗ (або стиснута до глобальних індексів). Для прогнозування прогресії невелика MLP або 1D-CNN може обробляти 54 або 30 вхідних ознак. Інша ідея: розглядати сітку 8×8 як крихітне зображення та використовувати невелику CNN (наприклад, ядра 3×3).
- Метрика: Якщо прогнозуєте майбутнє середнє відхилення або точкові значення, використовуйте MSE (нижче — краще). Якщо класифікуєте “швидкий прогресор проти ні”, використовуйте AUC.
- Приклад
program.md:"Мета: Мінімізувати MSE прогнозованого поля зору. Альтернативно, максимізувати AUC для класифікації швидкої втрати. Базова модель: 2-шаровий перцептрон на 54 значеннях ПЗ. Агент може регулювати розмір прихованого шару, активацію або додавати відсів. Після кожного 5-хвилинного навчання обчислювати метрику на валідаційному наборі."
-
Завдання: Визначення швидких прогресорів. Використовуючи серію минулих ПЗ, класифікувати, які очі швидко втрачатимуть зір.
- Набір даних: Використовувати анотований статус прогресії в GRAPE (www.nature.com) (вони позначили очі як прогресуючі). Або взяти UWHVF і позначити верхній дециль втрати MD як “швидкий”.
- Модель: Можна конкатенувати ознаки з двох або трьох послідовних полів (або різниць) у невелику мережу. Можливо, включити базовий ВОТ та вік, якщо вони доступні.
- Метрика: AUC для розрізнення швидких та повільних прогресорів.
- Приклад
program.md:"Мета: Максимізувати AUC для прогнозування швидкого прогресування поля. Вхідні ознаки: різниці другого порядку VF1 і VF2, плюс ВОТ. Використовувати невелику мережу FC. Агент може налаштовувати ширину шарів, швидкість навчання, розмір пакету."
2.3 Скринінг ліків/сполук (відкриття кандидатів in silico)
- Завдання: Прогнозування сполук-кандидатів для нейропротекції/регенерації. Використовувати МЛ для пошуку малих молекул, які можуть захищати ГКС або сприяти регенерації. Наприклад, багато відомих сполук (такі як нікотинамід, вальпроат) виявляють нейропротекторні ефекти. Ми можемо навчити моделі розпізнавати хемотипи, корельовані з відомою ефективністю, а потім шукати в хімічному просторі.
- Набір даних: Це складно через відсутність спеціальної бази даних ліків для глаукоми. В якості проксі можна використовувати набори даних MolNet (наприклад, інгібування ВІЛ, проникність гематоенцефалічного бар'єра) або будь-який набір даних біоактивності. Альтернативно, скласти список сполук, протестованих у моделях пошкодження зорового нерва (з літературного пошуку) з мітками. На практиці можна почати з більш загальної властивості (наприклад, дані про проникнення через гематоенцефалічний бар'єр з MoleculeNet).
- Модель: Невеликий трансформер або графова нейронна мережа на SMILES-стрічках. Трансформер (на кшталт GPT-2) з невеликою кількістю шарів або проста графова згорткова мережа (наприклад, 3 шари GCN) можуть бути реалізовані в
train.py. - Метрика: Якщо ми розглядаємо це як класифікацію (активна проти неактивної), використовуйте AUROC. Якщо прогнозуєте спорідненість або logP, використовуйте RMSE.
- Приклад
program.md:"Мета: Максимізувати ROC-AUC класифікації для ідентифікації сполук, подібних до нейропротекторних. Базова модель: невеликий трансформер на SMILES. Агент може регулювати кількість шарів трансформера, відсів, швидкість навчання або використовувати альтернативні феатуризації (наприклад, вхідні відбитки). Після кожних 5 хвилин оцінювати AUC на валідаційних молекулах."
(Примітка: Оскільки публічних даних для фактичної нейропротекції мало, це завдання є скоріше ілюстративним. На практиці цивільні вчені могли б створити власний набір даних відомих нейропротекторних сполук проти контрольних і слідувати цьому шаблону.)
2.4 Моделювання генної регуляторної мережі (одноклітинні ГКС)
- Завдання: Визначення регенеративних комбінацій TF. Використовувати дані одноклітинного РНК-секвенування з ГКС для вивчення транскрипційних патернів регенеративного росту. Наприклад, деякі підтипи ГКС регенерують краще за інші. Модель МЛ може передбачати мітку “регенеративного стану”, і можна було б дослідити, які фактори транскрипції є важливими.
- Набір даних: Дослідження 2018 року надає одноклітинні транскриптоми ГКС (доступ GEO GSE115404) (pmc.ncbi.nlm.nih.gov), ідентифікуючи різні підтипи ГКС. Ми можемо використовувати цей набір даних (або його підмножину), де клітини позначені за підтипом або за експериментальною умовою (наприклад, до- або після пошкодження).
- Модель: Невеликий трансформер або MLP, що працює з векторами експресії генів (кожна клітина має тисячі генних надлишків). Практично, потрібно попередньо вибрати близько ~500 генів (наприклад, сильно варіабельні гени).
train.pyможе реалізувати міні-трансформер (наприклад, 4 шари, вбудовування 256) або простий 2-шаровий перцептрон. - Метрика: Якщо використовується некерований аналіз, можна використовувати коефіцієнт силуету, але простіше, якщо маркувати клітини як “регенеруючі” проти “нерегенеруючих” (якщо мітки існують), використовувати точність/AUC класифікації.
- Приклад
program.md:"Мета: Створити модель, що розрізняє регенеруючі та нерегенеруючі профілі генної експресії ГКС. Почати з 3-шарового трансформера. Агент може змінювати розмір вбудовування, глибину, швидкість навчання або додавати пакетну нормалізацію. Оптимізувати точність валідації." Після запусків, вагові коефіцієнти уваги або вивчені ознаки найкращої моделі можуть виділити ключові фактори транскрипції для експериментів.
2.5 Аналіз електрофізіологічного сигналу
- Завдання: Виявлення субклінічної дисфункції ГКС за допомогою ЕРГ. Патерн електроретинограми (pERG) або інші електрофізіологічні сигнали можуть свідчити про здоров'я ГКС. Наприклад, затримка або зниження ЕРГ-відповідей може передувати дефектам поля зору. Ми можемо спробувати класифікувати сигнали як “нормальні” проти “підозри на глаукому”.
- Набір даних: Публічні набори даних ЕРГ при глаукомі рідкісні. Можна використовувати сурогат: набір даних від тварин (дегенерація сітківки) або синтетичні сигнали. Якщо недоступні, навіть загальні 1D електрофізіологічні набори даних (наприклад, ЕКГ) могли б ілюструвати конвеєр.
- Модель: 1D CNN (наприклад, 2 згорткові шари, за якими слідує FC) на даних часових рядів. Альтернативно, LSTM можна використовувати, якщо послідовності довші.
- Метрика: Точність або AUC у класифікації тонкої дисфункції проти норми. Можливо F1, якщо класи незбалансовані.
- Приклад
program.md:"Мета: Максимізувати точність валідації для класифікації ЕРГ-слідів (здоровий проти ранньої глаукоми). Використовувати 1D CNN. Агент може регулювати розміри фільтрів, крок або додавати рекурентний шар. Зберігати будь-які зміни, які покращують точність."
2.6 Видобуток літератури (генерування гіпотез)
- Завдання: Тонка настройка невеликої мовної моделі для виявлення нових ідей. З тисячами дослідницьких робіт з глаукоми в PubMed, агент МЛ міг би шукати зв'язки або перепрофілювати кандидатів. Наприклад, зв'язати нейропротекторні шляхи з існуючими ліками. Ми можемо розглядати це як проблему мовного моделювання або як проблему вилучення.
- Набір даних: Скласти корпус рефератів, пов'язаних з глаукомою (наприклад, використовувати пошук PubMed для “glaucoma gene therapy” тощо). Можна завантажити близько 10 000 рефератів через NCBI API. Для простішого початку використовувати статті відкритого доступу PMC про глаукому.
- Модель: Невелика трансформерна мовна модель (наприклад, 6-шаровий GPT-2) або навіть BERT з тонкою настройкою. Для цілей autoresearch ми, ймовірно, будемо тонко налаштовувати причинну модель (GPT) на тексті.
- Метрика: Стандартно оптимізується втрата валідації (перплексія). Якщо проводиться класифікація (наприклад, за даним рефератом передбачити мітку для ліків або шляху), використовувати точність/AUC.
- Приклад
program.md:"Мета: Мінімізувати перплексію валідації невеликого GPT-2 на корпусі літератури про глаукому. Використовувати 5-хвилинні цикли тонкої настройки. Агент може змінювати кількість шарів, прихований розмір, швидкість навчання, довжину контексту. Зберігати зміни, які зменшують перплексію." Після навчання цю модель можна пропонувати для генерування гіпотез (наприклад, “Найкращі кандидати на повторне використання ліків для нейропротекції при глаукомі: ...”).
У кожній з цих областей ключовим є те, що одна відеокарта та короткі запуски дозволяють провести багато випробувань. Ми не очікуємо, що агент буде кодувати нові алгоритми з нуля, а лише налаштовувати існуючий скрипт навчання. Роль людини полягає в написанні program.md для направлення пошуку агента до мети, специфічної для глаукоми (наприклад, максимізація AUC на наборі даних фундуса або прогнозування товщини ШНВС). Наведені вище приклади ілюструють, як train.py може бути налаштований спочатку та як program.md пропонує покращити обрану метрику (medium.com) (www.theneuron.ai).
3. Практичний посібник з впровадження громадянської науки
Як мотивовані особи з обмеженими ресурсами (наприклад, одна RTX 3060 або MacBook з Apple Silicon) можуть реально застосувати autoresearch до проблем глаукоми? Добра новина полягає в тому, що репозиторій Карпаті невеликий і містить рекомендації щодо зменшення масштабу. Ось ключові кроки та поради:
-
Налаштування середовища: Клонуйте репозиторій karpathy/autoresearch. Вам знадобиться сучасний Python та, в ідеалі, доступ до LLM (сам агент зазвичай є попередньо навченою LLM, такою як GPT-4 або Claude, яка редагує код). Для графічних процесорів встановіть PyTorch з належною підтримкою CUDA/metal. Для Apple Silicon використовуйте один з форків (наприклад, MLX) або збірку PyTorch для M1/M2 (див. документацію репозиторію). На Windows/Linux з 3060 або 4070 працює звичайний PyTorch CUDA.
-
Налаштування для малої відеокарти: За замовчуванням autoresearch використовує модель типу GPT з ~50 мільйонами параметрів і послідовності довжиною 1024 (medium.com), що може бути важко. Для GTX 3060 (12 ГБ) слід зменшити розмір моделі та довжину послідовності. У
train.pyвстановітьMAX_SEQ_LEN=512або навіть256. Зменшіть кількість шарів та ширину (середній GPT має ~8 шарів; спробуйте 4 шари, 256 ширини). Інструкції в спільноті згадують зниження “DEPTH”, “WIDTH” тощо. Ви також можете зменшити пам'ять оптимізатора, використовуючи менші розміри пакетів (навіть 16 або 8). Агент все ще може змінювати ці параметри, але надання йому меншої початкової точки гарантує, що запуски займатимуть менше 5 хвилин. README та обговорення проблем на autoresearch GitHub також зазначають, що чіпи Mac M1 можуть обробляти коротші послідовності (наприклад, 256 токенів) через обмежену пам'ять; подібне масштабування застосовується до будь-якої відеокарти. -
Підготовка даних про глаукому: Дані для кожного завдання повинні бути завантажені та розділені. Публічні набори даних про глаукому включають:
- Набори даних фундуса: ORIGA(-light) (650 маркованих зображень (pubmed.ncbi.nlm.nih.gov)), RIM-ONE DL (485 зображень із сегментацією диска/чашки (github.com)), REFUGE (1200+ зображень, з розділенням на навчальні/тестові (refuge.grand-challenge.org)), новий набір даних Гіллеля Яффе з глаукоми (HYGD) з ~1200 зображеннями фундуса та високоякісними мітками (physionet.org). EyePACS/AIROGS (десятки тисяч зображень сітківки) також є загальнодоступними після реєстрації (наприклад, Kaggle).
- Набори даних ОКТ: SYN-OCT (200 тис. синтетичних B-сканувань з масками ШНВС (www.nature.com) (www.nature.com)), OCTDL (2064 зображення різних захворювань сітківки (www.nature.com)), та інші з публічних конкурсів.
- Дані поля зору: GRAPE (263 ока, поздовжні дані ПЗ плюс зображення (www.nature.com)). UWHVF (28 тис. тестів ПЗ) відкритий, якщо завантажити з репозиторію Університету Вашингтона (www.nature.com). Деякі конкурси Kaggle включають дані ПЗ.
- Електрофізіологія: Великих відкритих наборів даних ЕРГ про глаукому невідомо, але можна почати з будь-яких доступних даних сигналів норми проти глаукоми.
- Хімічні/генні дані: Стандартні набори даних, такі як MoleculeNet (для сполук) або GEO (для генів), можуть бути перепрофільовані. Наприклад, завантажити необроблені дані GSE115404 (через запит GEO (pmc.ncbi.nlm.nih.gov)) та попередньо обробити їх до матриць експресії.
Для кожного з них вам знадобиться
prepare.py, який завантажує дані та визначаєtrain_set,val_setта функцію оцінки. Шаблон Карпаті очікує, щоprepare.pyвиведе навчальні дані та процедуру оцінки, яка повертає втрати або метрику. Наприклад,prepare.pyдля RIM-ONE може завантажити зображення та CC, позначені як глаукома, розділити їх на папки train/val та визначити функцію, що обчислює валідаційний AUC. Дивіться [14†L71-L79] щодо структури RIM-ONE. -
Адаптація даних для невеликого масштабу: Якщо набори даних великі (як EyePACS або SYN-OCT), ви можете створити “крихітний” набір даних з кількох сотень прикладів (модель все ще може вивчити щось цінне на невеликому корпусі). У репозиторії autoresearch навіть згадується використання крихітних наборів даних у стилі “TinyStories” для роботи на крихітному обладнанні. Наприклад, оберіть 500 зображень з ORIGA (збалансованих) або 1000 полів зору з GRAPE. Аналогічно, для мови можна використовувати підмножину з 5000 рефератів статей PubMed про глаукому. Ключовим є фіксований набір даних, над яким агент ітерує. Переконайтеся, що дані попередньо перемішані та розділені на 80/20, щоб кожен 5-хвилинний запуск бачив один і той же поділ train/val.
-
Стратегії написання
program.md: Спільнота повинна ділитися різними підказкамиprogram.md(як “рецептами”) у системі контролю версій. Кожен файл може кодувати стратегію дослідження. Наприклад, одна стратегія може говорити “збільшити глибину мережі, якщо глибина <6, інакше зменшити швидкість навчання”, тоді як інша може говорити “зосередитися на змінах аугментації даних”. З часом групи можуть порівнювати, які стратегії дали кращі метрики на таблицях лідерів. Хорошийprogram.mdвключає мету (наприклад, максимізувати AUC або мінімізувати валідаційні втрати) та натяки на дозволені мутації (шари, фільтри, LR). LLM агента використовує ці інструкції для пропозиції редагувань коду. Зберігайте метрики стандартизованими (наприклад, завжди повідомляйте AUC для завдань класифікації глаукоми), щоб експерименти були порівнянними. -
Співпраця спільноти: Щоб зробити це зусилля масштабованим, спільнота громадянської науки повинна організуватися:
- Спільні журнали експериментів: Публікуйте результати кожного експерименту (наприклад, “Запуск №27 програми-v1 досяг Val AUC=0.82 з шириною=4, глибиною=3”).
- Стандартизовані метрики: Визначте метрики для кожного завдання: наприклад, “OCT glaucoma AUC”, “VF progression AUC”, “Attribute AUC” тощо. Спільна таблиця лідерів (подібна до val_bpb autoresearch) може відстежувати найкращі результати. Наприклад, Slack або GitHub Actions можуть щотижня збирати найкращий AUC кожного агента.
- Версіонований
program.md: Розмістіть усіprogram.mdу репозиторії GitHub. Учасники можуть створювати форки та пропонувати нові стратегії (через запити на злиття), зберігаючи історичні версії. Таким чином, можна тестувати кілька підходів паралельно (наприклад, “program_word2vec.md” проти “program_transformer.md”). - Обмін даними та кодом: Використовуйте публічні репозиторії або ноутбуки для скриптів підготовки даних, та діліться модифікаціями train.py, знайденими агентом (для відтворення у стандартних фреймворках МЛ). Посилання на оригінальні джерела даних (Kaggle, PhysioNet, Zenodo) гарантує, що інші зможуть завантажити ті самі дані.
Знижуючи технічні бар'єри (агент редагує код, користувач редагує інструкції в Markdown) та координуючи зусилля (спільні журнали, таблиці лідерів), цивільні вчені можуть колективно досліджувати вибір гіперпараметрів/моделей для цих проблем МЛ у галузі глаукоми. По суті, вони вкладають людську творчість у визначення цілей, і дозволяють агенту виконувати рутинну роботу зі 100 експериментів за ніч для кожної мети (medium.com) (www.theneuron.ai).
4. Відновлення зору зокрема
Відновлення зору — повернення зору після пошкодження — є особливо захоплюючою ціллю для оптимізації, керованої ШІ. Сучасні дослідження відновлення зору за допомогою ШІ включають сітківкові імплантати, кортикальні протези та оптогенетику. Ось як цикл autoresearch міг би вписатися:
-
Оптимізація кодування візуального протезування: Сучасні протези (сітківкові імплантати або камери, підключені до масивів електродів) намагаються перетворити зображення з камери в електричні патерни стимуляції, які мозок інтерпретує як зір. Проблема полягає в тому, що “пропускна здатність” електродів дуже обмежена (часто лише десятки або кілька сотень точок) (pmc.ncbi.nlm.nih.gov). Модель МЛ (невелика CNN або трансформер) може бути навчена відображати вхідні зображення на ідеальні карти стимуляції, але найкращі гіперпараметри або архітектури для цього перетворення невідомі. Агент autoresearch міг би запустити 100 варіацій моделі “нейронного кодера” за години. Наприклад, налаштувати набір даних пар зображення→стимуляція (або змодельовані фосфени, або дані пацієнтів) і змусити агента оптимізувати мережу кодера, щоб мінімізувати втрати від реконструкції або максимізувати метрику корисності (цілісність контрасту, точність розпізнавання). Агент міг би спробувати додати шари уваги, змінити розміри згортки або налаштувати швидкість навчання. За багато запусків можна було б знайти невеликі мережі, які забезпечують більш помітні протезні виходи. Деякі недавні роботи вже використовують ШІ для вилучення візуальної помітності для протезів (pmc.ncbi.nlm.nih.gov); autoresearch міг би автоматизувати налаштування таких конвеєрів.
-
Патерни оптогенетичної стимуляції: В оптогенетичній терапії ГКС, що вижили, або інші клітини сітківки стають світлочутливими (завдяки введеним генам). Потім вхідні дані з камери повинні бути закодовані в світлові імпульси. І тут знову модель МЛ може контролювати патерни. Можна сформулювати іграшкове завдання: невелика мережа перетворює зображення з камери в карту інтенсивності світла (тих самих розмірів, що й клітини). Метою агента може бути максимізація певної метрики ефективної стимуляції (наприклад, максимізація активації цільових клітин у змодельованій сітківці). Кожне випробування може запускати швидке моделювання реакції. Протягом ітерацій агент може досліджувати тривалість імпульсів або просторові фільтри. Наприклад, регулювання агресивності фільтра високих частот на вхідному сигналі камери може бути корисним для деяких патернів. Справа в тому, що багато аналогових параметрів (ядра фільтрів, нелінійність, кодування часових імпульсів) можуть бути автоматично змінені.
-
Оптимізація імпульсних патернів (ТЕС та імплантати): Навіть не-машинно-навчальні області можуть отримати користь від швидкого пошуку. Наприклад, нещодавнє дослідження (Xie та ін., 2025) виявило, що коротша тривалість імпульсів та впровадження міжфазних інтервалів значно покращили кортикальну активацію для імплантатів сітківки (pmc.ncbi.nlm.nih.gov). Це свідчить про те, що простір параметрів електричної стимуляції має сильні, неінтуїтивні ефекти. Агент autoresearch міг би розглядати параметри протоколу стимуляції (тривалість фази, частота, інтервал) як “параметри мережі” та проводити багато невеликих експериментів (кожен змодельований або емпіричний), щоб максимізувати кортикальну відповідь. Наприклад, налаштувати спрощену електричну модель (або використовувати записані дані викликаних потенціалів) у
prepare.pyта дозволити агенту змінювати параметриtrain.py, такі як час імпульсу, щоб максимізувати визначену амплітуду відповіді. Це схоже на автоматизацію того, що нейробіологи-аматори роблять вручну. -
Розробка вірусних векторів та геометрія скафолду: У більш дослідницькій розробці терапії підхід агента з циклічним перебором також міг би вирішувати біомедичні оптимізації. Наприклад, розробка вірусних капсидів AAV або промоторів для таргетування ГКС могла б керуватися невеликими прогностичними моделями (наприклад, логістичною регресією на ознаках послідовності). Autoresearch міг би неодноразово намагатися модифікувати модель, яка передбачає тропізм або експресію (навчену, наприклад, на невеликих вірусних бібліотеках), щоб покращити це передбачення. Аналогічно, якщо хтось має код симуляції росту нервових скафолдів (для відновлення зорового нерва), агент міг би змінювати геометричні параметри, щоб максимізувати розширення аксонів. Це просунуті завдання, але концептуально вони підходять — “агент як експериментатор” міг би коригувати параметри моделі або симуляції для покращення результатів.
Підсумовуючи, будь-який аспект візуального протезування або відновлення, що ґрунтується на параметризованих алгоритмах, може бути покращений за допомогою швидких ітерацій. Важливо, що обмеження полягає в тому, що для багатьох цих завдань ми зазвичай маємо лише симуляційні дані; фактичне тестування сотень варіантів на пацієнтах неможливе. Але autoresearch може працювати in silico, щоб запропонувати найкращих кандидатів для подальшого клінічного тестування. Як зазначено в огляді протезів, “забезпечення надійного генерування фосфенів у точних місцях… є важливим викликом” і “моделі, керовані ШІ, показали потенціал” у цій галузі (pmc.ncbi.nlm.nih.gov). Autoresearch може значно прискорити пошук найкращих конфігурацій цих моделей ШІ.
5. Перехід до клінічного впливу
Обчислювальні результати зрештою повинні бути пов'язані з реальними дослідженнями та доглядом за глаукомою. Як ідеї, згенеровані пацієнтським autoresearch, можуть бути валідовані та просунуті?
-
Співпраця з дослідницькими групами: Цивільні вчені повинні звертатися до існуючих дослідницьких консорціумів з глаукоми. Приклади включають International Glaucoma Genetics Consortium (IGGC) та консорціум NEIGHBORHOOD, які об'єднують генетичні та клінічні дані (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Результати autoresearch (наприклад, нова гіпотеза щодо кандидатного гена або перепрофілювання ліків) можуть бути передані таким групам для експериментального подальшого дослідження. Лабораторії тканинних культур (наприклад, у великих університетах) або дослідники сну можуть тестувати сполуки на виживання ГКС. Академічні клініцисти можуть корелювати будь-який біомаркер або класифікатор зображень зі своїми даними пацієнтів відповідно до IRB. Започаткування діалогу між групами хакатонного типу та офіційними лабораторіями є ключовим.
-
Залучення організацій захисту пацієнтів: Групи, такі як Glaucoma Research Foundation або Cure Glaucoma Foundation, часто фінансують інновації, орієнтовані на пацієнтів. Вони могли б спонсорувати пілотні проекти або громадянські конкурси з використанням autoresearch. Ці організації мають мережі клініцистів і могли б допомогти направити перспективні модельні підказки до клініки. Наприклад, якщо агент позначає існуючий препарат, схвалений FDA, як нейропротекторний, група захисту може допомогти в організації невеликого випробування за належними протоколами. Висвітлення успіхів вимагатиме формулювання результатів як гіпотез (не медичних порад) та забезпечення прозорості.
-
Етичні та безпекові запобіжники: Цивільні вчені повинні використовувати лише знеособлені публічні дані або повністю синтетичні дані. Будь-яке використання фактичних записів пацієнтів вимагає протоколу, затвердженого IRB (та, ймовірно, згоди пацієнта). Результати циклів autoresearch повинні бути чітко позначені як генеруючі гіпотези. Наприклад: “Ця модель припускає, що Препарат X може захищати ГКС – потрібна експериментальна перевірка.” Критичні медичні рішення повинні залишатися за лікарями. Ризики включають ненавмисне розповсюдження моделей, що передбачають особисті результати (прогресування глаукоми) – необхідні чіткі застереження, щоб не розглядати їх як діагностичні інструменти. Кращі практики конфіденційності даних (наприклад, використання агрегованих або анонімізованих полів) є обов'язковими.
-
Прецеденти в громадянській науці: Внесок аматорів у медичні/нейронаукові дослідження не є безпрецедентним. Проект Eyewire (гра MIT з краудсорсингового картографування нейронів) мобілізував волонтерів для реконструкції нейронних ланцюгів сітківки (www.citizenscience.gov). В офтальмології неексперти допомагали анотувати зображення в конкурсах, фінансованих OpenAI (наприклад, марковані набори даних для захворювань очей). За межами офтальмології ігри, такі як Foldit (головоломки зі згортання білків) та Galaxy Zoo (класифікація галактик), показують, що участь громадян може вирішувати складні наукові проблеми. Ці успіхи підтверджують ідею, що багато рук (а тепер і ШІ) дійсно можуть допомогти у складних дослідженнях. Підхід autoresearch схожий на надання кожній людині лабораторного асистента на основі ШІ: попередні краудсорсингові зусилля використовували лише людей для аналізу фіксованих завдань, тоді як тут людина встановлює мету, а ШІ виконує ітерації.
Будучи прозорою, обережною та співпрацюючою, ініціатива громадянської науки autoresearch може завоювати довіру. Вона повинна наголошувати на “генеруванні підказок, а не приписів”. Якщо спільнота документує методи та відкрито ділиться кодом, професійні дослідники зможуть відтворити результати. Наприклад, якщо хтось знайде нову комбінацію ГКС-захисних факторів, він може опублікувати її в препринті або повідомити лабораторію. Посилання в стилі цитувань (як ми робимо тут) допомагають встановити зв'язок: наприклад, “Ми розглянули ваш список кандидатних препаратів у контексті відомих шляхів (pmc.ncbi.nlm.nih.gov).” Зрештою, це форма відкритої науки – керована пацієнтами, але науково обґрунтована. Якщо дотримуються етичні стандарти, такі низові інновації мають великий потенціал для започаткування нової співпраці та, зрештою, для включення в рецензовані офтальмологічні дослідження.
6. Конкретний 90-денний план дій
Сфокусований, обмежений за часом план може об'єднати спільноту з 10–50 людей (кожен з яких має принаймні одну відеокарту або Apple Silicon) для запуску ініціативи Autoresearch для глаукоми. Ось запропонований поетапний план:
-
1–2 тиждень: Формування та налаштування
- Набір та початок: Створіть канал комунікації (наприклад, Slack або Discord) та репозиторій GitHub для проєкту. Оприлюдніть інформацію на форумах пацієнтів з глаукомою, у групах біохакерів та на AI-зустрічах.
- Перевірка обладнання: Переконайтеся, що кожен може встановити PyTorch та клонувати репозиторій Карпаті (або форк Maple). Проведіть сесію налаштування, де кожен учасник запускає приклад циклу autoresearch на іграшковому наборі даних (наприклад, підмножина CIFAR-10), щоб перевірити середовище.
- Вибір набору даних: Вирішіть 1–3 початкові завдання (наприклад, класифікація ОКТ, прогресування ПЗ). Для кожного призначте невелику команду для підготовки даних: наприклад, одна команда завантажує зображення RIM-ONE (github.com), інша отримує поля GRAPE (www.nature.com), ще одна збирає літературні реферати. Команди повинні розділити дані 80/20 та створити заготовки
prepare.py. - Базові моделі: Для кожного завдання остаточно визначте простий
train.py: наприклад, невелика CNN для RIM-ONE, MLP для ПЗ. Виберіть метрики оцінки (AUC, Дайса, MSE). - Початкова розробка
program.md: Кожна команда пише початковий файл інструкцій (program.md), який визначає мету та дозволені зміни. Наприклад, для RIM-ONE: “максимізувати AUC виявлення глаукоми,” для GRAPE: “мінімізувати MSE ПЗ.”
-
3–6 тиждень: Перші експериментальні цикли
- Запуск циклів Autoresearch: Кожна підгрупа запускає агента для свого завдання на ніч (приблизно 100 5-хвилинних запусків). Використовуйте один program.md для початку, потім дозвольте учасникам додавати варіації (наприклад, “program_temp1.md”).
- Збір результатів: Щоранку команди перевіряють журнали (репозиторій автоматично реєструє кожен запуск). Записуйте найкращу досягнуту метрику, параметри моделі на той час та будь-які помітні зміни, знайдені агентом. Для прозорості завантажуйте ці результати в спільний GitHub (можливо, у CSV або JSON).
- Ітерація та зворотний зв'язок: Порівнюйте запуски. Чи перевершила якась стратегія базову значно? Якщо підгрупа бачить невеликий прогрес, вони повинні змінити program.md (наприклад, бути більш агресивними зі змінами швидкості навчання). Кожні вихідні синтезуйте висновки на зустрічі спільноти.
- Інструменти: Використовуйте Git для контролю версій program.md та шаблонів коду. Розгляньте спільну таблицю Google Sheet або вікі-таблицю для таблиць лідерів (наприклад, “OCT-AUC: найкращий=0.85 від Аліси; VF-RMSE: найкращий=2.1 від Боба”). Це мотивує здорову конкуренцію та прозорість.
-
7–12 тиждень: Удосконалення та поширення
- Удосконалення експериментів: На основі ранніх результатів удосконаліть перспективні завдання. Наприклад, можливо, класифікатор RIM-ONE досяг 0.90 AUC — тепер спробуйте додати аугментацію даних або трохи глибшу мережу. Заохочуйте розгалуження: деякі можуть спробувати різні архітектури (наприклад, Vision Transformer tiny замість CNN). Агенти можуть запускати кілька варіантів
program.mdпаралельно. - Синтез результатів: Створіть короткі звіти за кожною областю (ОКТ, ПЗ тощо), підсумовуючи, що спрацювало. Наприклад, “Ми покращили Dice сегментації КГК з 0.60 до 0.75, переключившись з активації ReLU на GELU.” Використовуйте просту мову, щоб нефахівці могли зрозуміти (глосарій термінів МЛ).
- Презентація спільноті: До 10-го тижня напишіть допис у блозі або презентацію, що підсумовує ініціативу на даний момент. Виділіть будь-які нетривіальні висновки (навіть “нульові” результати корисно ділитися). Запросіть зворотний зв'язок з онлайн-форумів; можливо, зв'яжіться з дослідником, запитавши коментарі (“Ми виявили, що X налаштування нейронної мережі допомагають класифікувати ранню глаукому – які є ідеї, чи узгоджується це з фізіологією?”).
- Планування поширення: Визначте одну або дві офтальмологічні лабораторії або клініцистів, зацікавлених у співпраці. Зверніться до них з початковими результатами. Наприклад, зв'яжіться з авторами набору даних HYGD або командою GRAPE у Twitter/LinkedIn, згадайте про свої громадянські висновки. Дослідіть можливості для спільної валідації (наприклад, надішліть їм навчені вагові коефіцієнти моделі для тестування на їхніх даних).
- Удосконалення експериментів: На основі ранніх результатів удосконаліть перспективні завдання. Наприклад, можливо, класифікатор RIM-ONE досяг 0.90 AUC — тепер спробуйте додати аугментацію даних або трохи глибшу мережу. Заохочуйте розгалуження: деякі можуть спробувати різні архітектури (наприклад, Vision Transformer tiny замість CNN). Агенти можуть запускати кілька варіантів
-
Після 12 тижнів: Наступні кроки
- Продовжуйте циклічно працювати над найбільш перспективними та новими завданнями. Наприклад, якщо RIM-ONE дає хороші результати, далі займіться REFUGE. Можливо, створюйте композитні моделі (ансамбль CNN).
- Офіційно оформіть сторінку проєкту або препринт, що описує зусилля.
- Розгляньте можливість організації хакатону для залучення більшої кількості фахівців, можливо, у партнерстві з благодійною організацією з глаукоми.
Таким чином, спільнота може досягати стабільного прогресу, навчатися разом і до кінця 90 днів встановлювати зв'язки з експертами.
7. Ризики, обмеження та чесна оцінка
Ідея autoresearch для глаукоми є амбітною, тому вимагає чесності щодо потенційних підводних каменів:
-
Ризик перенавчання та хибних закономірностей: Невеликі моделі на малих, шумних наборах даних часто чіпляються за випадковості. Агент може знайти налаштування, яке покращує AUC валідації просто шляхом перенавчання на ідіосинкразіях. Наприклад, якщо підмножина зображень мала непомітну анотаційну позначку, мережа могла б використовувати її замість справжніх ознак глаукоми. Це призводить до “обману градієнтного спуску”. Для пом'якшення:
- Завжди використовуйте відкладені тестові набори (повністю відокремлені від будь-якої настройки) для остаточної оцінки.
- Обмежуйте складність: зберігайте моделі скромними та стежте, чи не занадто сильно агент поглиблює або розширює мережу без причини.
- Якщо модель досягає майже ідеального результату занадто швидко, поставте це під сумнів.
- Використовуйте перевірки на адекватність: наприклад, перемішайте мітки та подивіться, чи падає AUC до випадкового значення (якщо ні, є витік).
-
Упередженість та якість даних: Публічні набори даних про глаукому часто походять з вузьких популяцій (наприклад, ORIGA із Сінгапуру) (pubmed.ncbi.nlm.nih.gov). Модель, налаштована на них, може не узагальнюватись. Громадянські експерименти повинні враховувати це обмеження. В ідеалі, для перевірки надійності висновків використовуються кілька наборів даних (з різних когорт).
-
Хибні сліди (“Театр досліджень”): Проведення безлічі експериментів здається продуктивним, але якщо кожне покращення відбувається лише на синтетичних або тривіальних наборах даних, це може не принести користі пацієнтам. Щоб цього уникнути:
- Зосередьтеся на завданнях, що мають клінічну значущість (наприклад, раннє виявлення за рутинною ОКТ).
- Пов'язуйте результати з реальними вимірами, коли це можливо (наприклад, AUC для прогресії, а не просто крихітна дельта втрат).
- Пріоритизуйте інтерпретованість: якщо агент “знаходить” новий біомаркер, спробуйте переконатися, що він має сенс (наприклад, чи він зосереджений на відомих анатомічних змінах?).
-
Без клінічної гарантії: Повинно бути абсолютно чітко: результат цих циклів є генеруванням гіпотез, а не медичною порадою. Модель, що пропонує новий препарат, повинна бути перевірена в лабораторії до будь-якого використання пацієнтом. Завищені твердження небезпечні. Позначайте всі спільні результати застереженнями: “Це дослідження за допомогою ШІ, а не рецензований результат.”
-
Обмеження “малої моделі”: Дуже невеликі мережі мають обмежену потужність. Вони можуть пропустити складні закономірності. На відміну від цього, великі моделі часто досягають проривів, але вимагають величезних даних. Тут ми приймаємо обмежений обсяг: сподіваємося, що навіть невеликі покращення можуть спрямувати дослідження. Але ми не повинні очікувати, що ці моделі замінять глибоке навчання на масивних даних. Вони найкраще підходять для швидкого випробування очевидних ідей.
-
Надійність агента: Агент (наприклад, GPT-4) може галюцинувати або відхилятися. Важливо, щоб результати були відтворюваними: після запуску агента людина повинна перевірити, які зміни були збережені, та повторно запустити навчання, щоб підтвердити метрику. Зберігайте чесність агента, включаючи в
program.mdтакі твердження, як “приймати лише фактичні покращення в метриці оцінки”.
Незважаючи на ці виклики, ключовим запобіжником є прозорість та критичний подальший аналіз. Документуйте все. Коли модель показує закономірність, перевірте її. Якщо багато громадянських вчених бачать ту саму аномалію (наприклад, всі моделі з високим AUC для завдання ОКТ підкреслюють назальну область сітківки), це посилює аргумент. Мета полягає в прискоренні фази генерування ідей, а не уникненні ретельної науки згодом.
Висновок
Глаукома — це складне, тихе захворювання, що призводить до сліпоти, з багатьма незадоволеними потребами в дослідженнях — від захисту нейронів до відновлення зору. Водночас ШІ демократизував експериментування: одна людина з відеокартою та певною рішучістю може проводити автоматизований пошук гіперпараметрів, який вручну зайняв би команди тижні. Фреймворк autoresearch Карпаті, по суті, надає кожному громадянину лабораторного асистента зі штучним інтелектом. Пишучи чіткі високорівневі цілі в Markdown, дослідники спільноти можуть дозволити агенту обробляти продукти та відразу переходити до перспективних напрямків.
Ми окреслили, як це можна зробити на практиці: ідентифікація завдань МЛ з глаукоми, вибір даних (зображення фундуса та ОКТ, поля зору, молекулярні набори даних), визначення моделей та метрик, а також використання програмних інструкцій для керівництва пошуком. Ми накреслили 90-денний план дій для спільноти та відзначили мости до клініцистів, щоб забезпечити, що цінні результати можуть інформувати фактичну науку про глаукому. Цей підхід є справжньою “громадянською наукою”: відкриття інструментів наукового дослідження в доступний спосіб, при цьому покладаючись на експертний нагляд, де це важливо.
Цитати: Ми посилалися на найновіші ресурси як у дослідженнях глаукоми, так і в галузі ШІ. Ключові факти (поширеність захворювання, половина недіагностованих (physionet.org)), перспективні терапії (імплантати CNTF (pmc.ncbi.nlm.nih.gov), генне редагування (pmc.ncbi.nlm.nih.gov)), та сумнівні підводні камені (ШІ у візуалізації (pmc.ncbi.nlm.nih.gov)) ґрунтуються на сучасній літературі. Сам autoresearch описаний у покроковому посібнику Карпаті (medium.com) та огляді (www.theneuron.ai). Це має надати довіри викладеній тут візії.
Зрештою, ми сподіваємося, що читач відчує себе наділеним повноваженнями: якщо ви пацієнт, доглядальник або пристрасний аматор, ви можете стати частиною просування досліджень глаукоми. Інструменти та дані існують, проблеми зрозумілі, і завдяки координації та агенту ШІ ми можемо прискорити навчання. Як і в будь-якому дослідженні, подорож матиме хибні старти, але навіть невдачі чогось нас вчать — часто спрямовуючи людський розум до правильних підходів. З широко відкритими очима як на можливості, так і на підводні камені, autoresearch, керований громадянами, може стати потужним доповненням до традиційної науки про глаукому.
Почніть тут
Найпростіший спосіб зануритися в Autoresearch для глаукоми сьогодні: Запустіть крихітну класифікацію на зображеннях фундуса ORIGA.
-
Отримайте дані: Завантажте набір даних ORIGA-light (650 зображень сітківки фундуса, позначених як норма проти глаукоми) (pubmed.ncbi.nlm.nih.gov). Розділіть приблизно 80% для навчання / 20% для валідації.
-
Початкова модель: Використайте або адаптуйте зразковий скрипт з [karpathy/autoresearch] для класифікації зображень. Наприклад, невеликий фрагмент коду для завантаження зображень ORIGA та навчання невеликої CNN (2–3 згорткові шари) для розрізнення глаукоми від здорового ока.
-
Напишіть
program.md: У тексті встановіть мету “максимізувати AUC валідації для виявлення глаукоми” та проінструктуйте агента, що він може змінювати глибину моделі, швидкість навчання тощо. Наприклад:Мета: Максимізувати AUC на даних глаукоми проти норми для набору даних ORIGA.
Агент повинен спробувати налаштувати розміри згорткових шарів, кількість фільтрів та швидкість навчання. Кожне випробування триває 5 хвилин навчання. Якщо AUC валідації покращується, зберегти зміну. Повторити.
-
Запустіть цикл: Запустіть autoresearch (направте його на ваші
prepare.py,train.pyтаprogram.md). Дозвольте йому працювати кілька годин або на ніч на вашому RTX 3060. Він автоматично виконає близько 100 експериментів. -
Перевірте результати: Перевірте консоль або журнал, щоб побачити найкращий досягнутий AUC валідації (повинен бути >0.8, якщо все пройшло добре). Тепер у вас є модель та скрипт навчання, які ШІ-агент удосконалив.
Цей простий експеримент вихідного дня вже дає вам безпосередній досвід створення конвеєра МЛ без ручного написання нового коду. Документуйте, що ви пробували, та діліться своїм program.md та результатами зі спільнотою. Кожен маленький успіх (збільшення AUC, цікаві зміни в мережі) є будівельним блоком. Ви буквально інструктуєте ШІ проводити дослідження щодо обраної вами проблеми глаукоми — і таким чином ви вивчаєте як науку про дані глаукоми, так і маєте надію зробити внесок у розуміння або лікування втрати зору.
Успіхів! Тримайте запитання та знахідки відкритими, і пам'ятайте: це інструменти для дослідницької іграшки, а не медична порада. Уважно перевіряйте свої запуски та насолоджуйтесь процесом відкриття.
**`
