Oczy szeroko otwarte: Jak framework *Autobadawczy* Karpathy'ego może zdemokratyzować badania nad jaskrą — Plan działania dla pacjentów, wspierany przez AI, w odkrywaniu metod przywracania wzroku

Oczy szeroko otwarte: Jak framework Autobadawczy Karpathy'ego może zdemokratyzować badania nad jaskrą

Wprowadzenie

Jaskra to przewlekła neuropatia nerwu wzrokowego, która stopniowo niszczy komórki zwojowe siatkówki (RGC) i prowadzi do nieodwracalnej utraty wzroku. Dotyka ona miliony ludzi na całym świecie – szacuje się, że w 2013 roku było to 64,3 miliona osób, a do 2040 roku liczba ta ma wzrosnąć do ponad 110 milionów (physionet.org). Co niepokojące, około połowa wszystkich przypadków pozostaje niezdiagnozowana, dopóki nie rozpocznie się już utrata wzroku (physionet.org). Tradycyjne leczenie jaskry skupia się na obniżaniu ciśnienia wewnątrzgałkowego (IOP) za pomocą leków lub operacji, ale te metody nie mogą odwrócić uszkodzeń ani w pełni zapobiec ślepocie (pmc.ncbi.nlm.nih.gov) (physionet.org). W rezultacie istnieje pilna potrzeba nowych odkryć w obszarach takich jak neuroprotekcja, regeneracja RGC/nerwu wzrokowego oraz innowacyjne terapie genowe i komórkowe. Jednak badania akademickie i farmaceutyczne w tych dziedzinach wciąż borykają się z niedostatecznymi zasobami, częściowo dlatego, że są to długoterminowe, wysokiego ryzyka przedsięwzięcia. Tymczasem postępy w uczeniu maszynowym (ML) i sztucznej inteligencji (AI) umożliwiają nowe podejścia do analizy danych i projektowania generatywnego.

Najnowsze prace (na przykład projekt „autoresearch” Andreja Karpathy'ego (www.theneuron.ai) (medium.com)) sugerują, że agenty AI mogą autonomicznie przeprowadzać setki małych eksperymentów na jednej karcie GPU wyłącznie na podstawie prostych, ogólnych instrukcji. W tym paradygmacie człowiek pisze krótki plik program.md opisujący cel badań, a agent AI iteracyjnie dostosowuje model lub hiperparametry, przeprowadzając 5-minutowe cykle treningowe, zachowując udane zmiany i odrzucając pozostałe (medium.com) (www.theneuron.ai). W ciągu nocy taka pętla może wykonać około 100 eksperymentów, eksplorując przestrzeń architektur i parametrów bez ręcznego kodowania.

Niniejszy artykuł bada, w jaki sposób framework autoresearch Karpathy'ego mógłby być zastosowany w badaniach nad jaskrą przez zmotywowanych pacjentów, opiekunów, naukowców-obywateli i deweloperów open-source. Przedstawimy mało zbadane obszary badań nad jaskrą (neuroprotekcja, regeneracja itp.) i zidentyfikujemy zadania uczenia maszynowego w każdej dziedzinie, gdzie eksperymenty na małych modelach mogłyby być pomocne. Dla każdego zadania sugerujemy konkretne publiczne zestawy danych, bazowe modele/architektury, metryki oceny oraz zarys tego, jak mogłyby wyglądać instrukcje program.md dla agenta. Następnie omówimy praktyczne kroki dla społeczności w celu ustawienia i udostępniania takich eksperymentów, w tym rozważania dotyczące sprzętu, przygotowania danych i platform współpracy. Zbadamy specyficzny kontekst terapii przywracania wzroku i czy pętle w stylu autoresearch mogą przyspieszyć optymalizację protez neuronowych lub innych interwencji. Na koniec omówimy, jak hipotezy generowane przez obywateli mogłyby być walidowane i przekazywane klinicystom, oraz przedstawimy konkretny 90-dniowy plan działania dla uruchomienia inicjatywy autoresearch prowadzonej przez pacjentów – w tym, jak unikać pułapek „teatru badawczego” i zapewnić realny wpływ. Przez cały artykuł powołujemy się na aktualne źródła dotyczące badań nad jaskrą i AI w dziedzinie wzroku, dążąc do wyważonego, realistycznego i przystępnego przewodnika.

1. Krajobraz badań nad jaskrą i niezaspokojone potrzeby

Badania nad jaskrą obejmują wiele frontów – od zrozumienia mechanizmów choroby po opracowywanie nowych terapii w zakresie neuroprotekcji i przywracania wzroku. Wiele obiecujących obszarów jest niedofinansowanych:

Neuroprotekcja: Interwencje, które chronią komórki RGC przed obumieraniem (niezależnie od IOP). Przykładami są czynniki neurotroficzne i wsparcie metaboliczne. Na przykład implanty uwalniające czynnik neurotroficzny rzęskowy (CNTF) wykazały potencjał we wczesnych badaniach (pmc.ncbi.nlm.nih.gov), a inne cząsteczki, takie jak czynnik wzrostu nerwów i cytykolina, są badane (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Jednak nie są to jeszcze standardowe metody leczenia, a potrzeba więcej pracy, aby przetransponować je na pacjentów. Recenzja z 2025 roku ostrzega, że terapie neuroprotekcyjne w jaskrze są „leczeniem przyszłości”, wymagającym dalszych badań (pmc.ncbi.nlm.nih.gov), co odzwierciedla niezaspokojoną potrzebę.
Regeneracja RGC i regeneracja nerwu wzrokowego: Kiedy komórki RGC i ich aksony obumierają, współczesna medycyna nie ma sposobu, aby to odwrócić. Niektóre badania na zwierzętach wykorzystują terapie genowe do przeprogramowania RGC lub stymulacji odrostu. Na przykład, represja PTEN oparta na CRISPR (negatywnego regulatora wzrostu) promowała odrost aksonów w komórkach nerwowych szczurów (pmc.ncbi.nlm.nih.gov), a eksperymenty z współdelecja PTEN i SOCS3 doprowadziły do trwałej regeneracji nerwu wzrokowego u myszy (pmc.ncbi.nlm.nih.gov). Jednak te przełomy pozostają w modelach laboratoryjnych. Podstawowa biologia – np. jak odtworzyć rozwój siatkówki lub ominąć inhibitory wzrostu – jest złożona. Istnieje ogromne zapotrzebowanie na modalności (małe cząsteczki, geny, biomateriały), które mogłyby stymulować przeżycie RGC lub odrost aksonów, ale postęp w kierunku badań klinicznych jest powolny.
Terapie genowe i komórkowe: Nowe technologie, takie jak CRISPR, wektory wirusowe i RGC pochodzące z komórek macierzystych, niosą nadzieję w leczeniu jaskry. Strategie obejmują edycję genów w celu zmniejszenia IOP (np. poprzez celowanie w produkcję cieczy wodnistej) lub modulowanie szlaków neurodegeneracyjnych (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Komórki macierzyste mogłyby (teoretycznie) zastąpić utracone komórki siateczki beleczkowej lub RGC i wydzielać czynniki ochronne (pubmed.ncbi.nlm.nih.gov). Wczesne prace wykazały, że niektóre czynniki transkrypcyjne (np. Oct4-Sox2-Klf4) mogą przeprogramować inne komórki niż RGC w neurony podobne do RGC u myszy (przywracając wzrok po uszkodzeniu nerwu wzrokowego) (pmc.ncbi.nlm.nih.gov). Jednak te podejścia napotykają wyzwania związane z bezpieczeństwem i dostarczaniem, zanim dotrą do pacjentów. Kilka ostatnich recenzji podkreśla terapię genową jako ekscytującą, ale jeszcze nie kliniczną granicę w leczeniu jaskry (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Podsumowując, innowacje molekularne i komórkowe rozwijają się, ale zasoby i dane z badań są ograniczone – co stwarza okazję do eksploracji obliczeniowej (np. projektowanie optymalnych konstrukcji wirusowych lub przewidywanie skutecznych edycji genów).
Stymulacja elektryczna i optogenetyczna w celu przywracania wzroku: U pacjentów z zaawansowaną jaskrą (lub chorobami łączonymi, takimi jak barwnikowe zwyrodnienie siatkówki), sztuczne protezy wzrokowe lub terapie optogenetyczne mają na celu ominięcie uszkodzonych RGC. Implanty siatkówki (episiatkówkowe lub podsiatkówkowe układy elektrod) i implanty korowe generowały sztuczne wrażenia („fosfeny”), ale rozdzielczość jest niska, a wyniki są bardzo zmienne. Ostatnia recenzja z 2025 roku dotycząca AI w protezach wzrokowych zauważa, że „algorytmy AI wykazują obiecujący potencjał w optymalizacji widzenia protetycznego, szczególnie poprzez ulepszone wydobywanie istotności obrazu i strategie stymulacji,” choć jak dotąd większość badań to symulacje (pmc.ncbi.nlm.nih.gov). Innymi słowy, uczenie maszynowe może pomóc w przekształceniu obrazów z kamery w wzorce stymulacji, które są najbardziej informatywne, biorąc pod uwagę ograniczenia urządzenia. Optogenetyka (uczulanie na światło przeżywających komórek siatkówki) i przezrogówkowa stymulacja elektryczna (TES) są również testowane w przypadku utraty wzroku związanej z jaskrą. Wszystkie te obszary wymagają obszernego dostrajania parametrów (np. wzorców czasoprzestrzennych stymulacji, wektorów ekspresji genów) — zadań potencjalnie odpowiednich do autonomicznego wyszukiwania ML.
Mechanizmy niezależne od IOP: Wiele osób nadal traci wzrok pomimo dobrze kontrolowanego IOP. Czynniki takie jak upośledzony przepływ krwi w oku, dysfunkcja neurokrążeniowa lub stres metaboliczny w głowie nerwu wzrokowego są rozpoznane, ale nie w pełni zrozumiane. Badania genetyczne sugerują znaczące „niezależne od IOP” składniki ryzyka jaskry (pubmed.ncbi.nlm.nih.gov) (pubmed.ncbi.nlm.nih.gov). Pilnie potrzebne są biomarkery tych procesów (poza ciśnieniem). Ponadto, połowa pacjentów z jaskrą ma chorobę „normalnego ciśnienia”, co podkreśla, że wysokie IOP nie jest jedynym winowajcą. Badania nad czynnikami naczyniowymi lub innymi drogami uszkodzeń są w toku, ale rozproszone. Modelowanie obliczeniowe lub eksploracja dużych zbiorów danych (np. badania asocjacji całego genomu) mogłyby pomóc w identyfikacji nowych mechanizmów lub celów terapeutycznych w tej dziedzinie.
Odkrywanie biomarkerów za pomocą obrazowania i pól widzenia: Wczesne wykrywanie i monitorowanie jaskry często opiera się na obrazowaniu (zdjęcia dna oka, OCT) i testach funkcjonalnych (pola widzenia). Zaawansowane algorytmy mogłyby odkryć subtelne biomarkery, które pomijają ludzcy klinicyści. Na przykład, głębokie uczenie zaczęło wykrywać przedperimetryczną utratę pola widzenia (zmiany niewidoczne w standardowej analizie pola) (pmc.ncbi.nlm.nih.gov). Podobnie, AI była używana do analizy profili grubości warstw OCT w celu przewidywania jaskry przed widocznym uszkodzeniem. Jednak nie ma jeszcze powszechnie akceptowanych biomarkerów AI, które są klinicznie stosowane do badań przesiewowych lub stratyfikacji ryzyka. Wąskie gardła obliczeniowe obejmują potrzebę dużych, dobrze oznakowanych zbiorów danych i solidnych protokołów walidacji (pmc.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Publiczne wyzwania (REFUGE, AIROGS itp.) zaczęły standaryzować dane, ale pokrycie wczesnego stadium choroby jest niewielkie (pmc.ncbi.nlm.nih.gov). Dalsze, sterowane maszynowo odkrywanie multimodalnych biomarkerów (łączących OCT, pola widzenia, genetykę itp.) pozostaje otwartą granicą.

Gdzie może pomóc ML z małymi modelami? Wiele z powyższych opisuje problemy wysokiego poziomu. Wąskimi gardłami są często niedobór danych, wiele wzajemnie oddziałujących zmiennych i wolno zmieniająca się biologia. Agent autoresearch błyszczy w automatyzacji eksperymentów na małą skalę na dostępnych danych. Na przykład, jeśli istnieje skromny zbiór danych skanów OCT z wczesną jaskrą i bez niej, naukowiec-obywatel może skonfigurować pętlę szybkiego testowania modeli, aby znaleźć, która architektura najlepiej je rozróżnia. Podobnie, małe transformatory na danych genomicznych lub literaturze mogłyby sugerować nowe geny lub kandydatów na leki. Kluczem jest skupienie się na wąskich zadaniach z zdefiniowanymi metrykami (dokładność klasyfikacji, AUC, strata) i szybka iteracja. Obszary z ograniczonymi danymi publicznymi (np. parametry TES lub nowe koktajle genowe) mogą polegać na danych syntetycznych lub zastępczych. W następnej sekcji, mapujemy konkretne zadania ML w jaskrze do podejścia autoresearch.

2. Mapowanie Autobadań na problemy jaskry

Framework autoresearch Karpathy'ego jest agnostyczny domenowo: może przeprowadzać eksperymenty w dowolnym zadaniu ML dostarczonym przez prepare.py i train.py z dobrze zdefiniowaną metryką oceny. Identyfikujemy kilka konkretnych zadań związanych z jaskrą i określamy, jak agent mógłby się z nimi zmierzyć. Każdy przypadek użycia poniżej zawiera: publicznie dostępny zestaw danych (jeśli to możliwe), model początkowy lub architekturę, metrykę oceny oraz szkic instrukcji program.md.

2.1 Analiza obrazów OCT (wykrywanie i segmentacja strukturalna)

Zadanie: Wczesne wykrywanie jaskry ze skanów OCT. Obrazowanie OCT dostarcza przekrojowych widoków warstw siatkówki. Ścieńczenie warstwy włókien nerwowych siatkówki (RNFL) i kompleksu komórek zwojowych (GCC) może poprzedzać utratę pola widzenia. Możemy potraktować to jako zadanie klasyfikacji (jaskra vs zdrowy) lub regresji (np. wyjście grubości RNFL).
- Zestaw danych: Niedawno opublikowany SYN-OCT (www.nature.com), to syntetyczny zestaw 200 000 okołopapilarnych obrazów OCT (100 tys. jaskra, 100 tys. normatywne) wygenerowanych przez GANy. Każdy obraz ma przypisaną grubość RNFL i maski segmentacji. Są one publicznie dostępne na Zenodo (www.nature.com). (Choć syntetyczne, są statystycznie walidowane, aby naśladować prawdziwe OCT (www.nature.com).) Alternatywnie można by użyć zestawu danych OCT-DL (www.nature.com) (2064 obrazy różnych chorób siatkówki) lub mniejszych klinicznych kolekcji OCT.
- Model: Zacznij od małej konwolucyjnej sieci neuronowej (CNN). Do klasyfikacji, model z ~3–5 warstwami konwolucyjnymi (np. analogiczny do obciętego ResNet-18 lub niestandardowa mała CNN) może działać. Do segmentacji RNFL/GCC, odpowiedni jest enkoder-dekoder, taki jak mały U-Net (o głębokości 3–4). Początkowy train.py mógłby implementować prostą CNN i pętlę treningową z domyślnymi hiperparametrami.
- Metryka: Jeśli wykonuje się klasyfikację jaskry na OCT, użyj AUC (Area Under ROC) lub dokładności na podziale walidacyjnym. Do segmentacji, użyj współczynnika Dice'a lub IoU na maskach warstwy RNFL (SYN-OCT dostarcza maski (www.nature.com))).
- Przykładowy program.md:
  
  "Cel: Zmaksymalizować walidacyjne AUC dla wykrywania jaskry z obrazów OCT. Dozwolone modyfikacje: liczba warstw konwolucyjnych, liczba filtrów, rozmiary jader, funkcje aktywacji, szybkość uczenia, wybór optymalizatora, rozmiar partii itp. Po każdym 5-minutowym cyklu treningowym, oceń AUC na zbiorze testowym. Jeśli AUC się poprawi, zachowaj zmianę; w przeciwnym razie przywróć." (medium.com) (www.theneuron.ai). Agent będzie w ten sposób próbował wariantów (np. dodawanie warstw, dostosowywanie szerokości, przełączanie z Adam na RMSProp) w celu poprawy AUC.
Zadanie: Segmentacja warstw RNFL/GCC. Precyzyjne mierzenie grubości RNFL jest kluczowe. Używając syntetycznych skanów OCT (z dostarczonymi segmentacjami) lub dowolnego rzeczywistego OCT z adnotacjami warstw, można to sformułować jako zadanie segmentacji.
- Zestaw danych: SYN-OCT ponownie dostarcza maski segmentacji RNFL (www.nature.com). Inne źródło: niektóre grupy akademickie oznaczyły skany OCT B (choć często są one zastrzeżone). W razie potrzeby można użyć ogólnych zestawów danych do segmentacji OCT (takich jak Duke retina OCT fluid challenge (www.nature.com)) jako pośredników.
- Model: Mała sieć CNN typu U-Net, być może nawet z obciętymi kanałami w stosunku do bazowego modelu. Np. użyj 3 bloków w dół/w górę, zaczynając od 16 filtrów. Agent może zmieniać głębokość i szerokość.
- Metryka: Wynik Dice'a lub średnie IoU przewidywanej maski RNFL w porównaniu z prawdą.
- Przykładowy program.md:
  
  "Cel: Zmaksymalizować wynik Dice'a dla segmentacji warstwy RNFL na OCT. Model bazowy to 3-blokowy U-Net. Agent może zmieniać liczbę filtrów, dodawać dropout lub zmieniać szybkość uczenia. Trenuj przez 5 minut każdą próbę i oblicz Dice na walidacji. Zachowaj modyfikacje, które zwiększają Dice'a."
Zadanie: Przewidywanie progresji za pomocą seryjnego OCT. Używając sekwencyjnego OCT, przewiduj przyszłe ścieńczenie. Jeśli istnieją podłużne dane OCT (np. UK Biobank lub prywatne dane kliniczne), celem może być przewidywanie zmiany RNFL lub binarna etykieta „szybki postęp”.
- Zestaw danych: Publiczne, podłużne dane OCT specyficzne dla jaskry są rzadkie. Można by jednak wykorzystać dane z wyzwania SR OCT (lub obrazy SYN-OCT z symulowaną progresją), aby zasymulować to zadanie. Alternatywnie, użyj obrazów OCT z UK Biobank (choć nie są specyficzne dla jaskry i nie są łatwo dostępne dla naukowców-obywateli). Dla ilustracji, załóżmy zestaw danych skanów OCT w czasie 0 i czasie 1 z etykietami.
- Model: Sieć syjamska lub skonkatenowana CNN przyjmująca pary obrazów OCT, wyprowadzająca prawdopodobieństwo progresji. Zacznij od podania czasu 0 i przewidywania odcięcia czasu 1.
- Metryka: AUC dla binarnej klasyfikacji progresji lub MSE, jeśli próbujesz przewidzieć zmianę grubości.
- Przykładowy program.md:
  
  "Cel: Zidentyfikować oczy, które będą miały szybką utratę RNFL. Wejście: bazowe OCT; etykieta: >5μm ścieńczenie po 1 roku. Używamy klasyfikatora CNN. Dozwolone zmiany obejmują głębokość sieci, szybkość uczenia, wzmocnienie danych. Użyj walidacyjnego AUC jako metryki."

2.2 Analiza pola widzenia (VF)

Zadanie: Przewidywanie przyszłej utraty pola widzenia. Biorąc pod uwagę jeden lub więcej wcześniejszych testów pola widzenia Humphrey'a (punktowe wartości czułości), prognozowanie przyszłej czułości lub tempa progresji. Jest to klasyczny problem zarządzania jaskrą.
- Zestaw danych: Zestaw danych GRAPE (www.nature.com) (2023) dostarcza podłużne obserwacje 263 oczu (1115 rekordów) z VF i zdjęciami dna oka/OCT, w tym adnotacje progresji. Innym zasobem jest podłużna baza danych U.S. UH Visual Field (UWHVF) (www.nature.com) (28 943 pól widzenia od wielu pacjentów). Jednak GRAPE jest dobrze przygotowany i publiczny zarówno pod względem VF, jak i wyników.
- Model: Prostym podejściem jest sieć feed-forward (w pełni połączona) na danych VF z 54 punktów (lub skompresowanie do globalnych indeksów). Do przewidywania progresji mniejszy MLP lub 1D-CNN może obsłużyć 54 lub 30 cech wejściowych. Inny pomysł: potraktować siatkę 8×8 jako mały obraz i użyć małej CNN (np. jądra 3×3).
- Metryka: Jeśli przewiduje się przyszłe średnie odchylenie lub wartości punktowe, użyj MSE (niższe jest lepsze). Jeśli klasyfikuje się „szybko postępujący vs nie”, użyj AUC.
- Przykładowy program.md:
  
  "Cel: Zminimalizować MSE przewidywanego pola widzenia. Alternatywnie, zmaksymalizować AUC dla klasyfikacji szybkiej utraty. Model bazowy: 2-warstwowy perceptron na 54 wartościach VF. Agent może dostosować ukryty rozmiar, aktywację lub dodać dropout. Po każdym 5-minutowym treningu, oblicz metrykę na zbiorze walidacyjnym."
Zadanie: Identyfikacja szybko postępujących pacjentów. Używając serii wcześniejszych VF, klasyfikuj, które oczy szybko stracą wzrok.
- Zestaw danych: Użyj adnotowanego statusu progresji w GRAPE (www.nature.com) (oznaczyli oczy jako progresujące). Lub weź UWHVF i oznacz górny decyl utraty MD jako „szybki”.
- Model: Można połączyć cechy z dwóch lub trzech kolejnych pól widzenia (lub różnic) w małą sieć. Ewentualnie uwzględnić bazowe IOP i wiek, jeśli są dostępne.
- Metryka: AUC dla rozróżniania szybko vs wolno postępujących.
- Przykładowy program.md:
  
  "Cel: Zmaksymalizować AUC dla przewidywania szybkiej progresji pola widzenia. Cechy wejściowe: różnice drugiego rzędu VF1 i VF2, plus IOP. Użyj małej sieci FC. Agent może dostroić szerokości warstw, szybkość uczenia, rozmiar partii."

2.3 Skrining leków/związków (odkrywanie kandydatów in silico)

Zadanie: Przewidywanie kandydatów na związki neuroprotekcyjne/regeneracyjne. Użyj ML do znalezienia małych cząsteczek, które mogłyby chronić RGC lub wspierać regenerację. Na przykład, wiele znanych związków (takich jak nikotynamid, walproinian) wykazuje działanie neuroprotekcyjne. Możemy trenować modele, aby rozpoznawać chemotypy skorelowane ze znaną skutecznością, a następnie przeszukiwać przestrzeń chemiczną.
- Zestaw danych: To jest wyzwanie ze względu na brak dedykowanej bazy danych leków na jaskrę. Jako zastępstwo, można by użyć zestawów danych MolNet (np. hamowanie HIV, przepuszczalność BBB) lub dowolnego zestawu danych bioaktywności. Alternatywnie, skompilować listę związków testowanych w modelach uszkodzenia nerwu wzrokowego (z eksploracji literatury) z etykietami. W praktyce można by zacząć od bardziej ogólnej właściwości (np. danych dotyczących penetracji bariery krew-mózg z MoleculeNet).
- Model: Mały transformator lub graficzna sieć neuronowa na ciągach SMILES. Transformator (typu GPT-2) z kilkoma warstwami lub prosta graficzna sieć konwolucyjna (np. 3 warstwy GCN) może być zaimplementowana w train.py.
- Metryka: Jeśli traktujemy to jako klasyfikację (aktywny vs nieaktywny), użyj AUROC. Jeśli przewiduje się powinowactwo lub logP, użyj RMSE.
- Przykładowy program.md:
  
  "Cel: Zmaksymalizować ROC-AUC klasyfikacji dla identyfikacji związków o działaniu neuroprotekcyjnym. Model bazowy: mały transformator na SMILES. Agent może dostosować liczbę warstw transformatora, dropout, szybkość uczenia lub użyć alternatywnych featuracji (np. wejście odcisku palca). Po każdych 5 minutach, oceń AUC na cząsteczkach walidacyjnych."

(Uwaga: Ponieważ publiczne dane dotyczące rzeczywistej neuroprotekcji są rzadkie, to zadanie jest bardziej ilustracyjne. W praktyce naukowcy-obywatele mogliby stworzyć niestandardowy zestaw danych znanych związków neuroprotekcyjnych vs kontrole i postępować według tego wzoru.)

2.4 Modelowanie sieci regulacji genów (jednokomórkowe RGC)

Zadanie: Identyfikacja kombinacji TF o działaniu regeneracyjnym. Użyj danych RNA-seq pojedynczych komórek z RGC, aby poznać transkrypcyjne wzorce wzrostu regeneracyjnego. Na przykład, niektóre podtypy RGC regenerują się lepiej niż inne. Model ML mógłby przewidywać etykietę „stan regeneracyjny”, a następnie można by zbadać, które czynniki transkrypcyjne są ważne.
- Zestaw danych: Badanie z 2018 roku dostarcza transkryptomy pojedynczych komórek RGC (dostęp GEO GSE115404) (pmc.ncbi.nlm.nih.gov), identyfikujące różne podtypy RGC. Możemy użyć tego zestawu danych (lub podzbioru), gdzie komórki są oznaczone podtypem lub warunkiem eksperymentalnym (np. przed- vs po-uszkodzeniu).
- Model: Mały transformator lub MLP działający na wektorach ekspresji genów (każda komórka ma tysiące obfitości genów). W praktyce, wstępnie wybrano by około 500 najlepszych genów (np. genów o wysokiej zmienności). train.py mógłby implementować mini-transformator (np. 4 warstwy, osadzanie 256) lub prosty 2-warstwowy perceptron.
- Metryka: Jeśli używa się analizy nienadzorowanej, można by użyć współczynnika sylwetki, ale prościej, jeśli komórki są oznaczone jako „regenerujące się” vs „nie” (jeśli istnieją etykiety), użyj dokładności/AUC klasyfikacji.
- Przykładowy program.md:
  
  "Cel: Zbudować model rozróżniający regenerujące się a nieregenerujące się profile ekspresji genów RGC. Zacznij od 3-warstwowego transformatora. Agent może zmieniać wymiar osadzania, głębokość, szybkość uczenia lub dodawać batchnorm. Optymalizuj dokładność walidacji." Po uruchomieniu, wagi uwagi najlepszego modelu lub nauczone cechy mogą podkreślić kluczowe czynniki transkrypcyjne do eksperymentów.

2.5 Analiza sygnałów elektrofizjologicznych

Zadanie: Wykrywanie subklinicznej dysfunkcji RGC za pomocą ERG. Wzorcowy elektroretinogram (pERG) lub inne sygnały elektrofizjologiczne mogą ujawnić stan zdrowia RGC. Na przykład, opóźnione lub zmniejszone odpowiedzi ERG mogą poprzedzać defekty pola widzenia. Możemy spróbować sklasyfikować sygnały jako „normalne” vs „podejrzenie jaskry”.
- Zestaw danych: Publiczne zestawy danych ERG w jaskrze są rzadkie. Można by użyć surogatu: zestawu danych od zwierząt (zwyrodnienie siatkówki) lub sygnałów syntetycznych. Jeśli niedostępne, nawet ogólne 1D zestawy danych elektrofizjologicznych (np. EKG) mogłyby zilustrować potok.
- Model: 1D CNN (np. 2 warstwy konwolucyjne, a następnie FC) na danych szeregów czasowych. Alternatywnie, LSTM może być użyte, jeśli sekwencje są dłuższe.
- Metryka: Dokładność lub AUC w klasyfikacji subtelnej dysfunkcji vs normy. Ewentualnie F1, jeśli klasy są niezbalansowane.
- Przykładowy program.md:
  
  "Cel: Zmaksymalizować dokładność walidacji dla klasyfikacji śladów ERG (zdrowy vs wczesny wzorzec jaskrowy). Użyj 1D CNN. Agent może dostosować rozmiary filtrów, krok lub dodać warstwę rekurencyjną. Zachowaj wszelkie zmiany, które poprawiają dokładność."

2.6 Eksploracja literatury (generowanie hipotez)

Zadanie: Dostrojenie małego modelu językowego w celu wydobycia nowych spostrzeżeń. Z tysiącami artykułów badawczych na temat jaskry w PubMed, agent ML mógłby szukać połączeń lub ponownego wykorzystania kandydatów. Na przykład, łączyć szlaki neuroprotekcyjne z istniejącymi lekami. Możemy to potraktować jako problem modelowania języka lub problem wyszukiwania.
- Zestaw danych: Skompiluj korpus abstraktów związanych z jaskrą (np. użyj wyszukiwania PubMed dla „terapii genowej jaskry” itp.). Można pobrać około 10 000 abstraktów za pośrednictwem API NCBI. Dla prostszego startu, użyj artykułów o jaskrze z otwartym dostępem PMC.
- Model: Mały model językowy transformatorowy (np. 6-warstwowy GPT-2) lub nawet dostrojony BERT. Do celów autoresearch prawdopodobnie dostroimy model przyczynowy (GPT) do tekstu.
- Metryka: Standardowo optymalizowana jest strata walidacyjna (perplexity). Jeśli wykonuje się klasyfikację (np. biorąc pod uwagę abstrakt, przewiduj etykietę dla leku lub ścieżki), użyj dokładności/AUC.
- Przykładowy program.md:
  
  "Cel: Zminimalizować walidacyjną perplexity małego GPT-2 na korpusie literatury o jaskrze. Użyj 5-minutowych cykli dostrajania. Agent może zmieniać liczbę warstw, ukryty rozmiar, szybkość uczenia, długość kontekstu. Zachowaj zmiany, które zmniejszają perplexity." Po wytrenowaniu, można poprosić ten model o generowanie hipotez (np. „Najlepsi kandydaci na leki do ponownego wykorzystania w neuroprotekcji w jaskrze: ...”).

W każdej z tych dziedzin kluczowe jest to, że jedna karta GPU i krótkie cykle pozwalają na wiele prób. Nie oczekujemy, że agent zakoduje nowe algorytmy od podstaw, ale że dostosuje istniejący skrypt treningowy. Rolą człowieka jest napisanie program.md, aby pokierować poszukiwaniami agenta w kierunku celu specyficznego dla jaskry (takiego jak maksymalizacja AUC na zestawie danych z dna oka lub przewidywanie grubości RNFL). Powyższe przykłady ilustrują, jak można początkowo skonfigurować train.py i jak program.md zachęca do poprawy wybranej metryki (medium.com) (www.theneuron.ai).

3. Praktyczny przewodnik wdrożeniowy dla nauki obywatelskiej

Jak zmotywowani ludzie z ograniczonymi zasobami (np. pojedyncza karta RTX 3060 lub MacBook z Apple Silicon) mogą faktycznie zastosować autoresearch do problemów jaskry? Dobra wiadomość jest taka, że repozytorium Karpathy'ego jest małe i zawiera wskazówki dotyczące skalowania. Oto kluczowe kroki i wskazówki:

Konfiguracja środowiska: Sklonuj repozytorium karpathy/autoresearch. Będziesz potrzebować nowoczesnego Pythona i idealnie dostępu do LLM (sam agent to zazwyczaj wstępnie wytrenowany LLM, taki jak GPT-4 lub Claude, który edytuje kod). W przypadku kart GPU zainstaluj PyTorch z odpowiednią obsługą CUDA/metal. Dla Apple Silicon użyj jednego z forków (np. MLX) lub kompilacji PyTorch dla M1/M2 (patrz dokumentacja repozytorium). Na Windows/Linux z kartą 3060 lub 4070 działa normalny PyTorch CUDA.
Konfiguracja dla małej karty GPU: Domyślny autoresearch używa modelu typu GPT z około 50 milionami parametrów i sekwencji o długości 1024 (medium.com), co może być obciążające. Dla GTX 3060 (12GB) należy zmniejszyć rozmiar modelu i długość sekwencji. W train.py ustaw MAX_SEQ_LEN=512 lub nawet 256. Zmniejsz liczbę warstw i szerokość (średni GPT ma ~8 warstw; spróbuj 4 warstwy, 256 szerokości). Instrukcje w społeczności wspominają o obniżaniu „DEPTH”, „WIDTH” itp. Możesz również zmniejszyć pamięć optymalizatora, używając mniejszych rozmiarów partii (nawet 16 lub 8). Agent nadal może mutować te parametry, ale podanie mu mniejszego punktu startowego zapewnia, że uruchomienia będą krótsze niż 5 minut. README i dyskusje w issue na autoresearch GitHub również zauważają, że chipy Mac M1 mogą obsługiwać krótsze sekwencje (np. 256 tokenów) z powodu ograniczonej pamięci; podobne skalowanie dotyczy każdej karty GPU.
Przygotowanie danych dotyczących jaskry: Dane do każdego zadania muszą zostać załadowane i podzielone. Publiczne zestawy danych dotyczące jaskry obejmują:
- Zestawy danych z dna oka: ORIGA(-light) (650 oznakowanych obrazów (pubmed.ncbi.nlm.nih.gov)), RIM-ONE DL (485 obrazów z segmentacjami kielicha/tarczy (github.com)), REFUGE (ponad 1200 obrazów, z podziałem na zestawy treningowe/testowe (refuge.grand-challenge.org)), nowy zestaw danych Hillel Yaffe Glaucoma Dataset (HYGD) z około 1200 obrazami dna oka i wysokiej jakości etykietami (physionet.org). EyePACS/AIROGS (dziesiątki tysięcy obrazów siatkówki) jest również publicznie dostępny po rejestracji (np. Kaggle).
- Zestawy danych OCT: SYN-OCT (200 tys. syntetycznych skanów B z maskami RNFL (www.nature.com) (www.nature.com)), OCTDL (2064 obrazy różnych chorób siatkówki (www.nature.com)), i inne z publicznych wyzwań.
- Dane pola widzenia: GRAPE (263 oczy z podłużnymi VF plus obrazy (www.nature.com)). UWHVF (28 tys. testów VF) jest otwarty, jeśli pobierzesz go z repozytorium University of Washington (www.nature.com). Niektóre wyzwania Kaggle zawierają dane VF.
- Elektrofizjologia: Brak dużego otwartego zestawu danych ERG dla jaskry, ale można by zacząć od wszelkich dostępnych danych sygnałów normy vs jaskry.
- Dane chemiczne/genowe: Standardowe zestawy danych, takie jak MoleculeNet (dla związków) lub GEO (dla genów), mogą zostać ponownie wykorzystane. Np. pobierz surowe dane GSE115404 (poprzez zapytanie GEO (pmc.ncbi.nlm.nih.gov)) i wstępnie przetwórz je na macierze ekspresji.
Dla każdego z nich potrzebny jest prepare.py, który ładuje dane i definiuje train_set, val_set oraz funkcję oceny. Szablon Karpathy'ego oczekuje, że prepare.py wygeneruje dane treningowe i procedurę oceny, która zwróci stratę lub metrykę. Na przykład, prepare.py dla RIM-ONE może ładować obrazy i CC oznaczone jako jaskra, dzielić na foldery treningowe/walidacyjne i definiować funkcję obliczającą walidacyjne AUC. REFER to [14†L71-L79] for how RIM-ONE is structured.
Dostosowanie danych do małej skali: Jeśli zestawy danych są duże (jak EyePACS czy SYN-OCT), można je próbować podpróbkować, aby stworzyć „miniaturowy” zestaw danych składający się z kilkuset przykładów (model nadal może nauczyć się czegoś wartościowego na małym korpusie). Repozytorium autoresearch wspomina nawet o używaniu małych zestawów danych w stylu „TinyStories” do uruchamiania na małym sprzęcie. Na przykład, wybierz 500 obrazów z ORIGA (zrównoważone) lub 1000 pól widzenia z GRAPE. Podobnie, dla języka, można użyć podzbioru 5 000 abstraktów z artykułów PubMed dotyczących jaskry. Kluczem jest stały zestaw danych, na którym agent iteruje. Upewnij się, że dane są wstępnie przetasowane i podzielone 80/20, aby każde 5-minutowe uruchomienie widziało ten sam podział na dane treningowe/walidacyjne.
Strategie pisania program.md: Społeczność powinna dzielić się różnymi podpowiedziami program.md (takimi jak „przepisy”) w kontroli wersji. Każdy plik mógłby kodować strategię badawczą. Na przykład, jedna strategia mogłaby mówić „zwiększ głębokość sieci, jeśli głębokość <6, w przeciwnym razie zmniejsz szybkość uczenia”, podczas gdy inna mogłaby mówić „skup się na zmianach w augmentacji danych”. Z czasem grupy mogą porównywać, które strategie przyniosły lepsze metryki na tablicach wyników. Dobry program.md zawiera cel (np. maksymalizacja AUC lub minimalizacja straty walidacyjnej) i wskazówki dotyczące dozwolonych mutacji (warstwy, filtry, LR). LLM agenta używa tych instrukcji do proponowania edycji kodu. Utrzymuj znormalizowane metryki (np. zawsze raportuj AUC dla zadań klasyfikacji jaskry), aby eksperymenty były porównywalne.
Współpraca społecznościowa: Aby to przedsięwzięcie było skalowalne, społeczność naukowa powinna się zorganizować:
- Wspólne dzienniki eksperymentów: Publikuj wyniki każdego eksperymentu (np. „Uruchomienie #27 programu-v1 osiągnęło Wal AUC=0.82 z szerokością=4, głębokością=3”).
- Standaryzowane metryki: Zdefiniuj metryki dla każdego zadania: np. „OCT jaskra AUC”, „VF progresja AUC”, „Atrybut AUC” itp. Wspólna tablica wyników (analogiczna do val_bpb z autoresearch) może śledzić najlepsze wyniki. Na przykład, Slack lub GitHub Actions może zbierać najlepsze AUC każdego agenta co tydzień.
- program.md pod kontrolą wersji: Hostuj wszystkie program.md w repozytorium GitHub. Członkowie mogą tworzyć forki i proponować nowe strategie (za pośrednictwem żądań pull), zachowując jednocześnie historyczne wersje. W ten sposób wiele podejść może być testowanych równolegle (np. „program_word2vec.md” vs „program_transformer.md”).
- Udostępnianie danych i kodu: Używaj publicznych repozytoriów lub notatników dla skryptów przygotowania danych i udostępniaj modyfikacje train.py znalezione przez agenta (w celu odtworzenia w standardowych frameworkach ML). Łączenie się z oryginalnymi źródłami danych (Kaggle, PhysioNet, Zenodo) zapewnia, że inni mogą pobrać te same dane.

Obniżając bariery techniczne (agent edytuje kod, użytkownik edytuje instrukcje w Markdownie) i koordynując wysiłki (wspólne dzienniki, tablice wyników), naukowcy-obywatele mogą wspólnie badać wybory hiperparametrów/modeli dla tych problemów ML związanych z jaskrą. W istocie, inwestują oni ludzką kreatywność w definiowanie celów, a agentowi pozwalają na wykonywanie żmudnej pracy setek eksperymentów w ciągu nocy na każdy cel (medium.com) (www.theneuron.ai).

4. Konkretnie o przywracaniu wzroku

Przywracanie wzroku – odzyskiwanie zdolności widzenia po uszkodzeniu – jest szczególnie ekscytującym celem dla optymalizacji sterowanej przez AI. Obecne badania nad przywracaniem wzroku wspomaganym przez AI obejmują implanty siatkówki, protezy korowe i optogenetykę. Oto, jak pętla autoresearch mogłaby się w to wpasować:

Optymalizacja kodowania protezy wzrokowej: Nowoczesne protezy (implanty siatkówki lub kamery połączone z układami elektrod) próbują przetłumaczyć obraz z kamery na wzorce stymulacji elektrycznej, które mózg interpretuje jako wzrok. Wyzwaniem jest bardzo ograniczona „przepustowość” elektrod (często tylko dziesiątki do kilkuset punktów) (pmc.ncbi.nlm.nih.gov). Model ML (mała sieć CNN lub transformator) może być trenowany do mapowania obrazów wejściowych na idealne mapy stymulacji, ale najlepsze hiperparametry lub architektury dla tego tłumaczenia są nieznane. Agent autoresearch mógłby przeprowadzić 100 wariantów modelu „kodera neuronowego” w ciągu kilku godzin. Na przykład, można ustawić zestaw danych par obraz → stymulacja (albo symulowane fosfeny, albo dane pacjenta) i pozwolić agentowi zoptymalizować sieć kodera, aby zminimalizować stratę rekonstrukcji lub zmaksymalizować metrykę użyteczności (integralność kontrastu, dokładność rozpoznawania). Agent mógłby próbować dodawać warstwy uwagi, zmieniać rozmiary splotów lub dostrajać szybkości uczenia. Wiele uruchomień mogłoby doprowadzić do odkrycia małych sieci, które dostarczają bardziej istotnych wyjść protetycznych. Niektóre ostatnie prace już wykorzystują AI do ekstrakcji istotności wizualnej dla protez (pmc.ncbi.nlm.nih.gov); autoresearch mógłby zautomatyzować dostrajanie takich potoków.
Wzorce stymulacji optogenetycznej: W terapii optogenetycznej, przeżywające RGC lub inne komórki siatkówki stają się wrażliwe na światło (za pośrednictwem wprowadzonych genów). Wejścia z kamery muszą być następnie kodowane w impulsy świetlne. Tutaj ponownie model ML może kontrolować wzorce. Można sformułować zadanie próbne: mała sieć przekształca obraz z kamery w mapę intensywności światła (o tych samych wymiarach co komórki). Celem agenta mogłoby być maksymalizacja pewnej metryki efektywnej stymulacji (np. maksymalizacja aktywacji komórek docelowych w symulowanej siatkówce). Każda próba mogłaby przeprowadzić szybką symulację odpowiedzi. W kolejnych iteracjach agent mógłby badać czasy trwania impulsów lub filtry przestrzenne. Na przykład, dostosowanie agresywności filtra górnoprzepustowego na wejściu kamery może być korzystne dla niektórych wzorców. Chodzi o to, że wiele parametrów analogowych (jądra filtrów, nieliniowość, kodowanie impulsów czasowych) może być automatycznie przeszukiwanych.
Optymalizacja wzorców impulsów (TES i implanty): Nawet dziedziny nieobejmujące uczenia maszynowego mogą skorzystać z szybkiego wyszukiwania. Na przykład, niedawne badanie (Xie i in. 2025) wykazało, że krótsze czasy trwania impulsów i wstawienie przerw międzyfazowych znacząco poprawiły aktywację korową dla implantów siatkówki (pmc.ncbi.nlm.nih.gov). Sugeruje to, że przestrzeń parametrów stymulacji elektrycznej ma silne, nietrywialne efekty. Agent autoresearch mógłby traktować parametry protokołu stymulacji (czas trwania fazy, częstotliwość, odstęp) jako „parametry sieci” i przeprowadzać wiele małych eksperymentów (każdy symulowany lub empiryczny), aby zmaksymalizować odpowiedź korową. Na przykład, ustawić uproszczony model elektryczny (lub użyć zarejestrowanych danych potencjałów wywołanych) w prepare.py i pozwolić agentowi dostosowywać parametry train.py, takie jak synchronizacja impulsów, w celu maksymalizacji zdefiniowanej amplitudy odpowiedzi. Jest to podobne do automatyzacji tego, co doświadczeni neurobiolodzy robią ręcznie.
Projektowanie wektorów wirusowych i geometrii rusztowań: W bardziej eksploracyjnym rozwoju terapii, podejście pętli agenta mogłoby również rozwiązywać problemy optymalizacji biomedycznej. Na przykład, projektowanie kapsydów wirusowych AAV lub promotorów do celowania w RGC mogłoby być prowadzone przez małe modele predykcyjne (np. regresja logistyczna na cechach sekwencji). Autoresearch mógłby wielokrotnie próbować modyfikować model przewidujący tropizm lub ekspresję (trenowany np. na małych bibliotekach wirusowych) w celu poprawy tej przewidywania. Podobnie, jeśli ktoś posiada kod symulacyjny do wzrostu w rusztowaniach nerwowych (do naprawy nerwu wzrokowego), agent mógłby dostosować parametry geometryczne, aby zmaksymalizować wydłużenie aksonów. Są to zaawansowane koncepcje, ale pasują do idei – „agent jako eksperymentator” mógłby dostosowywać parametry modelu lub symulacji w celu uzyskania lepszych wyników.

Podsumowując, każdy aspekt protezy wzroku lub jej przywracania, który opiera się na sparametryzowanych algorytmach, mógłby zostać ulepszony poprzez szybkie iteracje. Ważne jest, że ograniczeniem jest to, że zazwyczaj dysponujemy tylko danymi symulacyjnymi dla wielu z tych zadań; rzeczywiste testowanie setek wariantów na pacjentach nie jest możliwe. Ale autoresearch może działać in silico, aby zaproponować najlepszych kandydatów do późniejszych badań klinicznych. Jak zauważono w przeglądzie protez, „zapewnienie niezawodnego generowania fosfenów w precyzyjnych miejscach… jest ważnym wyzwaniem” i „modele oparte na AI wykazały potencjał” w tej dziedzinie (pmc.ncbi.nlm.nih.gov). Autoresearch mógłby znacząco przyspieszyć znalezienie najlepszych konfiguracji tych modeli AI.

5. Przejście do wpływu klinicznego

Wyniki obliczeniowe muszą ostatecznie znaleźć odzwierciedlenie w rzeczywistych badaniach i opiece nad pacjentami z jaskrą. Jak można walidować i rozwijać pomysły generowane przez autoresearch kierowane przez pacjentów?

Współpraca z grupami badawczymi: Naukowcy-obywatele powinni nawiązywać kontakt z uznanymi konsorcjami badawczymi zajmującymi się jaskrą. Przykładami są International Glaucoma Genetics Consortium (IGGC) i konsorcjum NEIGHBORHOOD, które gromadzą dane genetyczne i kliniczne (pubmed.ncbi.nlm.nih.gov) (pmc.ncbi.nlm.nih.gov). Wyniki z autoresearch (np. nowa hipoteza dotycząca kandydata na gen lub ponownego wykorzystania leku) mogłyby być udostępniane takim grupom w celu dalszych eksperymentalnych działań. Laboratoria hodowli tkanek (np. na dużych uniwersytetach) lub badacze snu mogliby testować związki na przeżywalność RGC. Klinicyści akademiccy mogą korelować wszelkie biomarkery lub klasyfikatory obrazów z danymi swoich pacjentów zgodnie z protokołem IRB. Kluczowe jest nawiązanie dialogu między grupami w stylu hackathonów a formalnymi laboratoriami.
Angażowanie organizacji rzeczniczych pacjentów: Grupy takie jak Glaucoma Research Foundation czy Cure Glaucoma Foundation często finansują innowacje skoncentrowane na pacjentach. Mogłyby one sponsorować projekty typu proof-of-concept lub konkursy obywatelskie wykorzystujące autoresearch. Organizacje te posiadają sieci klinicystów i mogłyby pomóc w skierowaniu obiecujących tropów modelowych do kliniki. Na przykład, jeśli agent zasygnalizuje, że istniejący lek zatwierdzony przez FDA ma działanie neuroprotekcyjne, grupa rzecznicza mogłaby pomóc w zorganizowaniu małego badania zgodnie z odpowiednimi protokołami. Podkreślanie sukcesów będzie wymagało przedstawienia wyników jako hipotez (nie porady medycznej) i zapewnienia przejrzystości.
Ograniczenia etyczne i bezpieczeństwa: Naukowcy-obywatele muszą używać wyłącznie zanonimizowanych danych publicznych lub danych w pełni syntetycznych. Jakiekolwiek wykorzystanie rzeczywistych danych pacjentów wymaga protokołu zatwierdzonego przez IRB (i prawdopodobnie zgody pacjenta). Wyniki z pętli autoresearch powinny być wyraźnie oznaczone jako generujące hipotezy. Na przykład: „Ten model sugeruje, że Lek X może chronić RGC – wymagana jest walidacja eksperymentalna.” Krytyczne decyzje medyczne muszą pozostać w gestii lekarzy. Ryzyka obejmują nieumyślne rozpowszechnianie modeli, które przewidują osobiste wyniki (progresję jaskry) – konieczne są wyraźne zrzeczenia się odpowiedzialności, aby nie traktować ich jako narzędzi diagnostycznych. Niezbędne są najlepsze praktyki w zakresie prywatności danych (np. używanie zagregowanych lub anonimowych pól).
Precedensy w nauce obywatelskiej: Wkład amatorów w badania medyczne/neurobiologiczne nie jest bezprecedensowy. Projekt Eyewire (gra MIT mapująca neurony w oparciu o crowdsourcing) zmobilizował wolontariuszy do rekonstrukcji obwodów nerwowych siatkówki (www.citizenscience.gov). W okulistyce, osoby niebędące ekspertami pomogły w oznaczaniu obrazów w wyzwaniach finansowanych przez OpenAI (np. oznakowane zestawy danych do chorób oka). Poza opieką okulistyczną, gry takie jak Foldit (łamigłówki dotyczące składania białek) i Galaxy Zoo (klasyfikacja galaktyk) pokazują, że udział obywateli może rozwiązywać trudne problemy naukowe. Te sukcesy zachęcają do idei, że wiele rąk (a teraz i sztucznych inteligencji) może faktycznie pomóc w złożonych badaniach. Podejście autoresearch jest jak danie każdej osobie asystenta laboratoryjnego wspomaganego przez AI: wcześniejsze wysiłki crowdsourcingowe wykorzystywały ludzi tylko do analizy ustalonych zadań, podczas gdy tutaj człowiek ustala cel, a AI wykonuje iteracje.

Będąc przejrzystym, ostrożnym i współpracującym, inicjatywa autoresearch w ramach nauki obywatelskiej może zdobyć zaufanie. Powinna ona kłaść nacisk na „generowanie wskazówek, a nie recept”. Jeśli społeczność dokumentuje metody i otwarcie udostępnia kod, profesjonalni badacze mogą odtworzyć odkrycia. Na przykład, jeśli ktoś znajdzie nową kombinację czynników ochronnych RGC, może opublikować ją w preprincie lub powiadomić laboratorium. Odniesienia w stylu cytatów (jak to robimy tutaj) pomagają w budowaniu mostów: np. „Traktowaliśmy twoją listę kandydatów na leki w kontekście znanych szlaków (pmc.ncbi.nlm.nih.gov).” Ostatecznie, jest to forma otwartej nauki – prowadzonej przez pacjentów, ale naukowo rygorystycznej. Jeśli standardy etyczne zostaną utrzymane, taka oddolna innowacja ma ogromny potencjał do zapoczątkowania nowych współprac i ostatecznie wniesienia wkładu w recenzowane badania okulistyczne.

6. Konkretny 90-dniowy plan działania

Skoncentrowany, ograniczony czasowo plan może zgromadzić społeczność 10–50 osób (z co najmniej jedną kartą GPU lub Apple Silicon każda) w celu uruchomienia inicjatywy autoresearch dla jaskry. Oto sugerowany plan fazowy:

Tydzień 1–2: Formowanie i konfiguracja
- Rekrutacja i rozpoczęcie: Stwórz kanał komunikacji (np. Slack lub Discord) i repozytorium GitHub dla projektu. Rozgłoś to na forach pacjentów z jaskrą, w grupach biohakerów i na spotkaniach AI.
- Sprawdzenie sprzętu: Upewnij się, że wszyscy mogą zainstalować PyTorch i sklonować repozytorium Karpathy'ego (lub forka Maple). Zorganizuj sesję konfiguracji, podczas której każdy uczestnik uruchomi przykładową pętlę autoresearch na zabawkach (np. podzbiorze CIFAR-10), aby zweryfikować środowisko.
- Wybór zestawu danych: Zdecyduj się na 1–3 początkowe zadania (np. klasyfikacja OCT, progresja VF). Dla każdego z nich przypisz mały zespół do przygotowania danych: np. jeden zespół pobiera obrazy RIM-ONE (github.com), inny pobiera pola GRAPE (www.nature.com), inny zbiera abstrakty literaturowe. Zespoły powinny podzielić dane 80/20 i stworzyć szkice prepare.py.
- Modele bazowe: Dla każdego zadania sfinalizuj prosty train.py: np. mała sieć CNN dla RIM-ONE, MLP dla VF. Wybierz metryki oceny (AUC, Dice, MSE).
- Wstępne szkicowanie program.md: Każdy zespół pisze początkowy plik instrukcji (program.md) określający cel i dozwolone zmiany. Np. dla RIM-ONE: „maksymalizuj AUC wykrywania jaskry”, dla GRAPE: „minimalizuj VF MSE”.
Tydzień 3–6: Pierwsze cykle eksperymentalne
- Uruchamianie pętli autoresearch: Każda podgrupa uruchamia agenta na swoim zadaniu przez noc (około 100 5-minutowych uruchomień). Zacznij od jednego pliku program.md, a następnie pozwól uczestnikom dodawać warianty (np. „program_temp1.md”).
- Zbieranie wyników: Każdego ranka zespoły przeglądają dzienniki (repozytorium automatycznie loguje każde uruchomienie). Zapisują najlepszą osiągniętą metrykę, parametry modelu w tym czasie i wszelkie zauważalne zmiany znalezione przez agenta. Dla przejrzystości, wyniki te są przesyłane do udostępnionego GitHuba (być może w CSV lub JSON).
- Iteracja i informacja zwrotna: Porównuj uruchomienia. Czy któraś strategia znacząco pobiła bazową? Jeśli podzespół widzi niewielki postęp, powinien dostosować program.md (np. być bardziej agresywnym ze zmianami szybkości uczenia). Co weekend, syntetyzuj odkrycia na spotkaniu społeczności.
- Narzędzia: Użyj Git do kontroli wersji program.md i szablonów kodu. Rozważ wspólną tabelę Google Sheet lub wiki dla tablic wyników (np. „OCT-AUC: najlepsze=0.85 przez Alice; VF-RMSE: najlepsze=2.1 przez Bob”). To motywuje do zdrowej rywalizacji i przejrzystości.
Tydzień 7–12: Dopracowanie i zasięg
- Dopracowanie eksperymentów: Na podstawie wczesnych wyników, dopracuj obiecujące zadania. Na przykład, jeśli klasyfikator RIM-ONE osiągnął 0.90 AUC – teraz spróbuj dodać augmentację danych lub nieco głębszą sieć. Zachęć do rozgałęziania: niektórzy mogą próbować różnych architektur (np. Vision Transformer tiny zamiast CNN). Agenty mogą uruchamiać wiele wariantów program.md równolegle.
- Synteza wyników: Twórz krótkie raporty dla każdej domeny (OCT, VF itp.), podsumowujące, co zadziałało. Na przykład: „Poprawiliśmy Dice segmentacji GCC z 0.60 do 0.75, zmieniając aktywację z ReLU na GELU.” Używaj języka laickiego, aby osoby niebędące ekspertami mogły śledzić (słownik terminów ML).
- Prezentacja społeczności: Do 10. tygodnia napisz post na blogu lub prezentację podsumowującą dotychczasową inicjatywę. Podkreśl wszelkie nietrywialne odkrycia (nawet „zerowe” wyniki są przydatne do udostępniania). Zaproś do dyskusji na forach internetowych; być może skontaktuj się z badaczem, prosząc o komentarze („Odkryliśmy, że zmiany w sieci neuronowej X pomagają klasyfikować wczesną jaskrę – czy zgadza się to z fizjologią?”).
- Planowanie zasięgu: Zidentyfikuj jedno lub dwa laboratoria okulistyczne lub klinicystów zainteresowanych współpracą. Skontaktuj się z nimi, przedstawiając początkowe wyniki. Na przykład, nawiąż kontakt z autorami zestawu danych HYGD lub zespołem GRAPE na Twitterze/LinkedIn, wspomnij o swoich obywatelskich odkryciach. Zbadaj możliwości wspólnej walidacji (np. wyślij im wytrenowane wagi modelu do przetestowania na ich danych).
Po 12 tygodniach: Następne kroki
- Kontynuuj pętle na najbardziej obiecujących zadaniach i nowych. Na przykład, jeśli RIM-ONE daje dobre wyniki, następnym krokiem jest REFUGE. Być może zbuduj modele kompozytowe (zespoły CNN).
- Oficjalnie utwórz stronę projektu lub preprint opisujący wysiłki.
- Rozważ zorganizowanie hackathonu, aby zaangażować więcej umysłów, być może we współpracy z organizacją charytatywną zajmującą się jaskrą.

Dzięki takiej strukturze społeczność może czynić stałe postępy, uczyć się razem i do końca 90 dni nawiązać współpracę z ekspertami.

7. Ryzyka, ograniczenia i uczciwa ocena

Pomysł autoresearch dla jaskry jest ambitny, dlatego wymaga uczciwości w ocenie potencjalnych pułapek:

Ryzyko nadmiernego dopasowania i fałszywych wzorców: Małe modele na małych, zaszumionych zestawach danych często opierają się na przypadkowych zbiegach okoliczności. Agent może znaleźć modyfikację, która poprawia walidacyjne AUC, po prostu poprzez nadmierne dopasowanie do idiosynkrazji. Na przykład, jeśli podzbiór obrazów miał subtelny znak adnotacji, sieć mogłaby użyć go zamiast prawdziwych cech jaskry. Prowadzi to do „oszustwa spadku gradientu”. Aby temu zaradzić:
- Zawsze używaj oddzielnych zestawów testowych (całkowicie niezależnych od jakiegokolwiek dostrajania) do ostatecznej oceny.
- Ogranicz złożoność: utrzymuj modele skromne i obserwuj, czy agent nadmiernie pogłębia lub poszerza sieć bez uzasadnienia.
- Jeśli model osiąga niemal doskonały wynik zbyt szybko, poddaj to w wątpliwość.
- Stosuj testy zdrowego rozsądku: np. potasuj etykiety i sprawdź, czy AUC spada do wartości losowej (jeśli nie, to jest wyciek danych).
Błąd i jakość danych: Publiczne zestawy danych dotyczące jaskry często pochodzą z wąskich populacji (np. ORIGA z Singapuru) (pubmed.ncbi.nlm.nih.gov). Model dostrojony do tych danych może nie uogólniać się. Eksperymenty obywatelskie powinny odnotować to ograniczenie. Idealnie byłoby użyć wielu zestawów danych (z różnych kohort), aby sprawdzić, czy wyniki są solidne.
Fałszywe tropy („Teatr badawczy”): Przeprowadzanie mnóstwa eksperymentów wydaje się produktywne, ale jeśli każda poprawa dotyczy tylko danych syntetycznych lub trywialnych, może to nie przynieść korzyści pacjentom. Aby tego uniknąć:
- Skup się na zadaniach o znaczeniu klinicznym (np. wczesne wykrywanie z rutynowych badań OCT).
- Wiąż wyniki z rzeczywistymi miarami, gdy to możliwe (np. AUC dla progresji, a nie tylko niewielka delta straty).
- Nadaj priorytet interpretowalności: jeśli agent „znajduje” nowy biomarker, postaraj się upewnić, że ma to sens (np. czy skupia się na znanych zmianach anatomicznych?).
Brak gwarancji klinicznej: Musi być absolutnie jasne: wyniki tych pętli to generowanie hipotez, a nie porady medyczne. Model sugerujący nowy lek musi zostać zweryfikowany w laboratorium przed zastosowaniem u pacjenta. Przesadne twierdzenia są niebezpieczne. Oznaczaj wszystkie udostępniane wyniki klauzulami: „Jest to eksploracja AI, a nie recenzowane odkrycie.”
Ograniczenie „małego modelu”: Bardzo małe sieci mają ograniczoną pojemność. Mogą pomijać złożone wzorce. W przeciwieństwie do tego, duże modele często przynoszą przełomowe odkrycia, ale wymagają ogromnych danych. Tutaj akceptujemy ograniczony zakres: nadzieją jest, że nawet małe ulepszenia mogą kierować badaniami. Ale nie powinniśmy oczekiwać, że te modele zastąpią głębokie uczenie na masowych danych. Najlepiej sprawdzają się w szybkim próbowaniu oczywistych pomysłów.
Wiarygodność agenta: Agent (np. GPT-4) może halucynować lub odbiegać od normy. Ważne jest, aby wyniki były odtwarzalne: po uruchomieniu agenta człowiek powinien sprawdzić, które zmiany zostały zachowane i ponownie uruchomić trening, aby potwierdzić metrykę. Utrzymuj agenta w uczciwości, umieszczając w program.md instrukcje, takie jak „akceptuj tylko rzeczywiste poprawy w metryce oceny”.

Pomimo tych wyzwań, kluczową ochroną jest przejrzystość i krytyczna kontynuacja. Dokumentuj wszystko. Kiedy model pokazuje wzorzec, zweryfikuj go. Jeśli wielu naukowców-obywateli widzi tę samą anomalię (np. wszystkie modele o wysokiej wartości AUC dla zadania OCT podkreślają obszar siatkówki po stronie nosowej), to wzmacnia to sprawę. Celem jest przyspieszenie fazy generowania pomysłów, a nie unikanie ostrożnej nauki po niej.

Wnioski

Jaskra to złożona, cicha choroba prowadząca do ślepoty, z wieloma niezaspokojonymi potrzebami badawczymi – od ochrony neuronów po przywracanie wzroku. Jednocześnie AI zdemokratyzowała eksperymentowanie: jedna osoba z kartą GPU i pewną determinacją może przeprowadzać zautomatyzowane wyszukiwania hiperparametrów, które zespołom zajęłyby tygodnie ręcznie. Framework autoresearch Karpathy'ego zasadniczo daje każdemu obywatelowi asystenta laboratoryjnego AI. Pisząc jasne, ogólne cele w Markdownie, badacze społeczni mogą pozwolić agentowi na przetworzenie produktów i przejście prosto do obiecujących wskazówek.

Opisaliśmy, jak to można zrobić w praktyce: identyfikując zadania ML związane z jaskrą, wybierając dane (obrazy dna oka i OCT, pola widzenia, molekularne zestawy danych), definiując modele i metryki, oraz używając instrukcji programowych do kierowania poszukiwaniami. Naszkicowaliśmy 90-dniowy plan działania dla społeczności i wskazaliśmy mosty do klinicystów, aby upewnić się, że wartościowe wyniki mogą informować rzeczywistą naukę o jaskrze. Podejście to jest w dużej mierze „nauką obywatelską”: otwieranie narzędzi do odkryć naukowych w przystępny sposób, nadal polegając na nadzorze ekspertów tam, gdzie ma to znaczenie.

Cytowania: Odwoływaliśmy się do najnowszych zasobów zarówno w badaniach nad jaskrą, jak i w AI. Kluczowe fakty (częstość występowania choroby, połowa niezdiagnozowanych (physionet.org)), obiecujące terapie (implanty CNTF (pmc.ncbi.nlm.nih.gov), edycja genów (pmc.ncbi.nlm.nih.gov)), i niepewne pułapki (AI w obrazowaniu (pmc.ncbi.nlm.nih.gov)) są ugruntowane w aktualnej literaturze. Sam autoresearch jest opisany w przewodniku Karpathy'ego (medium.com) i recenzji (www.theneuron.ai). Powinny one nadać wiarygodności przedstawionej tutaj wizji.

Pod koniec tego wszystkiego mamy nadzieję, że czytelnik poczuje się wzmocniony: jeśli jesteś pacjentem, opiekunem lub pasjonatem-hobbystą, możesz być częścią napędzania badań nad jaskrą. Narzędzia i dane istnieją, problemy są jasne, a dzięki koordynacji i agentowi AI możemy przyspieszyć uczenie się. Jak w każdych badaniach, podróż będzie miała fałszywe starty, ale nawet porażki czegoś nas uczą – często kierując ludzkie umysły w stronę właściwych podejść. Z szeroko otwartymi oczami na możliwości i pułapki, obywatelskie autoresearch może stać się potężnym uzupełnieniem tradycyjnej nauki o jaskrze.

Zacznij tutaj

Najłatwiejszy sposób na zanurzenie się w autoresearch dla jaskry już dziś: Uruchom drobną klasyfikację na obrazach dna oka ORIGA.

Pobierz dane: Pobierz zestaw danych ORIGA-light (650 obrazów dna oka z etykietami normalny vs jaskra) (pubmed.ncbi.nlm.nih.gov). Podziel na ~80% treningowy / 20% walidacyjny.
Początkowy model: Użyj lub zaadaptuj przykładowy skrypt z [karpathy/autoresearch] do klasyfikacji obrazów. Na przykład, kawałek kodu do ładowania obrazów ORIGA i trenowania małej sieci CNN (2–3 warstwy konwolucyjne) do rozróżniania jaskry od zdrowych.
Napisz program.md: W tekście ustaw cel na „maksymalizację walidacyjnego AUC dla wykrywania jaskry” i poinstruuj agenta, że może dostosować głębokość modelu, szybkość uczenia itp. Na przykład:

Cel: Zmaksymalizować AUC dla klasyfikacji jaskry vs normalny dla zestawu danych ORIGA.

Agent powinien próbować dostosowywać rozmiary warstw konwolucyjnych, liczbę filtrów i szybkość uczenia. Każda próba to 5 minut treningu. Jeśli walidacyjne AUC się poprawi, zachowaj zmianę. Powtarzaj.

Uruchom pętlę: Uruchom autoresearch (wskaż na swoje prepare.py, train.py i program.md). Pozwól mu działać przez kilka godzin lub przez noc na swojej karcie RTX 3060. Wykona około 100 eksperymentów automatycznie.
Sprawdź wyniki: Przejrzyj konsolę lub dziennik, aby zobaczyć najlepsze osiągnięte walidacyjne AUC (powinno być >0.8, jeśli wszystko pójdzie dobrze). Masz teraz model i skrypt treningowy, które agent AI udoskonalił.

Ten prosty weekendowy eksperyment daje Ci już pierwsze doświadczenie z budowaniem potoku ML bez ręcznego pisania nowego kodu. Udokumentuj, co próbowałeś, i podziel się swoim program.md oraz wynikami ze społecznością. Każdy mały sukces (wzrost AUC, ciekawe zmiany w sieci) to element konstrukcyjny. Dosłownie instruujesz AI, aby prowadziła badania nad wybranym problemem jaskry – a w ten sposób uczysz się zarówno data science dla jaskry, jak i masz nadzieję, że zmienisz coś w zrozumieniu lub leczeniu utraty wzroku.

Powodzenia! Pytania i odkrycia udostępniaj w formie open-source i pamiętaj: są to narzędzia badawcze-zabawkowe, a nie porady medyczne. Ostrożnie sprawdzaj swoje uruchomienia i ciesz się procesem odkrywania.

**`

Oczy szeroko otwarte: Jak framework Autobadawczy Karpathy'ego może zdemokratyzować badania nad jaskrą — Plan działania dla pacjentów, wspierany przez AI, w odkrywaniu metod przywracania wzroku