Юянг Гу ставаше рано и докато си пиеше кафето, пускаше на лаптопа програмата, която беше създал. След час имаше генерирани данни за това колко ще са болните от ковид и смъртните случаи държава по държава, и отделно за всеки американски щат.
Прогнозите му се оказваха по-точни от тези на суперспециализираните научни звена с милиарден бюджет, създадени специално, за да изпълняват такъв тип задачи. Той нямаше никаква представа от вируси и епидемиология, но… беше достатъчно добър по математика и създаде работещ и впоследствие признат модел.
Начинът, по който се справи с прогнозирането, бързо превърна Юянг Гу в звезда. Той гостуваше във всички по-големи световни медии – от CNN и Bloomberg до Wall Street Journal. Представяме ви 27-годишния умник, който показа нагледно защо наистина бъдещето принадлежи на изкуствения интелект и машинното самообучение.
2 + 2 = COVID
Накъде ще продължи пандемията? Повече ли ще са болните утре, да се затваряме ли вкъщи, или да си гледаме живота без промяна… Последната година наистина промени из основи приоритетите ни. От една страна показа, че науката е учудващо безпомощна пред предизвикателствата на един миниатюрен вирус, който, на всичкото отгоре, не е чак толкова смъртоносен, колкото би могъл да бъде. И от друга – ни помогна да изгубим фокуса, за да се фокусираме после върху онова, което наистина има смисъл, наистина ни е нужно и работи.
До голяма степен това се случи и с математиката. Всички я учим в училище, кой с успех, кой – с пищови. А миналата пролет изведнъж математиката се оказа доста важна в момент, в който медицината не можеше да се справи сама. Каква математика обаче? На българска почва… чувахме доста уж математически базирани прогнози за развитието на заболеваемостта, без да ни бъде обяснявана дори бегло логиката зад тях. Съответно – и прогнозите се оказваха толкова неубедителни и разминаващи се, колкото и мерките, вземани от отговорните звена в битката с болестта.
Появиха се дори математици – звезди, които после се оказа, че… не са математици, не са и звезди. И все пак – точно тогава, както никога преди това, математиката можеше да спаси животи, помагайки на политиците и медиците да управляват ситуацията, като анализира тенденциите и дава обосновани прогнози с достатъчно висока степен на вероятност за това как ще се развие пандемията.
Точно това успя да постигне в критичния момент нашият днешен герой.
Застанал сам срещу море от COVID
Юянг Гу завършва с отличие магистратури по електроинженерство и компютърни науки, а преди това и бакалавърската степен по математика в MIT. Специализира в машинното самообучение, с чиято помощ прогнозира борсови индекси и резултатите от спортни състезания.
„Човек, показващ безпристрастни изводи. Реалист.“, гласи представянето му в туитър, където най-често обича да споделя мненията си.
В началото на миналия март той, както и всички нас, е… объркан. Новините са погълнати от коронавируса, изведнъж сме се озовали в новото ненормално. А, като на човек на точните прогнози, му прави особено впечатление, че цифрите хвърчат без никаква логика. Докато „от телевизора“ едни учени със сериозен тон и железни аргументи му казват, че до лятото в САЩ ще има 60 000 жертви, други твърдят, че те ще са… 2 милиона. Но за човешки животи говорим, все пак.
Юянг има доста свободно време, тогава все още живее при родителите си в Санта Клара. Решава да опита да даде своя принос на базата на онова, което умее. Според него машинното самообучение може да дава много и важни отговори във всяка област, защото знае как да „чете“ информацията и тенденциите. Без да се интересува от професионалната информация, от личното мнение, от субективните впечатления към дадена тема.
Епидемиолог за един ден
„Реших да се опитам да направя най-прецизния възможен модел“, спомня си програмистът. „Без „ами ако“. Идеята ми беше да пресъздам модела на това кое е най-вероятно да се случи. И нищо повече“.
Именно в това е и голямата сила на невронните мрежи – основната ни асоциация, заговорим ли за изкуствен интелект. Само за седмица Юянг Гу създава модела, по който ще работи. Регистрира сайта covid19-projections.com и започва да публикува прогнозите, които се генерират, за смъртността във всеки от американските щати, някои по-малки региони и 71 държави, за които има достатъчно данни. Не му трябват суперкомпютри, само за час лаптопът му приема новите данни и връща прогнозите си.
Месец по-късно вече има милиони посещения, много световни медии следят прогнозите му. А професорът по биология от Университета на Вашингтон Карл Бергстрьом възкликва: „Аз съм скептик за машинното самообучение. Но в този случай това не е обичайното шарлатанство, което често стои зад тези думи. Моделът прави впечатляващо точни прогнози“.
„Неговият модел беше единственият, който от самото начало изглеждаше чист“, казва Джеръми Хауърд, известен специалист в обработката на данни от Университета на Сан Франциско. „Останалите модели с времето се оказаха несъстоятелни, защото Юянг беше единственият изследовател, който наистина виждаше данните и ги „четеше“ правилно.
Самият Ян Лекюн, водещият учен на „Фейсбук“ в областта на изкуствения интелект казва, че моделът на Юянг е „най-прецизен в предсказването на смъртните случаи от ковид“.
А младият учен в началото просто гугълва „епидемиология“. И така започва приключението.
Супермодел
Може да не разбира нищо от медицина, но пък има опита на изследовател на данни от финансовия свят. Където също не е нужно да познаваш предмета на дейност на дадена компания, да следиш позицията ѝ на пазара, маркетинговите ѝ решения. Можеш да разчиташ само на цифрите и тенденциите. „Ако не си в състояние да направиш работещ статистически модел, в света на финансите на секундата ще останеш без работа“, казва той.
Задължително е да отбележим, че много често цифрите, които излизат от модела му, не съвпадат с реалните показатели. Понякога, разбира се, се случва да са учудващо точни. Важното обаче е, че според оценката на специалистите от днешната им гледна точка, моделът му е успявал да улови тенденцията.
Затова Юянг Гу решава да направи възможно най-семплия модел. И вече толкова пъти споменахме думата „модел“, че е време да обясним какво се крие зад нея. Тъй като алгоритмите нямат претенциите и възможностите да пресъздават реалния свят с всичките му детайли, условности и взаимовръзки, им остава едно. Да опростяват и опростяват, да търсят абстракцията, така че да откроят факторите, които влияят за дадено явление и взаимовръзките им. Така всеки проблем може да бъде сведен до възможно най-прост математически модел, на базата на който да бъде анализиран.
Според Юянг в това се крие успехът на неговия модел. Докато колегите му от големите американски научни звена, които изграждат своите модели за прогнозиране на заразата, се спират на безброй много фактори, той търси минималните, които наистина имат значение.
Голям SEIR
На български думата „сеир“ идва от турския глагол seyretmek – ще рече „любувам се, гледам с внимание“. Доста различно от основното значение, нали? Е, и в случая е така. Защото Юянг се спира на един класически модел, по който се правят прогнози за развитието на инфекциозни заболявания – SEIR, допълвайки го с възможностите на машинното самообучение.
Абревиатурата идва от Susceptible Exposed Infectious Recovered, или „податливи“, „изложени“, „инфектирани“, „възстановени“. Да, малко или повече през последната година всички взехме част от уроците в първи курс по медицина. Лесно може да се досетим, че става дума за закономерността от това колко индивида от дадена популация биха могли да се заразят от дадена болест, в каква степен са изложени на нея, колко от тях се разболяват и колко се възстановяват… или си отиват заради нея.
Юянг създава семпъл модел в тази посока, който няколко месеца по-късно „отваря“ за всеки, който има желание да го разгледа или опита сам в профила му в GitHub тук.
Моделът приема определен брой променливи параметри – от това каква е най-добрата прогноза за репродуктивното число – колко други хора може да зарази всеки нов болен, до това как могат да повлияят мерките срещу болестта. Симулаторът изчислява вероятния брой на новозаразените и на базата на него предполага каква ще е смъртността.
Доверявай, но проверявай
Юянг решава да надгради SEIR с невронна мрежа, която да следи за резултатите. Задачата на този тип софтуер е именно да анализира тенденциите и да преценява колко е логично нещо да се случи, търсейки повторенията. По този начин тя се учи да превежда между езиците, вече изключително успешно разпознава лица и дори създава впечатляващо убедителни видео фалшификати.
На базата на основния си модел той отново и отново пуска невронната мрежа, която да оценява симулацията.
В случай задачата ѝ е да генерира хиляди различни комбинации от тези параметри и да ги съпоставя с реалните стойности за всяка отделна единица – държава или щат. Така тя преценява кои параметри генерират най-точните прогнози за смъртността, сравнявайки данните от модела с действителните цифри, постъпващи от статистиката на университета „Джонс Хопкинс“. Балансира факторите и оценява най-съществените. По този начин отделя точно тази комбинация от параметри, която се е оказала най-работеща, и я използва.
Не питай старо, а боледувало
Онова, което се е оказало работещо, не е непременно това, което аксиомите диктуват. Ето как невронната мрежа ни помага не да следваме сляпо правилата, а просто да търсим реалните закономерности.
На 3 май 2020-а Юянг гостува във вечерния блок на CNN и обявява прогнозите на модела си. Според него жертвите на болестта в САЩ ще достигнат 70 000 на 5 май, 80 000 на 11-и, 90 000 на 18-и и 100 000 на 27-и.
Уви, колкото и да е тъпо да броим угасналите животи, моделът се справя доста точно.
После, на 6 октомври той прогнозира 231 000 жертви в САЩ до 1 ноември. Оказват се 230 995.
Понякога обаче греши. През май 2020-а той очаква 180 000 жертви до началото на август, като те се оказват значително по-малко – около 155 000. Всяка неточност обаче го кара да погледне отново модела си и да го подобри. По това време той е фиксирал смъртност от около 1% като константа за симулатора, но очевидно повечето тестове и знания за болестта вече са я понижили и така той я добавя като допълнителна променлива, която да се отчита от данните.
„Не казвам, че бях перфектен през тази година. Бърках доста пъти. Но мисля, че си струва да се научим да използваме науката като метод да се търси истината, а не като истина сама по себе си“, казва Юянг.
Gu can do it!
В първите месеци на пролетта прогнозите му наистина са изумително точно за разлика от тези на другите екипи. Постепенно те доста сериозно подобряват подхода си, на практика доближавайки се до това, което Юянг Гу се е сетил да направи.
Няколко месеца по-късно той е поканен в специално звено от математици, специалисти по машинно самообучение и други учени, които да помагат на Световната здравна организация в планирането на действията ѝ.
Моделът му попада в селекцията на най-добрите в много сайтове, които анализират темата. Тъкмо тогава… днешният ни герой решава да го изостави, защото постепенно са се появили достатъчно много други, дори и по-добри решения. Вече не е толкова важно да се следят тенденциите в заболеваемостта, защото екипите са се поучили един от друг, моделите са се наподобили.
Затова той се насочва към следващото предизвикателство – да оценява броя на реално заболелите спрямо тези, отчетени от официалната статистика. А после – да проследи пътя на ваксините. Започвайки работата, нарича това начинание „Път към стадния имунитет“, а в началото на 2021-а го редактира на „Път към нормалността“. Преценява, че доста обективен показател е това кога всички ограничения, свързани с коронавируса, ще отпаднат в САЩ. Кога ваксините ще заработят, за да ни осигурят връщане към това ежедневие, което толкова липсваше на мнозина.
Път към нормалността
Много бързо, още през декември 2020-а, моделът му започва да посочва ясно и конкретно – това ще се случи през лятото на 2021-а. И прогнозата така и не се променя, докато стигнахме до този момент, когато вече е ясно, че е напълно прав. В много щати дори маските вече не са задължителни за ваксинираните и преболедувалите.
Интересна е таблицата, която той публикува, сравняваща прогнозите от новия му алгоритъм с думите на д-р Антъни Фаучи, любимата поп-ковид звезда в Америка и шеф на епидемиолозите, които определят държавната политика. А именно:
Дата Прогноза на Юянг Прогноза на д-р Фаучи
12.2020 Лятото на 2021 г. Краят на 2021 г. (10.12)
01.2021 Лятото на 2021 г. Есента на 2021 г.
02.2020 Лятото на 2021 г. През 2022 г. (16.02); Към Коледа (18.12)
03.2020 Лятото на 2021 г. Септември 2021 г. (10.03); Есента (04.03)
И така, за втори път прогнозите на младежа се изправят срещу сериозни авторитети. Срещу огромни научни звена с невероятни ресурси. И за втори път той се оказва по-точен от тях.
Улови вируса
„Доста неща научих през тази година“, обобщава днес Юянг. „Беше период, който сериозно отвори очите ни“. Интересно е да прочетем и част от изводите му, натрупани през това динамично време.
На първо място – никога не подценявайте основите. „Простотата често е подценявана в научните среди, а моят модел показа, че понякога тя е особено важна. Целият ми подход беше да започна само с най-основните показатели и да добавям допълнителни само когато съм убеден, че те са нужни. Мнозина вярват, че вкарвайки повече данни в модела, той става по-добър, по-„умен“. В реална ситуация като пандемията, където в данните има толкова много шум, е важно да запазваш нещата колкото може по-семпли“.
Той отчита като предимство и факта, че не е имал предишен опит по темата. Това го е освободило от предварителните очаквания и му е позволило по-безпристрастно да преценява влиянието на различните фактори. „Моята цел беше просто да следвам данните, които определят ковид, за да науча повече за ковид“, допълва той.
На чисто и просто
„През последните месеци видях как всеки може да наглася данните така, че да съвпаднат с това, което той иска или пък вярва. Затова е толкова важно да имаме хипотези, които могат да бъдат подложени на проверка“.
Каква е поуката? Че математиката е абстрактна наука, в която конкретното приложение и нюансите не са важни, както правилното анализиране на данните. Че математиката може да спасява животи… Честно казано, май много от нас не я обичат. Но доста години по-късно ми се ще да бях се старал повече с уравненията в 9-и клас.
„Най-честият въпрос, който ми задават, е как успях да го направя, без да имам опит с моделирането на инфекциозни болести“, казва Юянг. „Това е и съветът ми към останалите и конкретно към младите хора: Не ви трябват десетилетия опит, за да сте способни да мислите критично и да се адаптирате към новата информация. Всъщност, да бъдеш външен човек и да даваш свеж поглед много често е предимство. В дигиталната ера, когато информацията е навсякъде, не се оставяйте липсата на знания в конкретната област да ви откаже да преследвате целите си. Не се страхувайте да питате и да предизвиквате статуквото – истинските иновации винаги идват от нетрадиционни подходи и нетрадиционни личности…“
Още за математическите страни в модела на Юянг Гу можете да намерите тук (във формат ipynb).
Източници:
https://covid19-projections.com/
https://covid19-projections.com/model-details/
https://www.technologyreview.com/2021/04/27/1023657/lessons-from-the-pandemics-superstar-data-scientist-youyang-gu/
https://www.bloomberg.com/news/articles/2021-02-19/covid-pandemic-how-youyang-gu-used-ai-and-data-to-make-most-accurate-prediction
https://www.magzter.com/stories/Business/Bloomberg-Businessweek/Youyang-Gu-Covids-Data-Superstar
https://ourworldindata.org/covid-models
https://cdc.gov/coronavirus/2019-ncov/covid-data/forecasting-us.html
https://github.com/youyanggu/yyg-seir-simulator
https://coronavirus.bg/
https://youyanggu.com/blog/