Виктор Ботев и екипът му разработват успешен продукт в едно от най-високотехнологичните направления на изкуствения интелект. Но защо ли ентусиазмът му за близкото бъдеще, в което ИИ ще промени всички ни…, е далеч от ширещите се огромни очаквания? Предстои ни да срещнем една неочаквана, задълбочена гледна точка към голямата тема на нашето време.
Вече 8 години гостът ни е главен технологичен директор на Iris.ai. Норвежко-българският стартъп разработва системи за прилагането на изкуствен интелект в обработката на масиви с научни данни.
- Защо не изглежда да сме чак толкова близо до генералния изкуствения интелект? Обречени ли сме да се съобразяваме с пристрастията и халюцинациите на моделите, преди да измислим следващата голяма стъпка? (тук)
- Надценихме ли ефекта от появата на ChatGPT и това кои области могат да бъдат променени из основи от големите езикови модели? Защо според госта ни сме близо до предела на възможностите им и е време за следващата голяма стъпка? (тук)
- Защо според него ерата на сървиз компаниите у нас приключи безвъзвратно? Изпуснахме ли ключовия момент да изведем IT индустрията си на следващото ниво и има ли шанс да наваксаме? (тук)
Очаква ни един дълъг технологичен разговор по човешки за ценители…
– Когато преди 8 години сте започнали с идеята за платформа, която да анализира и синтезира огромни обеми научни публикации, сте знаели, че все още няма технология, която да може да го прави, но сте очаквали, че ще се появи. Така и се оказва… Наистина ли?
– Така е, започнахме да се занимаваме с Iris с идеята
да създадем машина за въпроси и отговори за подпомагане на научната работа.
Това беше дългосрочна цел, бяхме определили 10-годишен план как да се случи, беше ясно, че с технологията към онзи момент няма как да се случат нещата. Трябваше да се развият доста направления, смятахме, че това ще се случи и, както се видя, се оказа, че доста добре сме познали.
Първо започнахме с проблема за наличието на прекалено много информация, поради създаването на голямо количество съдържание. Около 2010 г. започва бум на публикуването на научни статии, разработки и патенти. Дигиталната ера даде възможност това да се случва по-лесно и съдържанието в научната сфера започна да нараства експоненциално.
Когато през 2015 г. се заехме с Iris, дигиталното публично научно съдържание с отворен достъп беше около 2 млн. документа, а общо около дигиталното – около 30 млн. единици – патенти и научни статии. Към днешна дата със свободен достъп са към 60 милиона, а целият обем наброява към 300 милиона!
– Тоест, изведнъж учените започват да стават много по-продуктивни и започват да бълват огромни обеми съдържание, което е трудно да се следи…
– Да, забелязахме, че изведнъж е станало невъзможно да следиш в детайли какво се случва в дадена сфера, в която правиш проучване. Публикуват се между 6 и 10 хиляди статии на ден, за дадена сфера може да са 100-200, никой не би могъл да следи подобен обем.
Направихме първите приложения за търсене – към онзи момент бяха семантични търсачки. Преди това хората използваха едни огромни списъци с ключови думи, производни на всичко, което им е нужно, но те не бяха удобни и винаги можеше да пропуснеш нещо. Успяхме веднага да решим този проблем със семантична търсачка, в която описваш какво да намери машината в свободен текст. Направихме нещо като „прародител“ на днешните системи за търсене с векторни бази.
Продължихме с това, че хората понякога ги интересуват конкретни въпроси – има ли материал с определени качества, по какъв начин се произвежда, има ли подобен…Тук не работеха класическите, но и семантичните търсачки, защото те генерализират – това означава, че да намериш по-конкретен факт е трудно.
– А след това?
– Разработихме системи, които да изваждат факти от документите и да ги структурират в графи на знанието. Когато са малки, тези структури са много полезни и удобни за работа, защото дават възможност на човека да разглежда лесно връзките между елементите. Става трудно обаче, когато станат големи, а в някоя конкретна област започнаха да достигат милиони елементи.
После направихме приложение, което се занимаваше с екстракция на фактите и някъде там започна да се появява нуждата от комбиниране на двете. Да можеш семантично да намираш някакви неща с цел да ограничиш контекста или броя статии и да обобщаваш. Стана ясно, че е дошъл моментът да създадем системата, с която започнахме. Някъде там се появиха пробивите в трансформър моделите с възможности за задаване на по-кратки въпроси, на които директно получаваш отговори.
Включихме големи езикови модели, които директно да могат да отговарят на въпроси. Имайки структурния подход – възможността да изкараме фактите, и неструктурния – директно езиковият модел да работи с това, което намира в статиите, днес комбинираме двата резултата така, че да намалим халюцинациите на моделите и по този начин отговорите да са максимално точни.
– Както става ясно от описанието на компанията, алгоритъмът вече е по-успешен, отколкото ако този анализ на научните публикации го прави човек… Според теб създава ли проблем ръстът на генерираното съдържание? Скоро тук стана дума за проучване, че дадени думи, типични за големите езикови модели, изведнъж започват да се срещат експоненциално повече.
– Да, през последните 2 години има ръст на генерираното съдържание. Но това не означава задължително, че по някакъв начин се понижава качеството на проучванията.
Според мен по-скоро учените отделят повече време да правят експерименти, отколкото да пишат
съдържанието. За всяка статия има два аспекта – самата научна работа, но и това как да се представят резултатите по най-подходящия начин. И да, това, последното, вече се прехвърля към моделите.
– И ето, че в работата си днес се изправяте пред същите предизвикателства, пред които и създателите на големите модели – пристрастията, халюцинациите. Днес се опитват да ги решат всички – като започнем от OpenAI и гигантите, но, като че ли, не се вижда особен напредък…
– Първо трябва да отбележим, че халюцинациите както са бъг, така са и фийчър, казано на „IT език“. Те са грешка, но и търсен ефект. В моделите те идват от т. нар. генерализация.
През годините основната цел беше именно да се създаде езиков модел, който да говори убедително, да звучи като човек. А как говори човекът? Той има възможността да избира думи, да перифразира нещо, което е казано по друг начин. За да го прави моделът, той трябва да може да генерализира, да разпознава еднакъв тип конструкции и да ги използва като взаимнозаменяеми. Само че,
когато научаваме модела да генерализира, това изначално означава, че го обричаме да не работи много добре с факти.
Да, той знае, че трябва да сложи телефонен номер, адрес, година като следващ елемент в редицата генериран текст, обаче няма как да разбере кое число точно трябва да избере. Защото за това, че някой е роден на определена дата, в текста, на който е обучаван, ще е видял много такива примери и всеки път числото ще е различно.
Няма как да прецени кое е вярното, защото не прави причинно-следствена връзка с конкретния човек.
Точно тук трябва да му се помогне. Тук вече трябва да се мисли как да се промени това, така че моделът освен да генерализира, да може и да се фокусира върху конкретни причинно-следствени връзки.
– Извинявай за наивния въпрос, но не би ли могло да е решение данните да минават през следващ модел, който пък да проверява информацията?
– Не е толкова просто. Има различни течения, но според мен само с технологията, която имаме в момента, няма да стане.
Трябва да се промени малко математическият апарат, който е отзад.
Той в момента е оптимизиран да генерализира, защото това беше проблем, нерешен с десетилетия. Първите езикови модели са от 80-те, оттогава се борехме с проблема с генерализацията с идеята, че този с фокусирането уж е по-лесен, защото можеш да имаш структурирани данни. Оказа се обаче, че не е съвсем така, стане ли обемът прекалено голям.
Сега трябва да се измисли този математически апарат. Големите технологични компании работят доста активно, но не е лесно. Според мен няма да стане с тренирането на нов модел, с нови оптимизации, ще трябва да се доизмислят нови неща на по-ниско ниво.
– Така или иначе, моделите се справят впечатляващо и с фактологията. Направих и такъв експеримент – ChatGPT се изправи срещу безспорни куиз шампиони и победи повечето от тях, при това версия 3,5, при това на български… Да, ако търсим фактология, вече би трябвало да сме научили, че ChatGPT не е идеалното решение. Но можем да ползваме него и събратята му за толкова много други неща. Дали пък просто очакванията ни не са нереалистични?
– Може да разделим на два компонента основните възможности на един модел. Той има възможността да генерализира и разбира езикови структури, тоест – как да конструира изречения, да ги организира, да подготви отговор и да генерира смислен текст. Това е чисто структурното знание за това как да си формулираме мисълта. Ако го сравним с хората, всеки, след като научи някакъв език, може да го прави. Да, моделите вече също са способни.
Другата част обаче е знанието. Това, че можеш да изказваш позиция по дадена тема, не означава, че имаш знанието да го правиш. Това хората според мен го пропускат.
Моделите се обучават на огромно количество данни, голяма част от тях използват, за да се научат на структурата, на логиката на текста, на начина, по който да отговарят. Да, натрупват и някакво знание, но то изобщо не е толкова праволинейно, понякога е нужен подход, за да го получиш.
Нерядко проблемът не е толкова в модела, а в това, че ние не сме успели да извлечем търсеното знание. Не сме го попитали по начин, по който разбира.
„Аз го питах това, защо не ми отговаря, както искам?“ И когато говориш с някого, това, че ти разбираш въпроса по един начин, не означава, че човекът отсреща те разбира по същия. Промпт инженерството е начинът, по който да обясним нещо, така че „човекът“ отсреща да ни разбере. Кога срещнеш непознат и му зададеш въпрос, може да не те разбере веднага. Трябва да му обясниш по-добре какво точно искаш, да му дадеш пример, възможност да си представи и тогава да отговори.
– Постепенно и самите модели трупат контекст. Често се опитваме да търсим помощник за всичко, а това е технология, която може да ни е полезна в много области, само че трябва да я познаваме и да умеем да работим с нея.
Тоест, доколкото разбирам, ти мислиш, че сме близо до предела на големите езикови модели в този вид, така ли е? Четох твоя статия, че те няма как да ни доведат сами до генералния изкуствен интелект.
– Те постоянно се развиват, пускат се експериментални модели с друг тип структура, по-голям контекст. Нещата се развиват. Но според мен да, трябва да има някакъв следващ пробив, който да реши проблема с фокуса.
От това колко голям е моделът зависи колко различни структури ще може да научи. Някои, като Сам Алтман например,
смятат, че ни трябват още по-големи модели и те сами ще се научат да правят тези причинно-следствени връзки.
В момента има два основни лагера. „Неструктурираният“ на Алтман, който смята, че това ще се случи, ако просто натрупваме по същия начин. Че трябва да се хвърлят много усилия за още по-големи и по-големи модели. Там обаче има и друго ограничение – данните. Вече се доближаваме до предела, нямаме повече данни и се мисли как да се синтезират нови. Но това само по себе си създава друг сериозен проблем – и сега моделите имат пристрастия, а какво остава, ако почнем да синтезираме данни. Не е ясно как може да се реши този проблем.
Другият лагер е на „структурирания подход“, главният му поддръжник е Ян Лекун, основният изследовател на „Мета“. Той пък смята, че моделите първо трябва да се научат на разбиране за света, на някакъв вид причинно-следствена връзка и после това да се допълни с техните сегашни способности.
Аз лично смятам, че истината е някъде по средата. Определено не сме стигнали съвсем лимита, но мисля, че генералният ИИ няма да е като сегашните модели. Че трябва да се реши проблемът с фокуса чрез нови математически конструкции, които да научат модела кога да се фокусира и с какъв мащаб. Това според мен е другият проблем – моделите могат да генерализират успешно на общ език, а с някакво допълнително трениране се справят със специфични задачи. Но по-общият модел трудно се справя на специфично ниво и обратното.
– На гости на Ratio казваш, че сме стигнали момента, в който сме направили пробив и е време да намерим повече приложни страни, които пък да привлекат средства за следващото развитие на изкуствения интелект. 1,5 г. след ChatGPT все още като че ли няма чак толкова много масови приложения в ежедневието, както се очакваше, така ли е и според теб?
– Ние продаваме продукти в тази сфера. Преди края на 2022-а хората масово идваха и не вярваха, че машината може да свърши нещо подобно. Имали сме даже изказвания от рода: „Ей, колко хубаво ще е това нещо, като започне да работи, след 5-6 години“. „Не, то си работи, имаме го в момента!“, но хората просто не вярваха.
И се събуждаш месец по-късно, всички изведнъж започват да идват със свръхочаквания. „Супер добре работи. Искаме да го ползваме. Да реши всички проблеми, които имаме“. Което е абсурд, няма как.
Не си вярвал, че нещо ще ти свърши някаква работа и изведнъж казваш, че то ще я свърши цялата.
Минаваме от една крайност в друга, а то не е в нито един от двата края, по средата е някъде. Може да върши работа, но далеч не всичко. След всеки такъв момент на свръхочаквания има и леко охлаждане.
– Повечето гости, които питам, обаче казват, че не е възможно да има зима в света на изкуствения интелект, защото напредъкът е прекалено голям и засяга прекалено много сфери…
– Ефект на охлаждане според мен има още от средата на миналата година. В началото хората си представяха, че изведнъж всички ще започнат да го ползват. Не, не успява все още да навлезе в бизнеса с този ефект, който хората очакваха, нормално е. Но пък има и такива сфери, например центровете за техническа поддръжка.
Определено най-лесната област за навлизане на такъв тип технологии… е технологичната. Виждаме вече какво прави Copilot, тепърва ще има още платформи. Личи си и промяната в пазара на труда – джуниър хората по-трудно си намират работа, защото един синиър с ChatGPT може да върши работа за един синиър и пет джуниъри. Там бариерата за навлизане вече е доста по-голяма.
Може би те трябва да се научат да ползват ChatGPT? Не е чак толкова лесно. Промпт инженерството изисква човек да има определен тип мислене и знания за това как работят моделите, за да може да структурира лесно промптовете. Добре е да се мине през курсове, един от пионерите е Андрю Енджи, има страхотни курсове както за разбиране на големите езикови модели, така и за промт инженерство. Изисква се определен тип мислене и то трябва да се изучава.
– Но пък това създава проблем – ако в системата не влизат млади специалисти, след няколко години няма откъде да се вземат опитните… Просто такава ни е професията.
– Аз не смятам, че професията ще изчезне. Със сигурност имаше раздувки и това в момента трябва да се балансира. А според мен после ще има и промяна в начина на обучение. Така или иначе, техническата поддръжка и IT сферата са двете области, в които най-директно се вижда навлизането.
Има други, в които ще се случват сериозни промени, например персонализираната медицина. На първата конференция, на която бяхме с Iris през 2016 г., това беше имагинерно понятие. Сега, с навлизането на ChatGPT, е напълно възможно. Няма как при текущата здравна система, където и да е по света, един лекар да има целия контекст за дадения пациент, който да може да си извика в главата на момента, в който трябва да вземе решение. Сега, с възможностите на големите езикови модели, пациентът вече може да предостави много повече контекст, от който лекарят да извлече информация и да вземе решение.
Вече се случиха много интересни неща в медицината – измислянето на CRISPR и разкодирането на протеиновата база дават огромни възможности. В тези сфери ще можем да правим много неща, на които към този момент не сме били способни. Ще има революция в медицината. Но няма да стане бързо, според мен трябва да мине поне едно поколение по новия начин и ще отнеме поне 10-ина години.
– Много подобни изводи скоро сподели и друг мой гост, специалист именно в медицинските технологии. У нас също се развиват прелюбопитни проекти, свързани със здравето. Но какъв е пътят, за да имаме повече стартъпи, повече продуктови компании?
– Моето мнение от годините, докато още бях в Швеция, е, че
IT хората у нас дълго време бяха в някакъв вид летаргия, неосъзнавайки, че сървиз компаниите не могат да бъдат дългосрочно решение.
Това е нещо, което еволюира заедно с пазара, рано или късно ще се намери някой, който може по-евтино да направи дадено нещо и тази работа изчезва от предишния пазар.
България беше на много подходящо място за сървиз доста години, защото културата ни е по-близка до западната и имахме сравнително добро образование. Но трябваше да се използва тази инерция от средства, капитал и възможности, за да се направят продуктови компании и да се стимулира стартъп средата.
Доста закъсняхме. Наблюдавам Полша, и в момента има сървиз компании, разбира се, но и страшно много продуктови. Там успяха да забележат, че е важно и започнаха бързо да преминават към стартъп иновации.
Пример за това е един много интересен проект за съхраняване на данни, където се използва ДНК на растенията. Вече можем да използваме биологични елементи в реалната им среда за някакви практични цели. Едно дърво събира гигабайти информация, нещо изключително! Това се развива в Полша, основателката беше на конференция в САЩ и хората бяха изумени от пробива. Тоест, там успяха да използват капитала и възможностите, дадени им от момента, за да преминат към стартъп компании, докато държави като нашата, за съжаление, се забавиха.
– Как можем да наваксаме?
– Нямам еднозначен отговор. Много е важна самата среда, но първото нещо, което според мен трябва хората да разберат е, че
ерата на сървиз компаниите приключи. Тепърва ще се вижда това като ефект много по-радикално.
Да, в България има няколко големи играчи, но те постепенно ще намаляват своето влияние, виждаме съкращенията. Единственото решение е хората да се ориентират как да създават продуктови компании.
Само че те се правят с по-различен манталитет. Както е казал Стив Джобс, целта на една компания е да оцелее до момента, в който продуктът е готов. Това означава, че ще тръгнеш с една идея, която трябва да стане продукт, но този път може да отнеме 2-3-5 години. На дълбокотехнологичните компании като нашата понякога им отнема и повече от десетилетие, така например и със съхраняването на данни в растения.
Но хората въпреки това тръгват да го правят. За да се случи, в момента, в който тръгват, трябва в средата около тях да има хора с позитивно мислене, които да повярват и да инвестират дългосрочно.
– Но то май опира и до народопсихология…
– Трябва обкръжението да е такова. Ако искаме да сме държавата, която ще прави силен стартъп, трябва да поддържаме такива хора, да им даваме сили, да им казваме, че могат да се справят, да ги бутаме напред с каквото можем. Докато манталитетът все още е: „защо се захвана с това, много е трудно“, „10 години, я по-добре си работи в сървиз компания“, „тая идея няма как да стане“.
Няма да стане по този начин. Когато всички те дърпат надолу, стартъп трудно се развива. Аз го казвам отстрани, в Швеция манталитетът е различен, близо 70-80 години имат развита стартъп култура.
В света на изкуствения интелект даже Европейският съюз според мен е назад, защото в Силициевата долина стартъпите работят с една огромна разлика, много проста. Там хората са изключително отворени да споделят идеите си. И след като са ги споделили и решат: „Окей, това го правим“, никой няма да го вземе и да започне състезание. Отиваш, срещаш се с другия и го правите заедно. Намирате още 10 съмишленици и се получава една голяма компания. Всички вярвате в идеята, готови сте да инвестирате години от живота си, събирате се и правите нещо уникално.
– Защо се върна?
– Стечение на обстоятелствата. Честно казано, още не съм убеден, че се чувствам много добре тук. Определено има културни разлики, някои хубави неща, които съм видял в Швеция и тук доста ми липсват. И обратното, разбира се, но като тегля чертата, нещата са на кантар. Много хора казват: страшно ми хареса, като се върнах.
По-скоро си ми харесва в Скандинавия и даже се връщам от време на време. Но пък за сметка на това се опитвам да променя каквото мога тук…
Ако разговорът ни с Виктор Ботев ви е заинтригувал, можете да видите продължението му в неделя на живо! Заедно с журналистката от БНТ1 Анна Ангелова, Виктор ще е гост на събитие, чийто домакин са Дигитални истории.
На 12 май (неделя) от 19 ч идва време за срещата „Истината и само истината“. Като част от Софийския фестивал на науката, в София Тех Парк ще поговорим за бъдещето на начина, по който получаваме информация. За повече информация и билети – тук.