Проф. Преслав Наков е сред най-успешните български учени в областта на изкуствения интелект. Специалността му е обработката на естествен език (Natural Language Processing или NLP), много класации го поставят сред топ учените в направлението в световен план.
Именно тази област през последните години показва главозамайващи резултати. Пълноценната обработка и създаване на текстове, машинният превод, генерирането на невероятно креативни изображения по описание. Примери в тази посока са забележителният модел GPT-3 и дългоочакваният му наследник GPT-4.
Проф. Наков е познат като създателя на ИИ – „ловец“ на фалшиви новини, при това преди още те да бъдат написани. Защитава докторска дисертация в Калифорнийския университет в Бъркли, бил е в някои от най-авторитетните университети по всички краища на света, а от тази година е в Обединените арабски емирства, в университета за ИИ „Мохамед бин Зайед“ (MBZUAI), който само за 2 години вече е в световния топ 24 в своята област. Екипът е впечатляващ, 30 кандидати се борят за едно място в докторантската и магистърската програма. Проф. Наков преподава и е зам. ръководител на Катедрата по обработка на естествен език, а вратата е широко отворена за българи. (Още от биографията му – тук.)
Кои са най-актуалните посоки, от които да очакваме новини в света на изкуствения интелект и конкретно в обработката на текст? Къде ентусиазмът идва в повече на фона на реалността? Близо ли сме до генералния изкуствен интелект, който може да наподоби и дори да задмине човека? Възможен ли е изобщо той? Трябва ли това да ни плаши, или напротив – да ни изпълва с ентусиазъм за бъдещето?
– Как се насочи конкретно към обработката на естествен език като посока на изследвания?
– Винаги съм имал интерес към различните езици.
Говоря свободно 8 езика и съм учил още 4,
но нещата станаха случайно. Бях по европейска програма в Юнивърсити колидж в Лондон, когато професорите ме посъветваха да намеря някаква област, в която да се фокусирам и да направя нещо, което никой друг не е правил. Още бях студент, когато се върнах в България, потърсих специалисти в тази област и попаднах на Галя Ангелова от БАН, която по-късно стана ръководител на дипломната ми работа.
Хората в компютърната лингвистика идваха от две посоки – или езиковеди, които постепенно навлизаха в компютърните методи, или обратното, защото областта е на границата между двете области. Но днес лингвистичният аспект понамаля заради развитието на дълбоките невронни мрежи, където няма толкова значение морфологията на думите, структурата на изреченията. Всичко може да се моделира със сложни модели, които учат за всички нива на езика. Резултатите от това са много добри.
– Направо впечатляващи и дори това не е достатъчно силна дума. Толкова добри, че даже не си даваме сметка. Направих си експеримент със създаване, редактиране, преразказ на текст и се убедих, че много от професиите в тази област вече са на практика ненужни. Макар че все още не го осъзнаваме.
– През последните години се появиха модели, които започнаха истинска революция. 2019-а беше годината на BERT и в продължение на няколко месеца, всичко, което хората правеха, беше да го пуснат върху нови и нови задачи и почти всеки път да получават подобрение спрямо най-добрите резултати до момента. В момента на официалното представяне на тази статия над 90% от научните публикации вече я използваха и цитираха, тъй като тя беше пусната свободно в arXiv в края на 2018 г. Там имаме българска следа, един от авторите е Кристина Тутанова. BERT идва от „Гугъл“, RoBERTa е подобен модел и отговорът на „Фейсбук“, при него също има съавтор българин – Веселин Стоянов.
OpenAI в началото не искаха да пускат GPT-2, защото той е перфектен генератор на фалшиви новини. После дойде GPT-3, който се използва за какво ли не – от генерирането на есе през машинен превод до писане на компютърен програмен код. Напоследък наистина има сериозен напредък и в генерирането на изображения. Там има проблеми за това как да адаптираме текста към местната култура – например представата какво е лодка, кафе, палатка доста се променя в различните култури.
– Правих си експеримент с DALL·E 2, MidJourney и други и е много интересно как системите, генериращи изображение по описание, тръгват в коренно различни посоки. Това вероятно не е толкова резултат от самите модели, колкото от данните, с които са обучени, така ли е?
– По принцип да и това е сериозен проблем. Когато експериментирах с GPT-2, го питах за коронавируса, а той започна да ми говори за SARS и други болести, защото е обучен на по-стари текстове. Ако искам да генерирам история за София, няма да се справи, защото има ограничено знание.
Има и проблеми с различни стереотипи, свързани с начина, по който моделът вижда отделни националности или държави, защото това е гледната точка в текстовете, на които е обучен. Хората казват, че тези алгоритми имат пристрастия. Понякога е така, но в повечето случаи проблемът идва от данните. Например система, която решава дали да отпусне заем. Историческите данни могат да са такива, че хора от определена етническа група да са получавали повече откази.
Какво можем да направим? Ако обучим алгоритъма върху исторически данни, той ще възпроизведе статистиката заради практиката от миналото. И тук има различни решения. Можем да адаптираме алгоритъма, така че да вземе мерки срещу „залитанията“. Можем да балансираме по някакъв начин данните или да вземем нови, които да имат характеристиките, които смятаме, че ни трябват.
– Любопитно е с какви данни се обучават тези алгоритми. При GPT-3 90% са случайно събрани текстове от интернет и малко „Уикипедия“. Не го учим по речници, учебници, академични трудове, както би било преди време, а с най-обикновена, широка и разнообразна информация. Другата голяма изненада е, че GPT-4 ще има по-малко параметри от GPT-3.
– Съревнованието за повече и повече параметри така или иначе трябваше да спре. Законът на Мур казва, че способностите на хардуера се удвояват на всеки 2 години. Докато, ако погледнем начина, по който моделите нарастват, изискванията се удвояват за 3-4 месеца. Допреди няколко години имахме паралелно нарастване на изискванията на хардуера, но напоследък не е така.
Наистина, ако има повече параметри, алгоритъмът „знае“ повече. GPT-3 може да се използва за много различни задачи с помощта на допълнителни настройки. Например, ако целта ни е да напишем автоматично CV и имаме няколкостотин примера, можем да му ги подадем и така да адаптираме модела към задачата, което става с няколко стъпки на допълнително обучение. По-малките модели не биха могли да работят така.
А когато имаме огромно количество параметри, можем да използваме модела за много неща и директно, без допълнителни промени, например за генериране на блогпостове.
Днес много често
най-важното изискване се оказва да дадем на алгоритъма добро описание на задачата.
– И това е много интересен начин за взаимодействие между нашия интелект и изкуствения…
– Това е естественото развитие на процесите в тази област. Тя започва през 80-те с експертните системи. По това време се прекарват години в разговори със специалистите в дадена област, после ръчно кодиране на правилата, научени от тях. Всичко работи чудесно, докато броят на правилата не нарасне: тогава, ако искаме да добавим още едно правило, не е ясно как то ще взаимодейства с досегашните 5000.
После идва машинното самообучение. Тук не питаме експерта как решава проблема, а даваме примери от решения на компютъра. Ето, това изречение се превежда така, давам ти един милион изречения със сто милиона думи и няма да се налага да знаеш коя дума как се превежда, нито какви са правилата, ще го научиш от примерите. Тук проблемът е ръчното кодиране на характеристиките, които искаме да наблюдаваме и които са важни за решаване на задачата. Например, ако искаме да класифицираме текст в категории като политика/бизнес/спорт, обикновено се фокусираме върху думи, които носят собствен смисъл (съществителни, прилагателни, глаголи, причастия) и изключваме пунктуацията и стоп-думи като „и“, „на“, „за“, „му“, които само внасят шум. Ако обаче искаме да разпознаем кой е авторът на даден текст, трябва да наблюдаваме точно такива характеристики, защото те изразяват добре авторовия стил.
Третата вълна са дълбоките невронни мрежи, които работят директно с текста и няма нужда от правила и характеристики: моделът сам научава кои са важните характеристики. Безплатен обяд обаче пак няма: тук проблемът вече е как да изберем стойности на хиперпараметрите. Можем да си мислим за тези хиперпараметри като за различни „копчета“, с които можем да направим фино настройване на моделите и, ако го правим добре, те работят чудесно.
Но ако погледнем нещата малко по-отвисоко – хората не се учат само от примери. Ако искаме да решим дадена задача, примерите са полезни, но трябва и да знаем каква е задачата. Ако ни дадат списък с рецензии на ресторанти и анотации с два класа – 0 и 1 за тях, не е ясно какво се иска от нас: дали да разпознаем в двете стойности положителните и отрицателните рецензии или това дали става дума за пица или за готвено ястие.
Това е много
мощната идея, която дойде с тези големи модели – че можем да обясним задачата на компютъра с текстово описание на човешки език.
Така, вместо да учим всяка система на всяка нова задача, имаме един универсален изкуствен интелект, на когото да обясним какво искаме, да му дадем няколко примера и той да върне отговор. За мен това е качествено нов начин на мислене и той е четвъртата вълна.
– Всяко от тези неща все още работи зле на български, включително и автоматичният превод. Как може да се разреши този проблем?
– Нашият език е привилегирован по отношение на машинния превод, защото България е член на ЕС и огромни обеми документи се превеждат на български език. Но това е много ограничена част от езика.
Единият отговор е, че нещата ще се подобрят, когато се натрупат повече учебни данни. Другият отговор е, че това зависи от това доколко интересен е българският език на големите софтуерни компании. Да си припомним ситуацията с локализацията. Преди време големите софтуерни продукти – Windows, Office, излизаха на английски и няколко други езика, и се питахме кога ще излезе локализация и на български език. Отговорът беше ясен и точно това се случи: когато има достатъчно потребители, които купуват лицензи, за да има икономически смисъл за това. Тук нещата са подобни,
ако има икономически смисъл, някой ще го направи.
– Ще стигнем ли един ден до генерален ИИ? Защото GPT-3 много прилича на това…
– Напоследък доста се говори за това – имаше новини и от „Гугъл“, и от OpenAI. Лично аз на този етап съм по-скоро скептично настроен. Ние все още не сме постигнали генерален ИИ.
Имаме много мощни модели, но те нямат разбиране за езика.
На някакво високо ниво това са много интелигентни търсачки. Могат да научат шаблони, да съобразят някакви връзки и да намират различни парчета, които трябва да се сглобят, за да се стигне до отговора. Но нямат истинско разбиране за езика, за семантиката на определени думи, още по-малко за прагматиката.
Допреди няколко години невронните мрежи бяха считани за неоптимални и бяха пренебрегвани. После се измислиха нови невронни архитектури и нещата се промениха.
Започнахме да се доближаваме до това да решаваме задачи много по-добре. Специалистите взеха да се чудят дали компютрите са станали по-добри от хората в широк кръг от лингвистични задачи. Беше измислен индексът GLUE от 10-ина задачи на естествения език и след по-малко от 2 години алгоритмите вече можеха да ги решават по-добре от човека. После беше създаден индексът Super GLUE, уж много по-труден, а моделите го „биха“ само след година. Някои учени започнаха да поставят въпроса дали наистина не се доближаваме до нещо като свръхчовек.
В действителност, макар много от тези модели да се справят забележително добре със задачите си, точността им пада значително, когато ги сложим в малко по-различна област. Те се научават много добре да решават определена задача, но ако отидем малко встрани, нещата не са така.
Така е и със самоуправляващите се автомобили. Ние искаме, ако се появи крава на пътя, моделът да я познае и заобиколи. И той се учи, познава я на сух път, на ливада… и в един момент се оказва, че не може да я различи, ако зад нея има червен автобус. За нас, хората, няма значение фонът, а алгоритмите някак нямат разбиране за цялата ситуация.
Те работят невероятно добре и същевременно елементарни неща могат да ги объркат.
Картинка, на която са манипулирани няколко пиксела, заблуждава модела да смята, че това не е вече знакът „Стоп“, а друг знак. Подобна ситуация може да възникне и ако има стикери върху знака, или ако някой го е обърнал леко настрани… Това за нашето мислене е необяснимо.
– Тоест, по някакъв начин алгоритмите нямат по-цялостно разбиране за ситуацията.
– Също и за семантиката. Има различни дефиниции за „изкуствен интелект“, сега всяка интелигентна система се нарича по този начин, а едно време не беше така. Имало е и периоди, когато „изкуствен интелект“ е бил мръсна дума, сега е обратното,
ние сме в процес на свръхочаквания, които до голяма степен са оправдани, защото новите модели работят много добре за широк кръг задачи.
Но за това, което имаме в момента, „изкуствен интелект“ не е точен термин, по-правилно е да говорим за „машинно самообучение“. Имаме модели, които се учат върху примери и на базата на това вземат решения, генерират текст, правят класификация и др.
За да говорим за истински интелект, има тест на Тюринг, а и други, тяхната работа е да ни дадат отговора.
– Ако се водим по Тюринг, не сме ли го постигнали отдавна? Ако човек седне да си говори с GPT-3, няма как да различи дали има насреща друг човек или компютър…
– Не съм сигурен. Тестът на Тюринг официално все още не е минат, има годишно състезание и преди няколко години пресата беше гръмнала, че една система го е издържала. В същия ден редица известни учени от цял свят започнаха да го оспорват. В днешно време се смята, че официално тестът на Тюринг все още не е минат.
Освен това ние
трябва да внимаваме с тестовете и да не ги абсолютизираме,
историята с GLUE е показателна. Ако успеем да бием човека в дадена задача, това какво означава? Че имаме машина, която е по-добра от него, или че просто трябва да направим по-добър тест, който по-адекватно да отразява действителните „интелектуални“ способности на машината?
Понеже „изкуствен интелект“ като термин вече е окупиран от машинното самообучение и от системи, които действат интелигентно, започва да се развива ново направление, което вече задава тези фундаментални въпроси – дали всъщност имаме истинско, фундаментално разбиране?
Новата дисциплина се нарича „генерален ИИ“ и пита именно дали сме там.
– А можем ли да бъдем „там“ в обозримото бъдеще?
– Да, ще ми се да вярвам, че можем. Със сигурност системите стават по-интелигентни, виждаме го. Качеството и на машинния превод се подобрява, и на генерацията на текст.
Въпросът е по-скоро какво искаме да постигнем? Има две основни направления в изкуствения интелект: силно и слабо. Слабото казва: „Искаме да построим системи, способни да решават задачи, за които се смята, че изискват човешка интелигентност“. Силното казва: „Искаме да построим системи, които да решават задачи така, както би ги решил човекът“.
И тук има голямо разминаване, силното направление се фокусира върху това дали наистина постигаме това, което прави човекът, дали имаме дълбоко разбиране, абстракция? А слабото експлоатира това, че ние нямаме нуждата да имитираме човека. Ако искаме да умножаваме 17-цифрени числа, можем да го направим много по-лесно и по-бързо.
Слабото направление казва, че има задачи, за които се иска човешка интелигентност, например разпознаване на говор, на ръкописен текст, генериране, резюмиране на текст. И ние решаваме задачата, независимо дали е по начина, по който го прави човекът.
Ние имаме огромен успех в това слабо направление, въпросът е дали това ни дава напредък и в силното?
– Какъв е твоят личен отговор?
– Според мен ще започнем да напредваме и там.
Но ще бъде бавно. Едната причина е, че не знаем как да го направим.
Знаем как да решаваме конкретна задача, която изисква интелигентност: първо събираме много данни, обучаваме модел, наблюдаваме къде греши, фокусираме се в това дали нещо трябва да се промени в модела, дали трябва да му дадем още и други данни и т.н.
И това е работещо решение, за да получим по-добра система. Но то доближава ли ни до система, която наистина е интелигентна и може да решава широк кръг от задачи? Не съм толкова сигурен.
GPT-3 е много добра посока на развитие – защо не обясним на системата какво искаме от нея на човешки език? Да се учи не само от огромно количество примери, но и от описание на задачата.
Тези големи езикови модели не са изградили някаква по-висша форма на ИИ, но на някакво ниво се движат в правилното направление. Защото там си говорим за решаване на задача, поставена на човешки език, и това е качествено различно търсене.
Това, което на нас ни трябва в момента, е по-добро разбиране.
И хората го осъзнават. Има граници на изчислителната мощ, на паметта, на данните, които можем да получим.
Намираме се в момента на преход от системите, които са много добри в конкретна задача към такива, които са по-универсални и на които мога да обясня на човешки език какво искам. Искам машина, която да бъде универсална, защото примерът е човекът, а той може да решава много различни задачи и това е част от интелекта. Включително възможността да пренесе опит от една към друга задача.
На този етап инструментариумът, който имаме, не е готов, но мисля, че задаваме правилните въпроси и поставяме правилната задача. Така че в дългосрочна перспектива съм оптимист.
– Как изглеждат следващите стъпки, ако се насочим по този път?
– Всяка наука първоначално е емпирична, натрупваме опит, знания, наблюдения. Просто гледаме какво се случва, след което се опитваме да формулираме теория и да получим някакво по-високо разбиране. След това използваме тази теория, за да решаваме по-добре различни задачи.
В момента сме на етапа на натрупването на експериментални резултати. Повечето от тези модели са много нови, на няколко години, все още изследваме какви са ограниченията им. После ще започнем да се опитваме да ги оправим инженерно, а паралелно с това да строим и теории.
Според мен трябва да се върнем назад
и да вземем малко от знанието на експерта от експертните системи, да го съберем с огромното количество данни и да добавим възможността, че алгоритъмът може да се учи от различен тип данни, да съберем четирите вълни.
Ние, хората, се учим от всички тези неща. Мнението на експертите ни помага, също и натрупването на много опит, търсенето на взаимовръзки и накрая – абстрактното мислене и търсенето на взаимовръзки между много различни области.
– Казваш, че си оптимист, но за много хора развитието в тази посока е плашещо. Има ли посоки, които и за теб са плашещи?
– При сегашното състояние на технологиите аз не виждам причина за притеснение. Да, може да дойде момент, когато те да станат плашещи. Мъск е от хората, които се притесняват, но други, като Ерик Шмид от „Гугъл“, възразяват.
За мен в този момент това е теоретичен въпрос. Ние нямаме компютри, които да имат собствено съзнание, а по-скоро системи, които решават задачи.
Това ще се развива в по-дългосрочна перспектива. Не знам дали някога ще се стигне дотам, може би. Но
това според мен ще бъде по-ниско приоритетна посока на развитие,
от една страна, защото е по-трудно. За да стигнем дотам, трябва да решим всички фундаментални въпроси на изкуствения интелект, а напредъкът в истинския смисъл на термина е постепенен.
От друга страна: кой би платил за това? Къде е икономическият интерес? Ако става въпрос за машинен превод, самоуправляващи се коли, има компании и потребители, които са готови да плащат, но
кой е готов да плати за машина, която има собствено съзнание?
– Кой ли наистина? И дали някога ще съжаляваме, или ще се радваме, че някой не е вложил в тази посока? Ще се радвам след няколко години пак да се срещнем и да поговорим по тези теми…
Проф. Наков създава с колегите си в Абу Даби своеобразен оазис в разработването на изкуствен интелект, университетът вече е на 24-о място в света в своята област, водещ в машинното самообучение, компютърното зрение и обработката на естествени езици, водещ в световните конференции по ИИ (например с 27 статии на NeurIPS’2022).
Екипът набира магистри и докторанти, които да учат от водещи световни специалисти, а вратите са широко отворени за българи.
Ако вашите свръхспособности са в тази посока, кандидатствайте или пишете на preslav.nakov@mbzuai.ac.ae.