Какви ли не хобита имат хората – някои колекционират марки, други – евро, трети дори имат търпението да гледат български футбол. Е, аз освен че имам навика да проверявам нищожните си познания в телевизионни куизове, имам и още едно – да подлагам на съмнение, да експериментирам, да търся различни от шаблонните гледни точки към модерните технологии.
Какъв е коефициентът на интелигентност на напредналия изкуствения интелект?
Достига ли, надминава ли средните 100 точки на днешното човечество? Адекватен критерий за оценка на напредъка ли са тестовете, с които се открояват най-интелигентните хора на планетата? (Където, впрочем, българка е начело на вечната класация.)
Хайде да проверим заедно!
Ентелект
Сигурно ви се е случвало да сте разочаровани от приятел. Е, на мен ми се случи преди няколко седмици. Реших да изправя ChatGPT (нека ме има за приятел, когато стане още по-умен) на куиз състезание срещу някои от безспорните победители в състезанието „Последният печели“. Преди година с Атанас Атанасов бяхме направили подобен експеримент – включихме електронния умник в надпреварата и той зае почетното четвърто място от 11 отбора! Сега решихме да видим колко са напреднали моделите и изправихме срещу шампионите флагмана на OpenAI. Предвкусвах как ще победи всички с огромна разлика… а резултатът се оказа трагикомичен (вижте тук).
Защо стана така? Моделите се справят по-зле, въпреки че според новините от ИИ света всеки следващ е все по-изумяващ с уменията си? Какво се случи?
Все още нямам обяснение за себе си. Затова реших отново да подложа на съмнение въпросния „приятел“. Дали този път отново ще ме „предаде“?
Всеки от ума си пати
Шегувам се, далеч съм от идеята да приема алгоритъм за приятел (макар че скоро ще ви разкажа историята за ИИ, който бе пуснат „от затвора“, за да прави секс, та… човек не знае).
Този експеримент отлагах дълго, предпочитам да правя опити, които измислям сам, или за които ми давате идея вие (тук). Попаднах на статия, проверяваща IQ нивото на „приятеля“ ми преди точно 2 години, при това не къде да е, а в Scientific American. Тя наистина ме изуми! Авторът – финландски психолог, беше дал на алгоритъма част от класическия тест на Векслер за определяне на интелигентността и резултатът беше цели 134 точки! Алгоритъмът, при това в онези му далечни от съвършените по възможностите си версии се беше оказал по-интелигентен от огромна част от хората! Или, ако говорим в цифри, ИИ се беше оказал в най-горния 1% най-интелигентни „хора“ на планетата!
Редно е да уточня, че в случая бяха подадени само въпросите, които могат да бъдат формулирани под формата на текст – така Ека Ройванен беше задал само 5 от 11-те теста в колекцията.
По-умният отстъпва
И все пак: „вербалният коефициент на интелигентност на ChatGPT е 155, което е повече от 99,9% от участниците в теста, които съставляват американската стандартизационна извадка WAIS III от 2450 души. Тъй като чатботът не разполага с необходимите очи, уши и ръце, той не може да се справи с невербалния подтест. Но скалите за вербален коефициент на интелигентност и за пълен коефициент на интелигентност са силно корелирани в стандартизираната извадка, така че ChatGPT изглежда много интелигентен по всички човешки стандарти“, написа още авторът.
Сега обаче новите модели приемат и обработват прекрасно и изображения, справят се на български толкова добре, че не ги отличават дори водещи литератори… Така че решавам да нямам никаква милост, особено към предател (шегувам се, ChatGPT!)! Този път вече е време да се направи истинския тест така, както го правят хората. Какво ли ще се случи?
Смислов
Темата как точно тестваме колко „добри“ са моделите е огромна и щекотлива дори за научните среди (както вече е ставало дума). Всички сме чували за теста на Тюринг, но… изобщо не е толкова просто. Има огромен брой критерии, по които се оценяват различните модели. През последните месеци българският институт INSAIT показва забележителни сравнения в тази посока. Въпреки това критериите за интелигентност на машините стават по-безбройни и от тези за измерване на човешката интелигентност. Те обаче имат и предимство – учат се целенасочено да ги изпълняват, затова всяка следваща поредица от конкретни задачи се оказва бързо по силите на поредното поколение алгоритми. Това няма как да се случи при нас, хората.
Ето защо се спирам на традиционния тест, по който с развитието на цивилизацията сме се примирили, че ще мерим човешката интелигентност.
За съжаление, няма как да дам на ChatGPT същинския тест на МЕНСА, който е утвърден и у нас, и по света като безспорен стандарт. Той се провежда при строги условия, в присъствието на психолог и никой освен психолозите няма достъп, така че резултатите да са сигурни. Човек може да го държи само два пъти в живота си!
Ти па си много умен
Най-близкото до него, с което разполагам, е тестът, даден като пример от самата организация на умните у нас и подготвен от норвежкото ѝ подразделение (ще го намерите тук). 35 въпроса точно по логиката на истинския тест, 25 минути.
Кой от моделите на ChatGPT би се представил най-добре? Кой да знае, ако не те самите! Питам „състезателя“ и той избира двама свои представители – ChatGPT-4o и o1 – единия като най-добър за широк кръг задачи, другия – заради умението му да търси логика. Няма проблем, ще тествам и двамата. Повече участници – по-точни резултати! (За пореден път е важно да спомена, че експериментите ми са журналистически и в никакъв случай нямат претенциите за дори далечна научна стойност.)
Копирам изображението от всяка задача, давам го на алгоритъма и го моля да даде отговора си, без никакви допълнителни обяснения. После нанасям. Да, моят „човек“ се справя доста бързо при тези условия, минали са само 7 от 25-те позволени минути, формата ме пита дали съм абсолютно напълно сигурен и убеден, че не искам да ползвам останалото време. Не, нямам търпение! Изпращам отговорите. Гений или интелектуален парий ще се окаже ChatGPT?
Къде започва пътят към надеждата
Е, ще почакаме малко за отговора. Формата ми съобщава, че резултатът е под 100 точки и не може да бъде по-подробна в аргументите си.
Добре, може би вторият вторият ще даде точен резултат.
Уви, резултатът е същият.
Дали наистина, както пише и във формата, не става дума за софтуерен проблем? Преди време с ChatGPT се състезавахме в „българския тест на Тюринг“ – матурата по литература, успях да го победя. Тук какво ли ще се случи, ако се включа и аз?
Признавам, не се старая прекалено, уморен съм (всички така казват, знам) и все пак получавам резултат, че коефициентът ми на интелигентност е 130.
(А е повече. Честна програмистска! Освен че имам документ за 148 единици, писаха го даже във вестника, като бях млад:
)
Но друг е въпросът. Дали наистина ChatGPT се е провалил? Под 100 дали значи 20 или 99 точки? Колко точно е интелигентен днес изкуственият интелект?
Казва ли ти някой?
Не, няма да се предам толкова лесно. Заравям се онлайн и намирам най-убедителния онлайн тест.
Да, срещу 30 лв. (не съм от тези колекционери, ще ги прежаля) ще мога да изправя състезателя срещу вариант на споменатия вече тест на Векслер. Тук, сигурен съм, резултат ще има, дори да е отрицателен, все пак струва пари.
Този път героят ни получава 20 въпроса, отново в познатата логика за визуален елемент, който завършва поредицата. Пак не се заглеждам или замислям, просто пускам изображенията, връщам отговорите и накрая…
Получавам сертификат!
Извинявайте, разбира се, не аз, а ChatGPT.
100 точки!
Това си е доста солиден резултат. Да, знам, че резултатите не са официални по никакъв начин, но все пак е забележително.
Гладен няма да остане
Алгоритъмът получава точно резултата, който се води усреднена стойност за цялата човешка популация.
Нали се сещате, че говорим за технология, която допреди няколко години дори самите създатели не смятаха за резонно да наричат „изкуствен интелект“, застраховайки се с неутралния термин „машинно самообучение“? Същите алгоритми, които се справяха трагично на редки езици като българския. И които обещават до края на тази година да са способни да решават всяка една задача по-добре от най-подготвените в нея представители на човешкия вид…
Задават се интересни времена!
Ум патки пасе
Дал съм все пак 30 лв., получавам и по-подробни данни за това къде се намира „моят човек“, в кои области се е представил отлично и в кои – задоволително. Разбира се, не е изненадващо, че е водещ със скоростта, за която е решил задачите. Това е една от големите разлика – ние, хората, можем да решим теста за средно 100 точки за 25 минути (ако въпросникът е подготвен, както би трябвало), той обаче е много по-бърз.
Важно е да отбележим и друго – използвам общ модел, който не е трениран конкретно за подобни задачи. Точно както 100 единици IQ са стандартът за всякакви хора. Тоест, ако брутално грубо съотнесем двете стойности, днес ChatGPT е толкова „интелигентен“, колкото сме и ние. И ако кавичките си стоят с пълна сила за тази дума, то скоро ще научите причината от поредната дигитална история.
5 са основните области, които проверява този тест. Най-добре моят приятел (този път не ме предаде!) се е представил в дедуктивното търсене на смисъл, най-слабо – в намирането на числова логика. Никак не е изненадващо, елементарните сметки през последните години често се оказват ахилесовата пета на ИИ.
Надявам се и вие ще се позабавлявате колко изостава ChatGPT в този тест от Чарлз Дарвин, че дори от ерудити като Дрейк и Джъстин Бийбър. Но пък всички знаем кой точно се смее най-добре.
Добре, няма да го правим астронавт, поне преди следващите поколения ИИ, които ще се справят още по-добре и на този, и на всеки следващ тест.
Редно е отново да уточня – тук просто ChatGPT, в случая моделът o1, получи изображение, което определено не е силната му страна. И въпреки че не му беше лесно, очевидно се справи.
Клуб 100
IQ 100. Звучи толкова нереално закръглено, че чак нагласено. Но пък, както пише Милан Кундера, „само случайността може да се тълкува като послание“.
Много ли е, или малко това? Какво означава за всички ни като вид? Защо интелигентността не трябва да спира да бъде цел и посока?
По тези и много други важни въпроси очаквайте следващите Дигитални истории. А по пътя на интелигентността ще продължим в интервю с националния психолог на МЕНСА.
Бъдете умни и търсещи! В едно съм убеден, само така можем да оцелеем…