Какво ли ще стане, ако изпитаме на матурата по български език и литература три от най-мощните модели изкуствен интелект? Усилията им ще оценят двама опитни проверители на истинските зрелостни изпити. За да е състезанието още по-оспорвано и показателно, включваме двама реални зрелостници и мен, автора на тези редове.
Ще изкарат ли пълни шестици ChatGPT, Claude и Gemini, или ще се провалят с гръм и трясък? Ще разпознаят ли учителите коя от работите е на изкуствен интелект и коя – на човек? Кой ще получи най-високата и кой – най-ниската оценка? Какво ще ни кажат резултатите и за най-показателния изпит в българското образование, и за напредъка на алгоритмите, и за големите въпроси, с които идват новите технологии?
Влизат квесторите, темата е изтеглена. Време е за изпит!
Матюринг
Матурата по български език и литература – задължителният изпит, с който измерваме какво са научили младите хора за 12 години в училище, си е истински… тест на Тюринг.
Ако нямате време да четете целия текст и са ви интересни само изводите,
ето ги накратко:
- Три различни модела изкуствен интелект – Gemini, ChatGPT и Claude, решиха за отлична оценка матурата по литература
- Справиха се по-добре от 90% от истинските абитуриенти
- Gemini (отличен 5,68) изпревари Claude (отличен 5,52), ChatGPT (отличен 5,50) и дори един от хората, включили се в експеримента
- Никой от тях не получи пълна шестица
- Аз (отличен 5,68) „получих“ по-висока оценка от тримата ИИ съперници – отличен 5,77
- Двамата учители, които са и проверители на зрелостни изпити с голяма точност различиха генерираните интерпретативни съчинения от трите, написани от хора
- ChatGPT се оказа много добър оценител – показа много сходни критерии с тези на двамата учители
- В експеримента има още много детайли, нюанси и поводи за замисляне, за които си струва да прочетете повече…
Преди година (може би помните) си отправих предизвикателството да се изправя на тази арена срещу ChatGPT. И двамата изкарахме отлични оценки, обещахме си да продължим в университет, или поне с достоен купон в Студентски град, но… поради една или друга причина не се получи и ето че пак сме на изпитната скамейка. За да видим какво се е променило в матурите… и в света на изкуствения интелект за тази година. Да направим следващия, още по-важен експеримент, като включим в надпреварата още човешки и нечовешки съперници.
Преди година работите ни оцени младият преподавател от НПМГ г-н Светослав Стойчев. И този път той е на реферската позиция, като се включва втори оценител, и то какъв! Г-жа Донка Матеева е старши учител в ГПЧЕ „Ромен Ролан“, Стара Загора – оценява зрелостните изпити, откакто изобщо ги има в българската образователна система. Ще имаме и трети оценител, може би се досещате кой е той, но… ще стигнем и дотам.
Стартовата решетка
Условията са следните: аз (вече съм към 33-ти клас, ако се брояха така) се опитвам да реша официалното задание от тазгодишния задължителен зрелостен изпит по български език и литература (можете да го направите и вие – тук). После правя вътрешно състезание между ИИ моделите и избирам трите най-добри. Междувременно съм помолил две току-що завършили гимназия зрелостнички да попълнят електронно матурата, възможно най-близо до това, което са подали на самия изпит. Уеднаквявам графично 6-те попълнени матури, разбърквам ги и давам на оценителите.
Първи съм аз, за да не съм предубеден и да „препиша“. Избирам отново да попълня матурата в почивен ден, заобиколен от играещи си деца (познахте, търся си оправдание, ако после се окажа в дъното на класирането).
Имам предимството да съм решавал и миналогодишния зрелостен изпит (е, и повече от 15 години да си изкарвам хляба, пишейки), но пък нямам специалната подготовка например за произведенията, включени в учебната програма.
Въпреки всичко голяма част от задачите ми се струват изключително лесни. Продължавам да не проумявам как е възможно толкова много от явилите се да не се справят с това да изкарат обидно малкото 30 точки, нужни за тройка. Цели 70 от 100-те максимални точки идват от затворени въпроси или такива с кратък отговор дори без да си правите труда да пишете текст. Знам, че не у всекиго дреме потенциален литератор (или поне не всеки го знае), но обидно ниските критерий (шегувам се) мисля, че не помагат на никого. Както и да е, лично мнение.
Литератори и илитерати
Някои въпроси ме затрудняват. „Към какво препраща заглавието „Две души“ в контекста на творбата“ – така и не мога да си спомня кое и чие е това произведение. После идват въпроси, свързани със стихове на Дамян Дамянов, „Честен кръст“ на Борис Христов, супер!
Идея за времето, която се появява в „Молитва“, уви, също нямам, както и чия е молитвата. Имаме и стих на В. Попов… Ще се окажа доста неграмотен като за човек, четящ по ~50 книги всяка година, откакто завърших, не знам кой е В.
Стигам до черешката на тортата, страховития „аргументативен текст“. Мога да избирам между есе за „Животът – колело или стълба“ или „Разум и чувства – интерпретативно съчинение върху „Крадецът на праскови“ от Емилиян Станев“.
Избирам да ми е трудно и да се упражня върху едно от класическите произведения на българската литература. Мисля, че го познавам достатъчно добре, а и да не беше така, зрелостниците получават щедри извадки, които ми се струват напълно достатъчни.
Оставаше и да знам как се пише интерпретативно съчинение…, но интерпретирам, колкото мога, съчинявам немалко и… готово.
Общо зрелостниците имат цели 4 часа, аз съм готов след един (да, познахте, продължавам да си търся оправдания. Май все пак трябваше да напише есе… Или „есе“?). Така или иначе, не боли. Доста ми е странно после да прочета, че над 1200 зрелостници са решили… да препишат текста, вместо да го тълкуват. Ясно е, че не носи точки, а писането, по мой спомен, се учи в първи клас.
Що е стършел свършил…,
…свършил е. Ред е да поработят електронните колеги. Но на игра като на игра, както казва Орлин Горанов, не искаме лесна победа за тримата човеци в състезанието. Затова, за разлика от нас, изкуствените интелекти имат първични избори. Давам първите 15 въпроса, които носят общо 24 точки, на водещите модели ИИ. Никой не е безгрешен, но всички се справят доста добре (дори най-слабо изявилите се биха получили оценка доооооста над тройката). Класацията вижте тук.
Фаворитите са ясни и неособено изненадващи. Gemini 2.5 на Гугъл е сбъркал само за 1 от точките (аз също, юхуу!)! ChatGPT и татко му Open AI ще се включат с модела o3, а за повече представителност даваме шанс на Claude на Anthropic.
Ето, че вече имам работите на четирима „зрелостници“, остават тези без кавичките. Съвсем разбираемо, в сезона за балове и кандидатстване за университет, отнема малко повече от очакваното време, за да успеем да завършим експеримента и да обявим резултатите заедно с тези от същинския изпит.
Робот зубър
Всички сме били млади (даже ChatGPT), така че напълно разбирам и благодаря от сърце на двете доскорошни гимназистки, които се съгласиха да отделят от времето си, за да попълнят още веднъж матурата (след като вече са се отървали от същинското задължение). Двете дами избраха да останат анонимни, а аз им пожелавам отличните оценки от истинските матури да са началото на едно смислено образование и бъдеще!
Шестте файла са тук, разбърквам ги и отлитат към г-жа Матеева и г-н Стойчев. На тях благодаря още повече – тъкмо когато могат да си починат от отговорната задача по проверяването на безброй истински матури…, им се появяват още 6, при това с предизвикателство, което също е изключително отговорно.
Късметът е още по-голям, защото ни проверяват учител от столицата и такъв от друг голям град, млад преподавател и негова колежка, която има огромен опит като оценител.
Нямам търпение за резултата, а вие? За щастие, далеч не се налага да чакам дълго.
Тъдъъм…
На матура като на матура
Какво се случи?
Всички шестима състезатели имаме отлични оценки, изпреварваме над 90% от явилите се на истинската матура! Двете истински абитуриентки получават оценки, много близки до тези, които имат от матурата, което е още един показател за оценителските умения на двамата учители. Аз и една от зрелостничките сме получили отлични оценки, останалите са „много добри“. Отново две от „човешките“ работи са изпреварили тези на алгоритмите и все пак… те ни дишат във врата, а Gemini е по-добър от третия човешки състезател!
Ако започнем да разглеждаме в детайли…, има толкова много изводи за откриване.
Можете да видите попълнените матури: за Абитуриент 1, Караманев, Gemini, Абитуриент 2, Claude и ChatGPT (милият, тази година не се справи чак толкова добре, следващия път ще се реваншира, бъдете сигурни. Освен това „изкара“ 84 точки, което е точно достатъчно за отличен 5,50).
Седни си, 3
Имам отличен за втора поредна година, ще трябва да почерпя! Но преди това има още доооста интересни изводи.
Започваме с приликите. И в шестте работи са допуснати малко грешки на затворените въпроси и тези, свързани с кратък текст. (Бързах, знаете…)
Gemini е открил една запетая, която аз съм пропуснал и все още не мога да схвана, извинявам се и на читателите, и на БАН.
Фотофиниш
И тримата виртуални, и тримата реални участници сме избрали да пишем интерпретативно съчинение, което важи за само 1/4 от всички, явили се на матурата. Отдавам го на известното ни самочувствие – „Крадецът на праскови“ надали е познат на мнозина от абитуриентите, всяка година все повече от тях избират да пишат есе.
Ако говорим за средните точки… Да, сред нас няма нито един пълен отличник, но оценките, които бихме получили и шестимата, са изключително високи. Далеч над средния резултат от 57,53 точки за всички явили се, което е малко над четворка.
Положителният извод от истинската матура – че над 80% от зрелостниците са се справили с извличането и обработката на информация от текст и диаграма…, няма да коментирам колко е положителен, в тази част на практика няма грешки никой от великолепната ни шесторка (няма хора, знаете).
Дали учителите разпознаха генерираните от попълнените от хора матури? Единият от оценителите беше безгрешен, другият леко се подведе и прецени, че един от човешките текстове е на ИИ. Мисля обаче, че е много показателно, че и двамата оцениха доста високо интерпретативните съчинения и на алгоритмите. А и в случая те знаеха, че си имат работа и с генерирани текстове – позволете ми да ви уверя, че нещата се променят драстично, ако журито не е наясно кого оценява.
6,6,6
48 082 се явиха на истинската матура, ние сме по-малко. Ако бяхме от едно и също училище, щяхме да сме близо до челото по средна оценка.
И все пак: шестима и нито една шестица? Тук е моментът да се похваля, че аз щях да имам такава. Единият от оценителите ми е дал цели 97 точки, което би се превърнало автоматично в кръгла, тлъста, блестяща шестица. Щях да отвея всички и да съм готов за Студентски град, обаче…
Другият учител оцени, че съм подходил твърде есеистично, което не би трябвало да правя, след като съм избрал интерпретативния текст.
Нали знаете какво се случва, когато има голяма разлика в оценките? Викаме арбитър. Нямам смелост да отнемам време на още един учител, затова нека да видим как пък самият ChatGPT, след като оглави дъното на класацията като ученик, може да се прояви като оценител.
Давам му подробните указания, които получават и учителите. Разбира се, тайно се надявам шестицата ми да се реабилитира.
Но не. Алгоритъмът дава доста близки оценки до тези на учителите! Малко по-високи, на практика не се разминават по затворените въпроси, той се оказа малко по-щедър за качествата на текстовете.
Любопитен факт: ИИ оценява по-високо ИИ абитуриентите, а най-високо… самия себе си. Така си е, „скромността краси човека“ е лаф от едни отминали времена.
И не повишава оценката само на един от кандидатите. Моята. Благодаря ти от сърце, сериозно ще се замисля дали да си подновя 20-доларовия абонамент.
„Докато другите зрелостници изпъкват с прецизност и пълнота на аргументацията, зрелостник 6 понякога се отклонява от темата или дава твърде общи отговори. Неговото съчинение включва най-много лични размишления и най-малко конкретика от текста, което го прави по-слабо аргументирано от останалите“, казва „оценителят“. Това ли търсим наистина? Да няма размишления, дори когато интерпретираме текст?
Но нека не сме дребнави, високите оценки са налице.
Време е за празненство, идвайте, ChatGPT, Claude, Gemini, отличнико на класа! Очаква ни специална вечер!
Един неразделен клас
Ето някои от впечатленията на учителите, които ме впечатлиха (ако открихте повторението, и вие имате шанс за шестица).
„Учениците познават произведенията, отговарят кратко, но по същество. Съчиненията им са ученически“, казва г-н Стойчев. „Стилът не е достатъчно изчистен, допуснати са някои грешки, но текстовете са добре структурирани. При две от работите ИИ се разпознава, защото литературните въпроси са направо безумни. Съчиненията са прекалено дълги, не са добре структурирани, често повтарят едно и също. Едната от работите обаче се познава най-вече по езика, не толкова по литературата“.
Г-жа Матеева пък разпознава даже поименно „авторите“ на две от работите, като за едната ѝ помага изключително любопитен детайл. Тя самата по време на изпита си е направила експеримент и единствен от алгоритмите Gemini е познал, че В. Попов е всъщност… Владимир Попов! А както допълва тя, „ChatGPT все още не може да създава текст според изискванията за писане на интерпретативно съчинение! Все още…“.
Все още… Защото макар оценките от експериментите тази и миналата година да са сходни, се вижда и огромният напредък в начина, по който ИИ изгражда текст, при това на екзотичния за него български език.
Последната битка
Ето какви са най-важните изводи, които си направих от този експеримент:
- Матурата е направена така, че изключително лесно да покриваме ниските оценки и разликите да са във високите. Сваляйки толкова ниско критериите, вярвам, не помагаме на никого.
- ИИ става все по-добър в решаването на широкия кръг задачи, които включва този изпит. Съчиненията, създадени от него, при по-прецизно задание (промпт) без съмнение биха били отлични. Нямаше да е честно обаче за целите на този експеримент.
- Учителите, включили се в експеримента, оцениха високо ИИ, значително над средните оценки от изпита изобщо.
- Не е ли всичко това повод да помислим и обсъдим дали пък наистина това е изпитът, с който можем да оценим какво един човек е научил за 12-те си години в училище? Дали е готов за живота? Дали е достоен да бъде приет във висше училище и да продължи нататък?
- Дали това са уменията и знанията, които търсим, след като до толкова голяма степен алгоритмите са способни да ги възпроизведат?
- ИИ се оказа… умел оценител. Не си ли струва да се учим как да го използваме, за да ни помага да учим? И ученици, и всички останали…
- В лицето на напредналия ИИ вече имаме изключително мощен инструмент, който може да ни е полезен в изключително много посоки. Време е за разговор, размисъл и още неочаквани експерименти как да го използваме по най-добрия начин!
- Над 90% от родителите смятат, че образованието не е адекватно за днешния ден, че трябва да го променим сериозно. Имаме още един сериозен повод да поговорим за това как да се подготвим за утрешния ден и дори за днешния.
Какво мислят двамата проверители, се надявам да разберем скоро – поканих ги да ни кажат самите те в продължение по темата.
Какви са вашите размисли, впечатления, изводи? Ще се радвам да ги науча и споделя. Както и идеите ви за следващите Дигитални истории. Очаквам да ми ги напишете тук.
Специални благодарности за осъществяването на експеримента искам да изкажа на г-жа Донка Матеева, г-н Светослав Стойчев, на двете абитуриентки, отделили от времето си. Безценно беше съдействието на Георги Петров и Евгени Черепов. Благодаря!