Идва GPT-4, който обещава да промени всичко

сеп. 16, 2022 | Технологии

Идва GPT-4, който обещава да промени всичко

16 септември 2022 | Технологии

Надали има в света на прословутия изкуствен интелект алгоритъм, по-прочут от GPT-3. Тук можете да прочетете подробно как и защо решението на OpenAI се оказа сериозен пробив в редица области. Той се появи в края на 2020-а и малко по малко даде шанс да изследователи от различни посоки да използват възможностите му, за да покажат невиждани до момента пробиви. В създаването и редактирането на текстове, в превода, в генерирането на компютърен код, за свръхнапреднали чатботове и какво ли още не.

И ето че идва следващият състезател. Макар и забавил се спрямо първоначалните очаквания, GPT-4 се очаква да бъде представен съвсем скоро. Дали от него можем да получим дори много повече? С какво се различава от предшественика си? Кои са областите, в които очакваме да донесе нещо наистина различно?

 

GPT-4

Изображенията, които виждате, са създадени от „детето“ на GPT-3 – DALL·E. Под всяка от тях ще намерите описанието, зададено на алгоритъма. Тук имаме „маслено платно на Анри Матис на робот хуманоид, който играе шах“

 

G пи три

И така, става дума за модел от висшия пилотаж на изкуствения интелект – дълбоките невронни мрежи. Този тип алгоритми стават изключително добри тогава, когато имат достъп до масивни обеми от информация, на базата на които се учат да търсят и намират закономерностите. После изпълняват поставената задача – например да генерират свой текст по зададени параметри.

Съкращението идва от „генеративен предварително обучен трансформатор“, Generative Pretrained Transformer. Всяка от версиите всъщност не е един модел, а група от такива, които имат различно предназначение.

Когато става дума за някои от големите компании, те разчитат на свои алгоритми в това начинание. Големият плюс на OpenAI, както си личи и от името на начинанието, стартирано от Илон Мъск и съмишленици, е, че дава достъп на разнообразни проекти до претренирания модел, който се справя добре с широк кръг задачи. Оттук нататък е работа на отделните екипи да формулират заданието си и да го подготвят така, че да се възползват от уменията на алгоритъма.

Най-впечатляващи бяха успехите във всички области, свързани с текста. GPT-3 беше безспорен пробив, що се отнася до каквито и да било манипулации, свързани с думи. Разбира се, тези възможности бяха преди всичко свързани с английския език. Появиха се приложения, с които невероятно успешно се обработва текст – той бива редактиран, пренаписван в различни стилове и какво ли още не. Оказа се, че платформата работи невероятно добре и в други посоки – например генерирането на компютърен код или ноти. Всичко, което по някакъв начин може да бъде сведено до писмени знаци.

 

GPT-4

„Добър, приятелски настроен робот от Ренесанса“

 

G(PT)enius

А също и в наподобяването – например в провеждането на разговор.

Дали и следващият член на GPT семейството ще донесе подобен пробив, но в следващите области? Това е един от въпросите, които си задават специалистите в областта на изкуствения интелект. Както неотдавна каза футуроложката доц. Мариана Тодорова, от GPT-4 се очакват големи неща. Всички в тази област са наострили уши, докато, за съжаление, конкретните новини за уменията на бъдещия алгоритъм все още остават неясни.

Например, що се отнася до броя на параметрите, с които ще бъде обучен. Данните са ужасно противоречиви. В началото се говореше, че ще са десетки трилиони, после трилион… докато накрая се оказва, че е по-вероятно да става дума за дори по-малко входни данни, отколкото тези, с които беше обучен предшественикът му.

GPT-1 дойде през 2018-а, година по-късно пристигна и наследникът му, който беше обучен на 1,5 милиарда параметъра. Прословутият вариант 3 беше представен през 2020-а със своите 175 милиарда единици информация. Така четвъртата версия се бави от ритъма на пускане на останалите, а ето че учудва и по другия водещ показател…

 

GPT-4

„Два робота обсъждат бъдещето, реалистично изображение“

 

G си ти

В началото, покрай еуфорията, дошла с налагането на третата версия, се говореше, че последващата я ще бъде обучена със 100 трилиона параметъра и с това за първи път ще бъде достигнат броят на синапсите – връзките между невроните, които всеки от нас приютява в мозъка си. А ето, че крачката ще бъде по-скоро назад – към дори по-малко от 175-те милиарда.

По-скоро ще се разчита на по-развити алгоритми. И на по-внимателен подбор на това какво точно ще съдържат данните за самообучение.

Факт е, че закономерностите в тази посока до момента изглеждаха незаобиколими. Дълго време развитието на невронните мрежи се забавяше от невъзможността на компютрите да обработват данните в обемите, които са им нужни. После, някак естествено, хардуерът напредна и стана ред на софтуера да го настигне. Защото се оказа, че обемът има значение за това да подобрява резултатите само тогава, когато е смислено подаден. Когато невронните мрежи се учат не на базата на телефонния указател, а на повече и повече текстове, които обаче са смислено структурирани.

Новината, че GPT-3 ще бъде обучен на по-малко параметри дойде от думите на изпълнителния директор на OpenAI Сам Алтман, който, за съжаление, рядко дава интервюта по темата. Той каза още, че макар базата, с която бъдещият алгоритъм ще бъде „захранен“, да е по-скромна, той ще е значително по-сложен от своя предшественик. Обучението му ще изисква значително по-голяма изчислителна мощ, но той ще се справя с много повече поставени задачи.

 

GPT-4

„Много интелигентен и симпатичен андроид, който има чувства“

 

Размерът…

Така или иначе, GPT-3 и до момента, макар безспорно да е най-известният, далеч не е изкуственият интелект, който държи първенството по брой параметри, на които е обучен. Gopher например е „прочел“ 280, PaLM – 540 млрд.

Обучението е най-ключовата част от работата на дълбоките невронни мрежи. В началото те са просто поредици от алгоритми, които не са способни да решават задачи. Трябва да бъдат „захранени“ с максимално голям обем информация, на базата на който да свикнат да намират закономерностите, да търсят важните фактори, да дават повече тежест на тези части от мрежата, които се оказват по-показателни.

Дълго време изглеждаше, че взаимовръзката е пряка – колкото повече са данните, толкова по-прецизни са резултатите. Според много от учените обаче вече сме постигнали предела от това данните да има смисъл да растат като обем, докато е много по-важно как точно работят алгоритмите, каква е архитектурата на невронната мрежа.

 

GPT-4

„Маслена картина на Ван Гог на робот хуманоид, който пие бира“

 

G(PT) точка

Важно уточнение, което трябва да направим, е, че що се отнася до дълбоките невронни мрежи, уви, ние знаем твърде малко за конкретния начин, по който функционират. Те са затворена, черна кутия, поредица от слоеве алгоритми, за които знаем само входните и изходните данни. Можем да им влияем с различни допълнителни параметри, но като цяло как точно са били обучени от приемането на данните си остава енигма. Какво се случва „вътре“, кои параметри ги „вълнуват“, все още са важни и недостатъчно отговорени въпроси, за които се търсят нестандартни решения (като например „дълбокия сън“).

Някъде тук идва следващият голям въпрос: ако GPT-4 в крайна започне да дава точен отговор във все повече области, дали той няма да е и поредната стъпка към евентуалния бъдещ генерален изкуствен интелект? Или поне ще е нещото, което все повече го наподобява.

Още нещо любопитно, което вече се знае за GPT-4, е, че той отново ще бъде обучаван само с текст. През последните години станаха популярни начинанията, при които се търси мултимодалност – данните, които се подават, са не само текст, но и изображения, звуци, видео. Популярен и впечатляващ пример в тази посока е DALL·E – алгоритъмът, който създава изумителни изображения на базата на описание.

И въпреки това… DALL·E също се крепи на плещите на GPT-3, това е алгоритъмът, „изрисувал“ картините, които виждате. Защото се оказва, че невронната мрежа е способна на чудеса и когато е обучена допълнително. Да, ИИ художникът е обучен на базата на връзка между текст и изображение, но само като форма на надграждане над чисто текстовия алгоритъм. Той е своеобразен специфичен вариант на GPT-3, каквато е и платформата за генериране на компютърен код Codex.

Много специалисти очакваха, че и GPT екипът ще се насочи в тази посока. И все пак, за момента се оказва, че е по-ефективно да се получават успешни решения на широк кръг проблеми, като за основа се използва единствено текст. Което е странно, доколкото невронните мрежи би трябвало да наподобяват мозъците ни, които, разбира се, са „захранвани“ с много по-разнообразна информация. Очевидно идеята на OpenAI е да развият докрай възможностите на текстовите модели, преди да се пренасочат към още по-сложното мултимодално бъдеще.

 

GPT-4

„Умен и чувствителен робот андроид, създаден по време на Ренесанса“

 

В началото беше текстът

В тази посока е любопитно мнението на Иля Суцкевър, изследователят начело на учените в OpenAI. Още през 2020-а той прогнозира, че „до края на 2021-а езиковите модели ще започнат да разбират и визуалния свят. Сам по себе си текстът може да изразява огромен обем информация за заобикалящия ни свят, но не е завършен, защото също така ние живеем и във визуален свят“.

И след като няколко пъти става дума колко е важна точната информация, любопитно е да погледнем каква всъщност е тя. За GPT-4 все още можем само да предполагаме, но това е известно за неговия известен предшественик.

Над 90% от данните, с които той е захранен, са от англоезични източници, което обяснява и защо алгоритъмът е толкова добър конкретно на „родния“ си език. Целият обем данни е с размер 45 терабайта, можете да си представите колко много текст може да се побере вътре. Най-голяма част от тях – 410 милиарда единици са от колекцията Common Crawl, свободно достъпна база данни, която сканира и запазва информацията от целия интернет. Тоест, именно там попадат и най-разнообразните текстове. На тази база се падат и цели 60% от тежестта – това какво значение им отдава алгоритъмът. 22% идват от база, където се събират публикации в Reddit, събрали поне 3 положителни гласа.

GPT-3 е „чел“ от две бази данни общо 67 милиарда думи, събрани в различни книги, с общо „тегло“ 16%. Най-малко – 3 милиарда, са единиците, които са въведени от англоезичната Wikipedia, те все пак имат значително по-високо за пропорцията тегло от 3%.

Интересен повод да се замислим… ами ако създателите му бяха дали да „чете“ повече книги и по-малко случайни текстове?

 

GPT-4

„Много разумен и готин андроид, който се държи като човек“

 

Ти си GPT

Всичко това дава и още поводи за замисляне какво ни очаква с идването на 4-ата версия. Ако 4-ия GPT наистина е значително по-съвършен алгоритъм, той например би могъл да е способен изключително бързо да генерира неразличими от истината фалшиви видеа, по-известни като дийп фейк. Или пък текстове, масиви от информация, които няма да могат да бъдат различени от създадените от човека. Ако чатботовете все още могат лесно да бъдат хванати „в крачка“, дали сега няма да станат още по-убедителни?

Така идват и следващите важни въпроси, които постоянно гостуват на „Дигитални истории“. За бъдещето ни като хора, за технологиите, които могат и променят всичко, колкото и да сме скептични понякога. Интересното бъдеще отдавна е тук и става все по-интересно. А несъмнено част от голямата картина съвсем скоро ще бъде и GPT-4 – натоварен с огромни очаквания и надежди… и, разбира се, задължителната в тази тема щипка притеснение.

А кое трябва да бъде повече? Очаквайте следващата Дигитална история! С проф. Преслав Наков, един от световните специалисти в областта на ИИ и обработката на естествени езици, заедно ще вперим поглед в бъдещето!

 

Дигитални истории

Дигитални истории е и ще си остане изцяло некомерсиално начинание, на което посвещавам доста време и усилия. За създаването на сайта обаче са нужни определени разходи. Ако имате възможност и желание да подпомогнете сайта, вече можете да го направите. Разбира се, все така важна подкрепа си остава всяка добра дума, всяко споделяне на темите.

<a href="https://karamanev.me/author/georgik" target="_self">Георги Караманев</a>

Георги Караманев

Програмист, журналист на свободна практика и писател. Още за мен – четете тук.
Дигитални истории

Най-нови публикации:

Кой изобрети тостера? Няма такава история!

Кой изобрети тостера? Няма такава история!

Сигурно сте чували за Алън Макмастърс, прословутия изобретател на тостера? Опитвайки се да намери идеалната сплав за електрически крушки, той неволно получил вещество, което карало хляба да кафенее...

повече информация
Рори и рецептите на Баба

Рори и рецептите на Баба

Какво ли прави един татуиран американец на борда на 40-годишна лада, устремен към поредното българско село? А какво ли съдържа коктейлът „Компютър“? Защо гражданинът на щата Вашингтон избира да...

повече информация
Айнщайн се прекланя пред Дънов? 12 клишета от българската история

Айнщайн се прекланя пред Дънов? 12 клишета от българската история

Първият християнски манастир е у нас. Пловдив е най-старият град на Земята. Айнщайн се прекланя пред Петър Дънов, а Хан Тервел е спасителят на Европа. Нещо повече, никога не сме губили военен флаг....

повече информация
ИИ влезе сред най-добрите на втори поетичен конкурс (експеримент)

ИИ влезе сред най-добрите на втори поетичен конкурс (експеримент)

Сред модерните новини на деня – изборите, Big Brother и внезапното нахлуване на есента, някак си в обществения дневен ред се вмъкна вестта, че в престижния конкурс за младежка поезия „Веселин...

повече информация

Още публикации по темата:

От рубриката:

Тест: Колко добре познавате българската история? Ще ви подхлъзне ли ChatGPT?

Тест: Колко добре познавате българската история? Ще ви подхлъзне ли ChatGPT?

15 общоприети твърдения за българската история и 15, измислени от изкуствения интелект. Ще успеете ли да ги различите? Кое е исторически факт и кое – безсмислица?
Днес, както никога, спорим за миналото си. Намираме силните исторически моменти, които ни карат да се гордеем, но лесно залитаме и по измислената история.
Можем ли да различим историческите факти от измислиците? Хайде да проверим заедно. 15 твърдения, генерирани от ChatGPT за българската история (и проверени от историк) и 15, които алгоритъмът измисли, помолен да пофантазира. 15 от твърденията са верни, 15 – изцяло измислени от изкуствения интелект.
С този тест започва историческата поредица от Дигитални истории. Ще поговорим с историка Александър Мошев за големите клишета онлайн, ще съберем поуките от някои любопитни фалшификации в мрежата. Ще дадем думата на писателите Виктория Бешлийска и Захари Карабашлиев, на учителя по история и куиз рекордьор Борис Русев. А междувременно сте вие – ще успеете ли да различите фактите от измислиците?
Колко добре познаваме историята си? Нека проверим заедно, а накрая ще обобщим резултатите.

Можете да се включите и в жребий за награди – подбрани книги и фланелки с логото на Дигитални истории. Отговорите се събират до символичния 10 ноември, а на 15-и очаквайте резултатите.
Благодаря от сърце за всяко попълване, за всяко споделяне!

повече информация
Какво мислят българите за изкуствения интелект? (Резултати)

Какво мислят българите за изкуствения интелект? (Резултати)

След дълго събиране на отговори в мащабната анкета на Дигитални истории дойде време да обобщим резултатите! Какво мислят българите за изкуствения интелект? Впечатлява ли ги напредъкът му и използват ли го ежедневно? Със страх или с ентусиазъм посрещат следващите големи стъпки в тази посока? Вярват ли, че е възможен генерален изкуствен интелект? Смятат ли, че през следващите години ни очакват мащабни промени? Дойде време да разберем на базата на безпристрастния поглед на данните!

повече информация
Бай Ганьо срещу ChatGPT. Ще гласувате ли?

Бай Ганьо срещу ChatGPT. Ще гласувате ли?

След броени дни се задават 7-ите поредни избори за Народно събрание само в рамките на 3 години. Вероятно е активността да е още по-ниска от рекордите, които не спираме да подобряваме, по всичко изглежда, че в Парламента ще влязат още повече партии.
Как да излезем от омагьосания кръг? Защо политиката у нас се превърна в толкова неблагодарно и непрестижно занимание? Къде са лидерите, които да ни вдъхновяват и за които да гласуваме с гордост, а не като за най-малкото зло? Къде са програмите, идеите, визионерството? Ясните политически позиции, принципите… Толкова ли е трудно в крайна сметка?
Разбира се, отговорите е редно да дават специалистите – политолози, социолози, общовойскови коментатори с важни гледни точки. И те ги дават всяка сутрин по телевизиите и целодневно онлайн, но всичко резултира в чесане на езици и допълнително разделяне, подпомогнато от технологиите.
Така че избирам да дам думата на два безспорни авторитета – Бай Ганьо, който така и не иска да си отиде – ще се убедите по цитатите, с които Алеко ни разказва толкова много за политиката по нашите ширини и отношението към нея. И, разбира се, на ChatGPT, чиято най-нова версия обещава да е още по-добра и близка до човешките отговори.

повече информация

Най-новите:

Българският литературен Банкси

Българският литературен Банкси

„Най-опасният литературен терорист у нас“. Не, тези думи за днешния ни гост не са мои, а на специалист, който следи и познава отблизо случващото се в българската литература.
Ето че след 153 интервюта, публикувани на този сайт, дойде времето за… първия анонимен гост! Няма да ви издам дори дали е мъж, или жена, важни тук са историята и гледната му точка.
Преди броени дни в два поетични конкурса генерирани от ИИ стихове попаднаха сред най-добрите, във втория случай ставаше дума за експеримент на Дигитални истории. Според мен е жизненоважно да започнем дискусията за бъдещите ни взаимоотношения с технологиите, при това с участието на колкото може повече важни гледни точки. Очаквайте следващите забележителни гости (и експерименти) по темата.
Днес обаче се връщаме още преди модата на ИИ генерирането. За да разкажем историята на един човек, който дълго време експериментира с това да изпраща компилирани или просто абсурдни стихове под различни имена. Дълго време преди това той е участвал и печелил конкурси с истинското си име, докато… не се убеждава, че нещо в системата не е наред. Че критериите не са това, което би трябвало да бъдат. Идеята му се променя с годините, особено след като успява да постигне серия от убедителни резултати и безброй публикации в много от смятаните за водещи поетични издания у нас.
Каква ли е целта му? Как изглежда според него бъдещето на поезията? Как алгоритмите променят отношението ни към писаното слово и към творчеството? Очаква ни забележителна среща с първия анонимен гост на Дигитални истории, българския литературен Банкси.

повече информация
Кой изобрети тостера? Няма такава история!

Кой изобрети тостера? Няма такава история!

Сигурно сте чували за Алън Макмастърс, прословутия изобретател на тостера? Опитвайки се да намери идеалната сплав за електрически крушки, той неволно получил вещество, което карало хляба да кафенее до съвършен загар. Уви, след тежка вечер в компанията на половин шише уиски, неговият конкурент Стивън Кромптън откраднал начинанието му и го представил за свое. После обрал цялата слава. И покрай това доста пари…
Дълъг репортаж за него показаха по BBC, „Уошингтън таймс“ описа невероятната му история, „Дейли Мирър“ включи името му сред „50-те най-велики британски изобретатели“. Често го споменават и до днес на Световния ден на тостера – 27 февруари. Статии, сборници, енциклопедии разказват историята му. Дори в популярен британски готварски формат му посвещават състезание, участниците трябва да измислят забележително блюдо в чест на изобретателя на тостера.
Малката подробност е, че… няма такъв човек. Изобретателят Макмастърс е „изобретен“ от двама студенти, решили да покажат колко е важно днес да проверяваме информацията, особено тази, свързана с миналото. Колко лесно даваме доверие онлайн и колко по-критични би трябвало да бъдем. Измислената страница в Wikipedia просъществува почти десетилетие, преди истината да излезе наяве.
Колко лесно е днес да се създаде фалшива история? Отговора дава специалният списък, в който самата англоезична Уикипедия разказва за най-дълго просъществувалите фалшиви публикации.
За мащабни мистификации и дребни, неочаквано случили се шеги. Които идват да ни припомнят колко лесно може да бъдем подведени онлайн.

повече информация
Рори и рецептите на Баба

Рори и рецептите на Баба

Какво ли прави един татуиран американец на борда на 40-годишна лада, устремен към поредното българско село? А какво ли съдържа коктейлът „Компютър“? Защо гражданинът на щата Вашингтон избира да търси старите български рецепти из затънтените села, там, където е „Баба“, събирателното, вечното на един безкраен, универсален образ, който докосва всички ни?
Рори Милър с днешна дата преоткрива магията на българското село. Онова, което изоставяме, а пази толкова от смисъла.
Строителен работник, берач на маслини и учител по английски, преди около 15 години Рори спира в България, за да се родят тук двете му деца. Привлича погледите с участието си в “Masterchef”, после продължава пътя си из затънтените български села. Така се ражда забележителната книга „На око“, сюрреалистичен пътепис, където точни рецепти няма да намерите – и за гозби, и за бъдещето, всичко е „на око“ като мерна единица и начин на живот. Но ще намерите и самото село, и гозбите му, и бабите, и духа, и добре премерените подправки.
Следващата стъпка на американеца е книгата да се появи на английски с кампания в платформа за споделено финансиране. Аз лично ще го подкрепя, защото мисля, че е уловил безценния дух на българското село днес. Което е различно от онова на Елин Пелин и Иван Вазов. Което, вярвам, ще обърне сбъркана мода, че животът е в големия град. Светът на технологиите ни позволява както никога да разбиваме стереотипите. Припомня ни го и книгата на колоритния Рори, който има какво да ни каже и в следващите редове.

повече информация
Айнщайн се прекланя пред Дънов? 12 клишета от българската история

Айнщайн се прекланя пред Дънов? 12 клишета от българската история

Първият християнски манастир е у нас. Пловдив е най-старият град на Земята. Айнщайн се прекланя пред Петър Дънов, а Хан Тервел е спасителят на Европа. Нещо повече, никога не сме губили военен флаг.
Кое от твърденията, които можете да намерите всеки ден онлайн, има историческа обосновка? Къде можем да говорим за различни тълкувания, къде поводът за гордост има пълно основание и къде става дума за откровена измислица?
Историята е толкова важна област, която ни събира и дели. Щедро поле за гордост и за манипулации.
Вие можете ли да различите някои общоприети твърдения, свързани с българската история, от такива, измислени от изкуствения интелект? Опитайте тук, този експеримент ще даде интересни резултати!
А ние ще проверим някои от най-популярните твърдения, поводи за гордост онлайн, които можете да видите навсякъде. Не, няма да фактчектваме, според мен тази идея е обречена, защото и историята, както журналистиката, не може да бъде точна наука.
Срещаме се с историка Александър Мошев, за да поговорим на базата на изворите и на логиката, да се опитаме да потърсим рационалния поглед. Аз му подавам без предварителни условия 12 избрани клишета, а той ще разкаже повече за тях и за това доколко съвпадат с мнението на днешната историография.

повече информация
Кое лекува историческите рани?

Кое лекува историческите рани?

Историята днес ни свързва и дели, разпалва и вълнува, както никога преди. Разбира се, и защото, „който контролира миналото, контролира бъдещето“.
Захари Карабашлиев с най-новия си роман – „Рана“ се обърна именно към българската история, към едни от най-драматичните ѝ и важни моменти. Към раните, които ни нанася миналото, към предците, чийто път продължаваме. Романът наднича в няколко от големите теми на последните 150 години по вълнуващ и автентичен начин. Писателят вече ми е гостувал, срещаме се отново, за да поговорим за миналото. За силните му истории и вълнението. За поуките и отговорите. За това, което ни събира и което ни дели.

повече информация
ИИ влезе сред най-добрите на втори поетичен конкурс (експеримент)

ИИ влезе сред най-добрите на втори поетичен конкурс (експеримент)

В литературните среди отекна новината, че в престижния конкурс за младежка поезия „Веселин Ханчев“ сред избраните от журито финалисти е попаднал неочакван състезател – 21-годишният Христиан Папазов от силистренското село Ножарево е изпратил стихове, генерирани от изкуствен интелект. Христиан (или който и да стои зад това име) се отказа от участието си, пишейки, че единствената му цел е била да привлече вниманието към темата.
Не знам дали вярвате в съвпадения, аз – не. На 25 октомври, ден преди новината да излезе, бяха обявени 10-те избраници на журито в друг популярен поетичен конкурс. И ето че отново в селекцията попаднаха… генерирани стихове. Този път като част от експеримент на Дигитални истории.
Но как така само за два дни двама „автори“ със стихове, написани от ИИ, се озоваха сред най-добрите, тези, измежду които ще бъдат избрани победителите? И, по-важното: кои са големите въпроси и изводи от това? Вярваме или не в съвпадения, явно е, че е дошло време да поговорим по-адекватно и задълбочено за големите въпроси на днешния ден.
Денят на будителите според мен е точният, за да се събудим…

повече информация
Share This