Идва GPT-4, който обещава да промени всичко

сеп. 16, 2022 | Технологии

Идва GPT-4, който обещава да промени всичко

16 септември 2022 | Технологии

Надали има в света на прословутия изкуствен интелект алгоритъм, по-прочут от GPT-3. Тук можете да прочетете подробно как и защо решението на OpenAI се оказа сериозен пробив в редица области. Той се появи в края на 2020-а и малко по малко даде шанс да изследователи от различни посоки да използват възможностите му, за да покажат невиждани до момента пробиви. В създаването и редактирането на текстове, в превода, в генерирането на компютърен код, за свръхнапреднали чатботове и какво ли още не.

И ето че идва следващият състезател. Макар и забавил се спрямо първоначалните очаквания, GPT-4 се очаква да бъде представен съвсем скоро. Дали от него можем да получим дори много повече? С какво се различава от предшественика си? Кои са областите, в които очакваме да донесе нещо наистина различно?

 

GPT-4

Изображенията, които виждате, са създадени от „детето“ на GPT-3 – DALL·E. Под всяка от тях ще намерите описанието, зададено на алгоритъма. Тук имаме „маслено платно на Анри Матис на робот хуманоид, който играе шах“

 

G пи три

И така, става дума за модел от висшия пилотаж на изкуствения интелект – дълбоките невронни мрежи. Този тип алгоритми стават изключително добри тогава, когато имат достъп до масивни обеми от информация, на базата на които се учат да търсят и намират закономерностите. После изпълняват поставената задача – например да генерират свой текст по зададени параметри.

Съкращението идва от „генеративен предварително обучен трансформатор“, Generative Pretrained Transformer. Всяка от версиите всъщност не е един модел, а група от такива, които имат различно предназначение.

Когато става дума за някои от големите компании, те разчитат на свои алгоритми в това начинание. Големият плюс на OpenAI, както си личи и от името на начинанието, стартирано от Илон Мъск и съмишленици, е, че дава достъп на разнообразни проекти до претренирания модел, който се справя добре с широк кръг задачи. Оттук нататък е работа на отделните екипи да формулират заданието си и да го подготвят така, че да се възползват от уменията на алгоритъма.

Най-впечатляващи бяха успехите във всички области, свързани с текста. GPT-3 беше безспорен пробив, що се отнася до каквито и да било манипулации, свързани с думи. Разбира се, тези възможности бяха преди всичко свързани с английския език. Появиха се приложения, с които невероятно успешно се обработва текст – той бива редактиран, пренаписван в различни стилове и какво ли още не. Оказа се, че платформата работи невероятно добре и в други посоки – например генерирането на компютърен код или ноти. Всичко, което по някакъв начин може да бъде сведено до писмени знаци.

 

GPT-4

„Добър, приятелски настроен робот от Ренесанса“

 

G(PT)enius

А също и в наподобяването – например в провеждането на разговор.

Дали и следващият член на GPT семейството ще донесе подобен пробив, но в следващите области? Това е един от въпросите, които си задават специалистите в областта на изкуствения интелект. Както неотдавна каза футуроложката доц. Мариана Тодорова, от GPT-4 се очакват големи неща. Всички в тази област са наострили уши, докато, за съжаление, конкретните новини за уменията на бъдещия алгоритъм все още остават неясни.

Например, що се отнася до броя на параметрите, с които ще бъде обучен. Данните са ужасно противоречиви. В началото се говореше, че ще са десетки трилиони, после трилион… докато накрая се оказва, че е по-вероятно да става дума за дори по-малко входни данни, отколкото тези, с които беше обучен предшественикът му.

GPT-1 дойде през 2018-а, година по-късно пристигна и наследникът му, който беше обучен на 1,5 милиарда параметъра. Прословутият вариант 3 беше представен през 2020-а със своите 175 милиарда единици информация. Така четвъртата версия се бави от ритъма на пускане на останалите, а ето че учудва и по другия водещ показател…

 

GPT-4

„Два робота обсъждат бъдещето, реалистично изображение“

 

G си ти

В началото, покрай еуфорията, дошла с налагането на третата версия, се говореше, че последващата я ще бъде обучена със 100 трилиона параметъра и с това за първи път ще бъде достигнат броят на синапсите – връзките между невроните, които всеки от нас приютява в мозъка си. А ето, че крачката ще бъде по-скоро назад – към дори по-малко от 175-те милиарда.

По-скоро ще се разчита на по-развити алгоритми. И на по-внимателен подбор на това какво точно ще съдържат данните за самообучение.

Факт е, че закономерностите в тази посока до момента изглеждаха незаобиколими. Дълго време развитието на невронните мрежи се забавяше от невъзможността на компютрите да обработват данните в обемите, които са им нужни. После, някак естествено, хардуерът напредна и стана ред на софтуера да го настигне. Защото се оказа, че обемът има значение за това да подобрява резултатите само тогава, когато е смислено подаден. Когато невронните мрежи се учат не на базата на телефонния указател, а на повече и повече текстове, които обаче са смислено структурирани.

Новината, че GPT-3 ще бъде обучен на по-малко параметри дойде от думите на изпълнителния директор на OpenAI Сам Алтман, който, за съжаление, рядко дава интервюта по темата. Той каза още, че макар базата, с която бъдещият алгоритъм ще бъде „захранен“, да е по-скромна, той ще е значително по-сложен от своя предшественик. Обучението му ще изисква значително по-голяма изчислителна мощ, но той ще се справя с много повече поставени задачи.

 

GPT-4

„Много интелигентен и симпатичен андроид, който има чувства“

 

Размерът…

Така или иначе, GPT-3 и до момента, макар безспорно да е най-известният, далеч не е изкуственият интелект, който държи първенството по брой параметри, на които е обучен. Gopher например е „прочел“ 280, PaLM – 540 млрд.

Обучението е най-ключовата част от работата на дълбоките невронни мрежи. В началото те са просто поредици от алгоритми, които не са способни да решават задачи. Трябва да бъдат „захранени“ с максимално голям обем информация, на базата на който да свикнат да намират закономерностите, да търсят важните фактори, да дават повече тежест на тези части от мрежата, които се оказват по-показателни.

Дълго време изглеждаше, че взаимовръзката е пряка – колкото повече са данните, толкова по-прецизни са резултатите. Според много от учените обаче вече сме постигнали предела от това данните да има смисъл да растат като обем, докато е много по-важно как точно работят алгоритмите, каква е архитектурата на невронната мрежа.

 

GPT-4

„Маслена картина на Ван Гог на робот хуманоид, който пие бира“

 

G(PT) точка

Важно уточнение, което трябва да направим, е, че що се отнася до дълбоките невронни мрежи, уви, ние знаем твърде малко за конкретния начин, по който функционират. Те са затворена, черна кутия, поредица от слоеве алгоритми, за които знаем само входните и изходните данни. Можем да им влияем с различни допълнителни параметри, но като цяло как точно са били обучени от приемането на данните си остава енигма. Какво се случва „вътре“, кои параметри ги „вълнуват“, все още са важни и недостатъчно отговорени въпроси, за които се търсят нестандартни решения (като например „дълбокия сън“).

Някъде тук идва следващият голям въпрос: ако GPT-4 в крайна започне да дава точен отговор във все повече области, дали той няма да е и поредната стъпка към евентуалния бъдещ генерален изкуствен интелект? Или поне ще е нещото, което все повече го наподобява.

Още нещо любопитно, което вече се знае за GPT-4, е, че той отново ще бъде обучаван само с текст. През последните години станаха популярни начинанията, при които се търси мултимодалност – данните, които се подават, са не само текст, но и изображения, звуци, видео. Популярен и впечатляващ пример в тази посока е DALL·E – алгоритъмът, който създава изумителни изображения на базата на описание.

И въпреки това… DALL·E също се крепи на плещите на GPT-3, това е алгоритъмът, „изрисувал“ картините, които виждате. Защото се оказва, че невронната мрежа е способна на чудеса и когато е обучена допълнително. Да, ИИ художникът е обучен на базата на връзка между текст и изображение, но само като форма на надграждане над чисто текстовия алгоритъм. Той е своеобразен специфичен вариант на GPT-3, каквато е и платформата за генериране на компютърен код Codex.

Много специалисти очакваха, че и GPT екипът ще се насочи в тази посока. И все пак, за момента се оказва, че е по-ефективно да се получават успешни решения на широк кръг проблеми, като за основа се използва единствено текст. Което е странно, доколкото невронните мрежи би трябвало да наподобяват мозъците ни, които, разбира се, са „захранвани“ с много по-разнообразна информация. Очевидно идеята на OpenAI е да развият докрай възможностите на текстовите модели, преди да се пренасочат към още по-сложното мултимодално бъдеще.

 

GPT-4

„Умен и чувствителен робот андроид, създаден по време на Ренесанса“

 

В началото беше текстът

В тази посока е любопитно мнението на Иля Суцкевър, изследователят начело на учените в OpenAI. Още през 2020-а той прогнозира, че „до края на 2021-а езиковите модели ще започнат да разбират и визуалния свят. Сам по себе си текстът може да изразява огромен обем информация за заобикалящия ни свят, но не е завършен, защото също така ние живеем и във визуален свят“.

И след като няколко пъти става дума колко е важна точната информация, любопитно е да погледнем каква всъщност е тя. За GPT-4 все още можем само да предполагаме, но това е известно за неговия известен предшественик.

Над 90% от данните, с които той е захранен, са от англоезични източници, което обяснява и защо алгоритъмът е толкова добър конкретно на „родния“ си език. Целият обем данни е с размер 45 терабайта, можете да си представите колко много текст може да се побере вътре. Най-голяма част от тях – 410 милиарда единици са от колекцията Common Crawl, свободно достъпна база данни, която сканира и запазва информацията от целия интернет. Тоест, именно там попадат и най-разнообразните текстове. На тази база се падат и цели 60% от тежестта – това какво значение им отдава алгоритъмът. 22% идват от база, където се събират публикации в Reddit, събрали поне 3 положителни гласа.

GPT-3 е „чел“ от две бази данни общо 67 милиарда думи, събрани в различни книги, с общо „тегло“ 16%. Най-малко – 3 милиарда, са единиците, които са въведени от англоезичната Wikipedia, те все пак имат значително по-високо за пропорцията тегло от 3%.

Интересен повод да се замислим… ами ако създателите му бяха дали да „чете“ повече книги и по-малко случайни текстове?

 

GPT-4

„Много разумен и готин андроид, който се държи като човек“

 

Ти си GPT

Всичко това дава и още поводи за замисляне какво ни очаква с идването на 4-ата версия. Ако 4-ия GPT наистина е значително по-съвършен алгоритъм, той например би могъл да е способен изключително бързо да генерира неразличими от истината фалшиви видеа, по-известни като дийп фейк. Или пък текстове, масиви от информация, които няма да могат да бъдат различени от създадените от човека. Ако чатботовете все още могат лесно да бъдат хванати „в крачка“, дали сега няма да станат още по-убедителни?

Така идват и следващите важни въпроси, които постоянно гостуват на „Дигитални истории“. За бъдещето ни като хора, за технологиите, които могат и променят всичко, колкото и да сме скептични понякога. Интересното бъдеще отдавна е тук и става все по-интересно. А несъмнено част от голямата картина съвсем скоро ще бъде и GPT-4 – натоварен с огромни очаквания и надежди… и, разбира се, задължителната в тази тема щипка притеснение.

А кое трябва да бъде повече? Очаквайте следващата Дигитална история! С проф. Преслав Наков, един от световните специалисти в областта на ИИ и обработката на естествени езици, заедно ще вперим поглед в бъдещето!

 

<a href="https://karamanev.me/author/georgik" target="_self">Георги Караманев</a>

Георги Караманев

Програмист, журналист на свободна практика и писател. Още за мен – четете тук.

Най-нови публикации:

Впечатляващо признание за Дигитални истории от конкурса Web Report!

Впечатляващо признание за Дигитални истории от конкурса Web Report!

Впечатляващо признание за Дигитални истории дойде от 6-ото издание на журналистическия конкурс Web Report. През последните години надпреварата се утвърди като водещ и най-реномиран журналистически...

повече информация
„Не чуждиците подкопават устоите на езика“

„Не чуждиците подкопават устоите на езика“

„Как се пише?“ е сайт, който си извоюва огромно значение за живота онлайн. Създателката му Павлина Върбанова на доброволни начала дава практични съвети за правописа, граматиката и пунктуацията с...

повече информация

Още публикации по темата:

От рубриката:

На 10-ия ден Брандън създаде JavaScript…

На 10-ия ден Брандън създаде JavaScript…

Знаете, един митичен персонаж за седмица създаде света. Брандън Айк за малко повече време – 10 дни, създаде друг нов свят, в който всички живеем… JavaScript. Една технология, която промени ежедневието ни, след като позволи да се създават сложни приложения онлайн. Да отворим браузъра, да се насочим към любимата страница и тя да е способна на чудеса.
Ето поучителната приказка за това как човек, почти случайно попаднал в епицентъра на събитията, може да изгради нещо огромно. Как в технологично динамичните времена съдбата бързо променя избраниците си и с едно нейно мигване от герой можеш да се превърнеш в аутсайдер.
Кой ли е този Брандън Айк? Защо и той, подобно на други компютърни легенди, днес не се радва на особена слава? Как се ражда JavaScript и защо, уж толкова подобен на другите, именно този език успя да промени революционно начина, по който ползваме компютрите?
console.log(„Започваме!“);

повече информация
Универсален базов доход. Време ли е да ни дават пари, без да работим?

Универсален базов доход. Време ли е да ни дават пари, без да работим?

По всичко личи, технологиите ще ни освободят доста време, но как ще се промени обществото? Какво представлява прословутият универсален базов доход? Кои са големите аргументи за и против идеята всеки да получава гарантирани пари? Или пък решението на новите предизвикателства може да се окаже 4-дневната работна седмица?
Изкуственият интелект има силата да промени ежедневието на всички ни. Днес се разделяме в крайни мнения за това колко е напреднала технологията. И все пак, надали има спор, че тя вече има потенциала да обърне с главата надолу почти всички индустрии и поприща.
Дали ще вземе хляба на мнозина от нас? Сигурно е, че има силата да ни отмени в поредната порция задачи, вземайки на своя страна много нови дейности. Появяват се и нови роли, както е било винаги, но какво ще правим ако темпото, с което това се случва, изостане? Ще успеят ли и как обществата в развитите страни да реагират на новото предизвикателство?
Идва 1 май, празникът на труда. Трудът със сигурност е нещо, за което си струва да се замисляме по-често, особено по нашите ширини, където винаги сме имали малко по-философски поглед към темата. Дотолкова, че и труда празнуваме с ден почивка…

повече информация
Технологиите вече четат мисли. Идва ли краят на свободата?

Технологиите вече четат мисли. Идва ли краят на свободата?

Технологиите вече позволяват мозъчните сигнали да се „превеждат“ в четими данни, първите пробиви са налице. Улисани в напредъка на изкуствения интелект и прословутия GPT, може да пропуснем една огромна стъпка, що се отнася до естествения. На нея обръща внимание проф. Нита Фарахани, учен и юрист с огромен опит.
„Днес вече има компании, които са способни да декодират мозъчните вълни“, каза тя на световния форум в Давос в началото на годината.
Готови ли сме за момента, когато някой ще чете мислите ни? Ще доведе ли това до тотален контрол, или ще направи живота ни по-удобен и смислен?

повече информация

Най-новите:

„Май нихилизмът е заложен в генома ни?“

„Май нихилизмът е заложен в генома ни?“

Ивайло Кунев разказва вдъхновяващи истории от българското минало по магичен начин… Тогава как ли стигнахме до думите в заглавието?
Лидерите, хората, които умеят да променят света, да водят, да градят, да убеждават. Именно те са голямата тема на днешния ни гост, който повече от десетилетие разработва и води програми по лидерство.
Ивайло има впечатляващ мениджърски и предприемачески опит, минаващ през десетилетията. Като в същото време умее да разказва – историите му за силните личности привличат огромен брой почитатели. Автор е на книгата „Лидерите: забравените истории на България“.
Лидерството. Тази тема е толкова тежка по нашите ширини, а и като цяло във времената, в които живеем. Затова е време да потърсим трудните отговори.
Струва ли си да съберем историите на политиците, на предприемачите и на… хановете? Защо ни е трудно да формираме политически елит и да имаме автентични лидери като нация? Какво би написал Толкин, ако беше българин? Как българската история може да се превърне в лично приключение и да дава вдъхновяващи примери, които да ни помагат да сбъдваме мечтите си?

повече информация
Геният, който два пъти отрови света

Геният, който два пъти отрови света

Технологиите променят живота ни главоломно, а техните създатели – изобретателите, програмистите, са героите на днешния ден… Поне обикновено е така, докато не се окаже, че дадената иновация, която светът е посрещнал с невероятен ентусиазъм, е смъртоносно опасна.
И все пак, има един изобретател, който дълги години се носи на вълната на славата, тачен като гений, докато междувременно… създава не една, а две технологии, които впоследствие се оказва, че са стрували човешки животи. Щетите, които те са нанесли, засягат цялата планета и ще продължат да са тук дори за следващите поколения.
Историята на Томас Миджли-младши си струва да си припомняме всеки път, когато се зарадваме на поредния огромен пробив, свързан с изкуствения интелект или каквато и да било друга технология. Защото е показателна за това колко е важно да преценим рисковете, преди да полетим на крилете на ентусиазма. Колко е важно да мислим и обсъждаме големите въпроси, които ни поставят технологиите и за които все нямаме време…

повече информация
Впечатляващо признание за Дигитални истории от конкурса Web Report!

Впечатляващо признание за Дигитални истории от конкурса Web Report!

Впечатляващо признание за Дигитални истории дойде от 6-ото издание на журналистическия конкурс Web Report. През последните години надпреварата се утвърди като водещ и най-реномиран журналистически конкурс у нас.
Тази година Георги Караманев и Дигитални истории заслужиха наградата в категория „Изкуство и култура“ за  експеримента „Понякога ще идвам…“ Как ИИ нарисува 10 класически стиха?“. В 6-те категории на конкурса се включиха 185 журналисти. 
Наградата е особено признание и защото Дигитални истории е сред победителите за трета поредна година!

повече информация
Д-р Райчев, който даде Koprivshtitsa на Google

Д-р Райчев, който даде Koprivshtitsa на Google

„Хора като него трябва да са лицето на България. Точно хората, измислящи неща, които човек не може да си представи“ казва за днешния ни гост проф. Мартин Вечев.
Д-р Веселин Райчев е единственият българин, чиято докторска дисертация попада в световния топ 3 на годината за всички сфери на информатиката. При това с нея той създава цяло ново направление, което днес изживява бум – концепцията изкуственият интелект да пише компютърен код.
Той създава стартъпа DeepCode, използващ машинно самообучение, за да прави компютърните програми по-сигурни. Компанията е придобита от Snyk, а нашият гост остава начело на ИИ направлението в нея.
Кариерата му започва в Google, благодарение на него и днес Google Maps препоръчва пътя ни чрез алгоритми с български имена. През последните години е канен за професор в МИТ, Станфорд и други реномирани университети. Той обаче избира професионално да се свърже с българския проект ИНСАИТ, който има силата да промени цялата екосистема на нашата айти индустрия.
Какво ли мисли изследователят за последните големи новини от света на изкуствения интелект? Помага или пречи големият шум по темата и кои са важните решения, които е време да вземем? Защо дори отдалеч той не спира да се вълнува от случващото се у нас и какъв според него е пътят към по-доброто развитие на страната ни? Кое го кара да изостави впечатляващата кариера в Google, за да продължи в света на науката?

повече информация
Баща и син. Щафетата на живота

Баща и син. Щафетата на живота

Баща и порасналият му син, хванати за ръце. Зад тях е онова, което ги определя, а пред тях – обективът с безпощадната си прямота. Важните снимки нямат нужда от думи.
Тази Дигитална история е толкова голяма, колкото живота. Защото ни връща към най-естествения цикъл, дава ни проницателния си поглед към смисъла.
Фотографът Валерий Пощаров има двама синове – на 12 и 9 години. Една сутрин ги води към училище и се замисля как неусетно ще дойде моментът, когато те вече няма да искат да ги държи за ръка.
Така се ражда идеята да улавя в обектива си бащи и порасналите им синове, заобиколени от онази среда, която ги представя най-добре. Резултатът: снимки, които не просто разказват истории, а рисуват вселени…

повече информация
„Не чуждиците подкопават устоите на езика“

„Не чуждиците подкопават устоите на езика“

„Как се пише?“ е сайт, който си извоюва огромно значение за живота онлайн. Създателката му Павлина Върбанова на доброволни начала дава практични съвети за правописа, граматиката и пунктуацията с всичките им нюанси.
Разговорът с нея „Как се пише?“ „Незнам“ продължава да бъде най-четената дигитална история.
В навечерието на 24 май се срещаме, за да продължим. Ще поговорим за думите, които ни изграждат, и за отношението ни към тях.
За празника, за понякога фалшивата помпозност, която го съпровожда, и за честното ни отношение към езика. За това как думите са огледало на самите нас и на живота. За думите, които превръщаме в оръжия, и за технологиите, които им дават огромни сили да рушат.

повече информация
Share This