Идва GPT-4, който обещава да промени всичко

сеп. 16, 2022 | Технологии

Идва GPT-4, който обещава да промени всичко

16 септември 2022 | Технологии

Надали има в света на прословутия изкуствен интелект алгоритъм, по-прочут от GPT-3. Тук можете да прочетете подробно как и защо решението на OpenAI се оказа сериозен пробив в редица области. Той се появи в края на 2020-а и малко по малко даде шанс да изследователи от различни посоки да използват възможностите му, за да покажат невиждани до момента пробиви. В създаването и редактирането на текстове, в превода, в генерирането на компютърен код, за свръхнапреднали чатботове и какво ли още не.

И ето че идва следващият състезател. Макар и забавил се спрямо първоначалните очаквания, GPT-4 се очаква да бъде представен съвсем скоро. Дали от него можем да получим дори много повече? С какво се различава от предшественика си? Кои са областите, в които очакваме да донесе нещо наистина различно?

 

GPT-4

Изображенията, които виждате, са създадени от „детето“ на GPT-3 – DALL·E. Под всяка от тях ще намерите описанието, зададено на алгоритъма. Тук имаме „маслено платно на Анри Матис на робот хуманоид, който играе шах“

 

G пи три

И така, става дума за модел от висшия пилотаж на изкуствения интелект – дълбоките невронни мрежи. Този тип алгоритми стават изключително добри тогава, когато имат достъп до масивни обеми от информация, на базата на които се учат да търсят и намират закономерностите. После изпълняват поставената задача – например да генерират свой текст по зададени параметри.

Съкращението идва от „генеративен предварително обучен трансформатор“, Generative Pretrained Transformer. Всяка от версиите всъщност не е един модел, а група от такива, които имат различно предназначение.

Когато става дума за някои от големите компании, те разчитат на свои алгоритми в това начинание. Големият плюс на OpenAI, както си личи и от името на начинанието, стартирано от Илон Мъск и съмишленици, е, че дава достъп на разнообразни проекти до претренирания модел, който се справя добре с широк кръг задачи. Оттук нататък е работа на отделните екипи да формулират заданието си и да го подготвят така, че да се възползват от уменията на алгоритъма.

Най-впечатляващи бяха успехите във всички области, свързани с текста. GPT-3 беше безспорен пробив, що се отнася до каквито и да било манипулации, свързани с думи. Разбира се, тези възможности бяха преди всичко свързани с английския език. Появиха се приложения, с които невероятно успешно се обработва текст – той бива редактиран, пренаписван в различни стилове и какво ли още не. Оказа се, че платформата работи невероятно добре и в други посоки – например генерирането на компютърен код или ноти. Всичко, което по някакъв начин може да бъде сведено до писмени знаци.

 

GPT-4

„Добър, приятелски настроен робот от Ренесанса“

 

G(PT)enius

А също и в наподобяването – например в провеждането на разговор.

Дали и следващият член на GPT семейството ще донесе подобен пробив, но в следващите области? Това е един от въпросите, които си задават специалистите в областта на изкуствения интелект. Както неотдавна каза футуроложката доц. Мариана Тодорова, от GPT-4 се очакват големи неща. Всички в тази област са наострили уши, докато, за съжаление, конкретните новини за уменията на бъдещия алгоритъм все още остават неясни.

Например, що се отнася до броя на параметрите, с които ще бъде обучен. Данните са ужасно противоречиви. В началото се говореше, че ще са десетки трилиони, после трилион… докато накрая се оказва, че е по-вероятно да става дума за дори по-малко входни данни, отколкото тези, с които беше обучен предшественикът му.

GPT-1 дойде през 2018-а, година по-късно пристигна и наследникът му, който беше обучен на 1,5 милиарда параметъра. Прословутият вариант 3 беше представен през 2020-а със своите 175 милиарда единици информация. Така четвъртата версия се бави от ритъма на пускане на останалите, а ето че учудва и по другия водещ показател…

 

GPT-4

„Два робота обсъждат бъдещето, реалистично изображение“

 

G си ти

В началото, покрай еуфорията, дошла с налагането на третата версия, се говореше, че последващата я ще бъде обучена със 100 трилиона параметъра и с това за първи път ще бъде достигнат броят на синапсите – връзките между невроните, които всеки от нас приютява в мозъка си. А ето, че крачката ще бъде по-скоро назад – към дори по-малко от 175-те милиарда.

По-скоро ще се разчита на по-развити алгоритми. И на по-внимателен подбор на това какво точно ще съдържат данните за самообучение.

Факт е, че закономерностите в тази посока до момента изглеждаха незаобиколими. Дълго време развитието на невронните мрежи се забавяше от невъзможността на компютрите да обработват данните в обемите, които са им нужни. После, някак естествено, хардуерът напредна и стана ред на софтуера да го настигне. Защото се оказа, че обемът има значение за това да подобрява резултатите само тогава, когато е смислено подаден. Когато невронните мрежи се учат не на базата на телефонния указател, а на повече и повече текстове, които обаче са смислено структурирани.

Новината, че GPT-3 ще бъде обучен на по-малко параметри дойде от думите на изпълнителния директор на OpenAI Сам Алтман, който, за съжаление, рядко дава интервюта по темата. Той каза още, че макар базата, с която бъдещият алгоритъм ще бъде „захранен“, да е по-скромна, той ще е значително по-сложен от своя предшественик. Обучението му ще изисква значително по-голяма изчислителна мощ, но той ще се справя с много повече поставени задачи.

 

GPT-4

„Много интелигентен и симпатичен андроид, който има чувства“

 

Размерът…

Така или иначе, GPT-3 и до момента, макар безспорно да е най-известният, далеч не е изкуственият интелект, който държи първенството по брой параметри, на които е обучен. Gopher например е „прочел“ 280, PaLM – 540 млрд.

Обучението е най-ключовата част от работата на дълбоките невронни мрежи. В началото те са просто поредици от алгоритми, които не са способни да решават задачи. Трябва да бъдат „захранени“ с максимално голям обем информация, на базата на който да свикнат да намират закономерностите, да търсят важните фактори, да дават повече тежест на тези части от мрежата, които се оказват по-показателни.

Дълго време изглеждаше, че взаимовръзката е пряка – колкото повече са данните, толкова по-прецизни са резултатите. Според много от учените обаче вече сме постигнали предела от това данните да има смисъл да растат като обем, докато е много по-важно как точно работят алгоритмите, каква е архитектурата на невронната мрежа.

 

GPT-4

„Маслена картина на Ван Гог на робот хуманоид, който пие бира“

 

G(PT) точка

Важно уточнение, което трябва да направим, е, че що се отнася до дълбоките невронни мрежи, уви, ние знаем твърде малко за конкретния начин, по който функционират. Те са затворена, черна кутия, поредица от слоеве алгоритми, за които знаем само входните и изходните данни. Можем да им влияем с различни допълнителни параметри, но като цяло как точно са били обучени от приемането на данните си остава енигма. Какво се случва „вътре“, кои параметри ги „вълнуват“, все още са важни и недостатъчно отговорени въпроси, за които се търсят нестандартни решения (като например „дълбокия сън“).

Някъде тук идва следващият голям въпрос: ако GPT-4 в крайна започне да дава точен отговор във все повече области, дали той няма да е и поредната стъпка към евентуалния бъдещ генерален изкуствен интелект? Или поне ще е нещото, което все повече го наподобява.

Още нещо любопитно, което вече се знае за GPT-4, е, че той отново ще бъде обучаван само с текст. През последните години станаха популярни начинанията, при които се търси мултимодалност – данните, които се подават, са не само текст, но и изображения, звуци, видео. Популярен и впечатляващ пример в тази посока е DALL·E – алгоритъмът, който създава изумителни изображения на базата на описание.

И въпреки това… DALL·E също се крепи на плещите на GPT-3, това е алгоритъмът, „изрисувал“ картините, които виждате. Защото се оказва, че невронната мрежа е способна на чудеса и когато е обучена допълнително. Да, ИИ художникът е обучен на базата на връзка между текст и изображение, но само като форма на надграждане над чисто текстовия алгоритъм. Той е своеобразен специфичен вариант на GPT-3, каквато е и платформата за генериране на компютърен код Codex.

Много специалисти очакваха, че и GPT екипът ще се насочи в тази посока. И все пак, за момента се оказва, че е по-ефективно да се получават успешни решения на широк кръг проблеми, като за основа се използва единствено текст. Което е странно, доколкото невронните мрежи би трябвало да наподобяват мозъците ни, които, разбира се, са „захранвани“ с много по-разнообразна информация. Очевидно идеята на OpenAI е да развият докрай възможностите на текстовите модели, преди да се пренасочат към още по-сложното мултимодално бъдеще.

 

GPT-4

„Умен и чувствителен робот андроид, създаден по време на Ренесанса“

 

В началото беше текстът

В тази посока е любопитно мнението на Иля Суцкевър, изследователят начело на учените в OpenAI. Още през 2020-а той прогнозира, че „до края на 2021-а езиковите модели ще започнат да разбират и визуалния свят. Сам по себе си текстът може да изразява огромен обем информация за заобикалящия ни свят, но не е завършен, защото също така ние живеем и във визуален свят“.

И след като няколко пъти става дума колко е важна точната информация, любопитно е да погледнем каква всъщност е тя. За GPT-4 все още можем само да предполагаме, но това е известно за неговия известен предшественик.

Над 90% от данните, с които той е захранен, са от англоезични източници, което обяснява и защо алгоритъмът е толкова добър конкретно на „родния“ си език. Целият обем данни е с размер 45 терабайта, можете да си представите колко много текст може да се побере вътре. Най-голяма част от тях – 410 милиарда единици са от колекцията Common Crawl, свободно достъпна база данни, която сканира и запазва информацията от целия интернет. Тоест, именно там попадат и най-разнообразните текстове. На тази база се падат и цели 60% от тежестта – това какво значение им отдава алгоритъмът. 22% идват от база, където се събират публикации в Reddit, събрали поне 3 положителни гласа.

GPT-3 е „чел“ от две бази данни общо 67 милиарда думи, събрани в различни книги, с общо „тегло“ 16%. Най-малко – 3 милиарда, са единиците, които са въведени от англоезичната Wikipedia, те все пак имат значително по-високо за пропорцията тегло от 3%.

Интересен повод да се замислим… ами ако създателите му бяха дали да „чете“ повече книги и по-малко случайни текстове?

 

GPT-4

„Много разумен и готин андроид, който се държи като човек“

 

Ти си GPT

Всичко това дава и още поводи за замисляне какво ни очаква с идването на 4-ата версия. Ако 4-ия GPT наистина е значително по-съвършен алгоритъм, той например би могъл да е способен изключително бързо да генерира неразличими от истината фалшиви видеа, по-известни като дийп фейк. Или пък текстове, масиви от информация, които няма да могат да бъдат различени от създадените от човека. Ако чатботовете все още могат лесно да бъдат хванати „в крачка“, дали сега няма да станат още по-убедителни?

Така идват и следващите важни въпроси, които постоянно гостуват на „Дигитални истории“. За бъдещето ни като хора, за технологиите, които могат и променят всичко, колкото и да сме скептични понякога. Интересното бъдеще отдавна е тук и става все по-интересно. А несъмнено част от голямата картина съвсем скоро ще бъде и GPT-4 – натоварен с огромни очаквания и надежди… и, разбира се, задължителната в тази тема щипка притеснение.

А кое трябва да бъде повече? Очаквайте следващата Дигитална история! С проф. Преслав Наков, един от световните специалисти в областта на ИИ и обработката на естествени езици, заедно ще вперим поглед в бъдещето!

 

Дигитални истории
<a href="https://karamanev.me/author/georgik" target="_self">Георги Караманев</a>

Георги Караманев

Програмист, журналист на свободна практика и писател. Още за мен – четете тук.
Дигитални истории

Най-нови публикации:

„Новата“ майка на ChatGPT

„Новата“ майка на ChatGPT

„Тварта прониква с множество очи в отворения свят…“ Коя ли е тази твар? Сътресенията в OpenAI през последната седмица надминаха по обрати „Игра на тронове“, че дори и българската политика. Сам...

повече информация
„Свободна воля. Или баркод в цифровия концлагер?“

„Свободна воля. Или баркод в цифровия концлагер?“

„Представете си Одисей с джипиес сред гръцките острови напът към Итака. Превръщаме пътуването на човечеството през времето в круиз. А от лъжовната розова зона на комфорта до цифровия концлагер е...

повече информация
Момчето, което спаси интернет. И влезе в затвора

Момчето, което спаси интернет. И влезе в затвора

12 май 2017-а, денят, който можеше да сложи край на интернет. Компютрите на британската здравна система започват да рухват един след друг. Спират да работят и на екрана се появява недвусмисленото...

повече информация

Още публикации по темата:

От рубриката:

„Новата“ майка на ChatGPT

„Новата“ майка на ChatGPT

„Тварта прониква с множество очи в отворения свят…“ Коя ли е тази твар?
Сътресенията в OpenAI през последната седмица надминаха по обрати „Игра на тронове“, че дори и българската политика. Сам Алтман, лидерът на компанията, превърнала се в доминатор, изведнъж… бе уволнен. На него място застана главният технологичен директор на компанията Мира Мурати. После настана пълна суматоха, в края на която всичко си дойде обратно на мястото.
Тепърва ще научим (или пък няма) как и защо се случи този панаир.
Повече от любопитна е версията, съобщавана и от сериозни медии, че причината за всичко е Q* – „кю стар“, нов алгоритъм, способен да разтърси човечеството. Алтман го е представил на борда на директорите и те са били толкова уплашени, че решили да спасят света…
И докато онлайн дебатите се превърнаха в спорове като за латиносериал кой и как дърпа конците, кой се е оказал в силната позиция и какво се променя в света на технологиите след цялата суматоха… встрани остана само образът на жената, която за няколко дни се озова начело на компанията.
Макар и името ѝ да се споменаваше след големия успех на ChatGPT, личността на албанката Мира Мурати винаги оставаше в сянката на Алтман. Ето че е дошло време да научим повече за нея, защото, по всичко личи, от нейните действия ще зависи бъдещето на света, при това не само на технологичния…

повече информация
Закъде си се забързал?

Закъде си се забързал?

„Забързаното ежедневие“ е клише, което повтаряме всеки ден.
Може би, защото е безусловно вярно. Все не стига времето, взеха да ги правят много кратки денонощията. Минутите се изнизват, не оставят време за спокойни мигове със семейството, с приятели, за книга, просто за замисляне или пълен релакс…
Как да е иначе? Днес в рамките на един ден можем да получим повече информация, отколкото само няколко поколения по-рано са възприемали за месеци, дори за цял живот.
На какво се дължи това постоянно усещане? Поколенията ли са различни, работата ли е повече? Или просто има нещо, което ни кара да се чувстваме под напрежение? Което все ни плаши, че изпускаме момента, дори когато няма никакво основание…

повече информация
Ковид 4 г. по-късно. Защо не си взехме поука?

Ковид 4 г. по-късно. Защо не си взехме поука?

Спомняте ли си, не толкова отдавна бяхме затворени по домовете си, парковете бяха преградени от ленти, пътищата извън града – от пропускателни пунктове… После се появиха ваксините, щяха да ни спасят или да ни убият. Рекорден брой българи умираха, разделихме се на ваксъри и антиваксъри, а оттам тръгнаха и толкова други разделения…
Невероятно е устроен човешкият мозък, бързо забравя и се адаптира към новото, към лесното. Така обаче много от важните въпроси изчезват, изтикани от поредната „актуална“ тема, по която да се дърляме. Докато, междувременно, от много държави идват сигнали, че ковид се завръща…
Видяхме колко бързо ежедневието ни може да се преобърне наопаки. Колко сме крехки, като индивиди и като вид. И е време да потърсим поуките.
Възможно ли е скоро да има нова вълна на коронавируса или пък да се появи следващият микроорганизъм, способен да промени живота на цялата планета?
Научихме ли си уроците?
Колко адекватно се справихме с пандемията?
Можеше ли повече човешки животи да бъдат спасени?
Колко смъртоносен се оказа коронавирусът?
Прекалихме ли с мерките или напротив – трябваше те да бъдат по-строги?
Решение ли се оказаха ваксините?
По-подготвени ли сме за следващи епидемии?

Въпроси, чиито отговори са важни за всеки от нас.

повече информация

Най-новите:

Пол Алън – другото лице на Microsoft

Пол Алън – другото лице на Microsoft

Две хлапета се сприятеляват покрай общия си интерес към компютрите. После заедно създават първата си фирма. Няма и десетилетие по-късно същата тази фирма вече е първият гигант на модерните компютърни времена. И ако за едното хлапе, което дълго беше най-богатият човек на планетата, знаем много, то историята на другото не е чак толкова популярна.
Не друг, а компютърният специалист Пол Алън, „кръстникът“ на Microsoft, се оказа собственикът на най-скъпо продадената частна колекция от картини. При това през ноември 2022-а, 4 години след като си отиде от този свят. Ценител на изкуството, запленен от спорта, огромен дарител за научни изследвания. Той е и богаташът, който пробуди модерния интерес към космическите полети.
Още на 29 разбира, че е болен от смъртоносно заболяване и решава да изживее остататъка от живота си така, както си е мечтаел.
Много може да се поучим от историята и светогледа на този нестандартен образ. И още повече – да си задаваме въпроса как щеше да изглежда днешният технологичен свят, ако и останалите му лидери имаха неговия светоглед?

повече информация
„Занимаваш се с наука? Ще си тъп и беден!“

„Занимаваш се с наука? Ще си тъп и беден!“

Не, няма! Технологиите, науката са пътят – и за всеки млад човек, който иска да постигне нещо, и за всички нас, като народ, дори като цивилизация.
29 милиона пъти са видени миналата година в социалните мрежи публикациите на сайта „Българска наука“. Достъпно, но и адекватно, издържано, в него се разказва за научните пробиви, за предизвикателствата, за големите успехи на българските учени.
Вече 17 години Петър Теодосиев влага в тази кауза душата си. Започва като хлапе, няма пари да си купи книги, от които да се научи да програмира. А после така се увлича в разказването на научни истории, че и до днес не губи вярата си.
Че можем да обърнем стереотипа. Че е важно да запалим искрата на любопитството, на любовта към книгите, пламъка на науката при следващите млади хора. Защото това е шансът ни като нация.
Но как да се случи?

повече информация
„Новата“ майка на ChatGPT

„Новата“ майка на ChatGPT

„Тварта прониква с множество очи в отворения свят…“ Коя ли е тази твар?
Сътресенията в OpenAI през последната седмица надминаха по обрати „Игра на тронове“, че дори и българската политика. Сам Алтман, лидерът на компанията, превърнала се в доминатор, изведнъж… бе уволнен. На него място застана главният технологичен директор на компанията Мира Мурати. После настана пълна суматоха, в края на която всичко си дойде обратно на мястото.
Тепърва ще научим (или пък няма) как и защо се случи този панаир.
Повече от любопитна е версията, съобщавана и от сериозни медии, че причината за всичко е Q* – „кю стар“, нов алгоритъм, способен да разтърси човечеството. Алтман го е представил на борда на директорите и те са били толкова уплашени, че решили да спасят света…
И докато онлайн дебатите се превърнаха в спорове като за латиносериал кой и как дърпа конците, кой се е оказал в силната позиция и какво се променя в света на технологиите след цялата суматоха… встрани остана само образът на жената, която за няколко дни се озова начело на компанията.
Макар и името ѝ да се споменаваше след големия успех на ChatGPT, личността на албанката Мира Мурати винаги оставаше в сянката на Алтман. Ето че е дошло време да научим повече за нея, защото, по всичко личи, от нейните действия ще зависи бъдещето на света, при това не само на технологичния…

повече информация
„Свободна воля. Или баркод в цифровия концлагер?“

„Свободна воля. Или баркод в цифровия концлагер?“

„Представете си Одисей с джипиес сред гръцките острови напът към Итака. Превръщаме пътуването на човечеството през времето в круиз. А от лъжовната розова зона на комфорта до цифровия концлагер е само крачка. Така наречената цифровизация би била една много комична, дори забавна част от историята на човечеството, но, уви, не е така. Тя ни води директно в един безсмислен от хуманна гледна точка свят.“
С тези думи на Недялко Славов започваме разговора за най-новия му роман „Хабитат“. Огромна по значение и сила книга, пропита с много от тези големи днешни въпроси, чиито отговори не спирам да търся чрез Дигитални истории.
Недялко Славов е носител на редица национални награди за поезия и проза, автор на романите „Фаустино“, „432 херца“, „Камбаната“.
На границата на епоса е и новото му произведение, в което с безпощадната си писателска наблюдателност и неповторимия си стил той ни показва зловещо тиктакащите взривни устройства на днешния ден, за които все нямаме време.
Ще се научим ли да ценим данните си, най-ценното, което имаме днес онлайн? Какво може да ни спаси от шпионските агенции, в каквито са се превърнали социалните мрежи? Къде е днес битката за свободата и има ли все още шанс да не я загубим?
„Всичко е в това какво искаш да си утре. Свободна воля. Или баркод в цифровия концлагер на един безсмислен свят“.

повече информация
Момчето, което спаси интернет. И влезе в затвора

Момчето, което спаси интернет. И влезе в затвора

12 май 2017-а, денят, който можеше да сложи край на интернет. Компютрите на британската здравна система започват да рухват един след друг. Спират да работят и на екрана се появява недвусмисленото съобщение „Ууупс, файловете ви са криптирани! Трябва да преведете между $300 и $600 в биткойн на следния адрес, за да отключите машината…“.
Вирусът WannaCry, влязъл в родния мем фолклор с нелепия превод „Искаплаче“, се превръща в най-мощната кибератака в човешката история. Само за един следобед нанася щети за между 4 и 8 милиарда долара. Нещо повече, заради начина и скоростта, с която се разпространява, заплашва за денонощие да порази всяко устройство, свързано към интернет.
Спира го по особено неочакван начин един симпатичен къдрав британец с ямайски произход. Само на 22, той се превръща в знаменитост в киберсвета. Докато няколко месеца по-късно не се озовава в щатски затвор с обвинения, които могат да му донесат десетки години затвор.
Историята на Маркъс Хъчинс е нещо средно между „Граф Монте Кристо“ и „Престъпление и наказание“ на дигиталните времена. За възходите и паденията на момчето, което спаси интернет (и хиляди животи), преди да се срещне с грешките от миналото си…

повече информация
„Искам да чета нещо, написано от хора!“

„Искам да чета нещо, написано от хора!“

За книги и фронтенд програмиране, за писането – на думи и компютърен код, ще си говорим с Александър Кондов. Ще минем покрай философията и изкуствения интелект.
Програмирането е изкуство, а не инженерна работа! – гласи веруюто на днешния ни гост.
Защо ли смята така?
Седнали сме тримата – с него и ChatGPT, в една дигитална кръчма, за да побъбрим на чаша дигитален чай за ония големи теми, които вълнуват всички ни…

повече информация
Share This