Алгоритмите, които ни вкараха в „балона“

дек. 10, 2021 | Технологии

Алгоритмите, които ни вкараха в „балона“

10 декември 2021 | Технологии

Искам вечерта да гледам филм, обаче да не е тъп като последния. Търся препоръки. Някога щях да се ровя и ровя из интернет, сега няма нужда, изкуственият интелект се грижи за мен.

Алгоритмите за препоръчване на съдържание са сред по-старите и най-успешните представители на машинното самообучение. Днес да се говори за тях не е чак толкова на мода поради две основни причини. Вече могат да работят много добре и второ – никак не са удобна тема за тези, които ги използват най-активно.

Защо ли? Точно те са в основата на един от големите проблеми на днешното време: балона на филтрите. Бързаме, имаме време да четем само препоръчана информация, заобикаляме се с удобни гледни точни, нямаме сили за нюансите, така скоро се разделяме на ваксъри и антиваксъри…

…ама нали в началото ставаше дума за филми, това не е ли нещо безобидно? Точно така. Алгоритмите не са виновни за това как ние ги използваме. А историята на тези, които търсят как да предложат най-доброто съдържание, е интересна за всеки, който се интересува от технологиите и бъдещето, което те ни подготвят.

 

Нетфликс

 

ИИ, препоръчай ми филм!

Преди десетилетие особено нашумяла беше наградата на „Нетфликс“. Гигантът беше обещал милион долара на учените, които предлагат най-доброто решение в областта на алгоритмите за препоръчване на съдържание.

Последното връчване на приза през 2010-а беше отменено, от „Нетфликс“ се отказаха да организират повече надпреварата. Защото явно вече бяха станали достатъчно добри в това направление…

Дали системите за препоръчване са нещо добро или лошо, никак не е правилният въпрос. Винаги сме търсили препоръки от приятелите си за следващите книги, филми, плочи, на които да се насладим. Със сигурност е доста добър подход да се посъветваме с хора, които имат сходен вкус с нашия. Очевидно това например, че е един филм е станал много популярен, не е достатъчна гаранция, че ще ни хареса. Много по-добра идея е да сравним вкусовете си с наши приятели, които вече са го гледали.

Днес обаче нямаме време и за това. А и защо трябва да се случва по този начин, след като имаме на своя страна усъвършенстваните алгоритми за машинно самообучение? Те много добре умеят да съпоставят данните и да намират шаблоните, сходствата. В огромната база данни да открият хората със сходни с нашите вкусове, да систематизират информацията и на базата на това да ни дадат конкретна препоръка, която има много сериозен шанс да се окаже успешна.

И така, как работят системите за препоръчване, които днес са се доказали като най-добри?

 

Разделяй и уцелвай

Какво е машинното самообучение? Начин да създаваме „изкуствен интелект“, който помага в безброй много области (и може би един ден дори ще ни управлява). Както всички останали научни дисциплини, ако подходим без предубеждения, може да си го представим и като нещо по-просто. Компютърът получава огромна база от информация. После специалистите по машинно самообучение имат грижата да му предложат най-точните алгоритми, за да се опита да намери закономерностите в нея. Безброй са различните решения, някои са по-прости и могат да бъдат обяснени в няколко реда, други са почти невъзможни за популярно представяне.

Инженерите разделят данните, които подават, на такива за същинското обучение и за тестване на успеваемостта. После оставят програмата сама да опитва да налучква променливите параметри за съответния алгоритъм с основните данни и ги съпоставят с тестовите данни, отделени за тази цел.

В този момент прилагат различни нови методи, които да покажат колко добре се е справил със задачата си основният. Ако оценката му е достатъчно висока, са сигурни, че са си свършили работата. И могат да го пуснат на свобода…

 

Препоръчващи алгоритми

Снимка: mohamed Hassan, Pixabay

 

Четящи мозъци

Както стана дума, алгоритмите за препоръчване са едни от най-старите първопроходци в машинното самообучение, днес ги познаваме доста добре.

Основните подходи в това направление са два, наричат се „колаборативно филтриране“ и „филтриране, базирано на съдържанието“. В по-модерните решения се прилагат различни комбинации от тях така, че да се използват силните страни на двата подхода.

Колаборация, или сътрудничество, ще рече, че хората работят заедно, за да постигнат даден резултат. Това стои в основата и на колаборативното филтриране. Същият принцип, който споменахме и продължаваме да използваме и днес. А на езика на продажбите: „Хората, които купиха…, купиха и…“. Целта на алгоритъма в този случай е да обработи данните така, че максимално да потърси общите черти в избора на различните потребители, така че да изведе тенденциите.

Е, едно време всички харесваха „Титаник“, как тогава да се справим в океана от решения?

 

Колаборативно филтриране

Схема на колаборативно филтриране, направена от Google Developers

 

БезприСтрасти

Като цяло подходът е следният. Алгоритъмът за колаборативно филтриране групира хората, които са давали максимално близки рейтинги, както потребителя, на когото ще препоръчваме. После данните се използват, за да се изчисли колко е вероятно хората със сходен вкус да харесат и друг продукт от същата група. Измежду потребителите, харесали любимите ви филми, да намерим средните показатели за филмите и да видим за кои от тях са най-високи. Именно тях ще препоръчаме. Като, разбира се, опитаме да игнорираме например филмите, които имат твърде малко оценки, потребителите, които дават твърде разнопосочни числа. Или, т.нар. „пристрастие“, което в света на технологиите наричат с английския термин “bias”.

От другата страна идва филтрирането, базирано на съдържание. Идеята не е много различна, просто перспективата се обръща наобратно. Алгоритмите се базират на другите единици, които в случая са филмите, а не зрителите им. Сравняват се оценките на потребителите за всяка двойка филми и на базата на това се извежда предположение какъв би бил рейтингът на този потребител, който още не е гледал втория филм.

Както стана дума, „Нетфликс“ определено е пионер и доказан фактор в тази област, ето защо ще разгледаме по-подробно техния подход. Както твърдят от компанията, 80% от гледанията на техни филми са в резултат на персонализираните предложения. Представете си само! Едва 1 от 5 от филма е гледан, защото посетителят го е отворил сам, всички останали са били предложени като следващи най-добри решения.

 

Филтриране, базирано на съдържание

Схема на филтриране, базирано на съдържание, направена от Google Developers

 

Колаборационисти

„Нетфликс“ базират системата си повече върху подхода с колаборативното филтриране. Очевидно това се оказа печелившото решение след състезанието, за което ви споменах. А историята на наградата е повече от интересна. Малцина знаят, но „Нетфликс“ стартират бизнеса си в края на 90-те, разпространявайки филми на базата на абонамент, като доставят избраните заглавия на дивидита в домовете на зрителите.

През 2000 г. те представят за първи път напредничавата си система за препоръчване, а 6 години по-късно създават наградата, за която стана дума. Обещават да дадат 1 милион долара на всеки, който успее да създаде система с по-добри показатели. Има, разбира се и конкретна оценка, 1 милион не се дават току-тъй. Избран е един от най-често използваните критерии – този за оценка на средната квадратична грешка (RMSE). Алгоритъмът на „Нетфликс“ постига изключително високата стойност от 0,9525, а призът е обещан на всеки, който я надмине с поне 10%.

За щастие, наградата не си остава за тези, които са я обявили („за щастие“, защото те и без това си имат доста пари). През 2007 г. тя е спечелена с кандидатура, която ползва комбинация от два по-сложни алгоритми – матрична факторизация (SVD) и ограничени машини на Боцман (RBM). Успехът в този случай е вече 0,88, което изпълнява изискванията!

 

По първа програма

През 2009 г. наградата отново е спечелена, с нова комбинация от алгоритми. „Нетфликс“ чинно си изплащат отново обещаната сума, но този път решават да не използват предложените решения в своята практика. Преценяват, че за много малко по-добри резултати трябва да отделят прекалено сериозни разходи. Системата им и без това е доказано, че работи изключително добре, стигайки до споменатите 80% на препоръчаното съдържание.

Една от причините наградите след това да отпаднат е, че идва ерата на „стриймването“. Компанията спира да продава просто филми, а се превръща в абонаментна платформа, стигайки през 2021-а до над 190 милиона абонати!

Просто в този момент вече не им е чак такъв приоритет да препоръчват добре, защото следващата им продажба не е на нов филм, а на абонамент.

 

Препоръчващи алгоритми

Снимка: Gerd Altmann, Pixabay

 

Става за четене

Така системите за препоръчване продължават нататък, за да стигнем днес до времената на прословутия балон на филтрите. Със сигурност и днес именно споменатите алгоритми са в основата на персонализираното съдържание и препоръките, които получаваме от социалните мрежи и търсачките. Просто вече не се говори чак толкова за тези решения, защото те не са само повод за гордост.

Разбира се, всичко изброено дотук, са само основите идеи. Алгоритмите за препоръчване, с които работят „Фейсбук“ и „Гугъл“, са изключително комплексни и многопластови и, разбира се, за тях се знае малко. Освен това, последните разкрития, направени от бивш високопоставен служител на първата социална мрежа, ясно показват защо за компанията никак не е изгодно да показва системите си.

Що се отнася до „Гугъл“ и рекламите, които ви показва, има една малка подробност. На базата на ежедневните ви интеракции в мрежата, търсачката определя основни показатели за вас. Ще се учудите (или пък не) колко са точни те, ако надникнете тук. Даже можете да ги ограничите, поне така твърдят.

Така или иначе, в по-сложните задачи, като например лицевото разпознаване, машинния превод, автономните автомобили, днес се прилагат следващото поколение технологии. Те са висшият пилотаж в тази област и универсалното решение, на което се крепят най-големите очаквания за технологичното бъдеще – невронните мрежи.

Именно дълбоките невронни мрежи днес стоят в основата на препоръчващите системи на големите състезатели. При тях не се използват просто един или два конкретни алгоритъма, които обработват данните, а многобройни нива, способни да търсят още и още фини тенденции в данните. Благодарение на невронните мрежи компютрите дори могат да… сънуват! Но това е дълга и интересна тема, която скоро ще обсъдим по-подробно.

 

Препоръчващи алгоритми

Снимка: Gerd Altmann, Pixabay

 

Алгоритми на крак

Тук ще намерите файлово хранилище (малко странно, така е на български „репозитори“) с елементарен модел за създаването на алгоритъм за препоръчване на базата на официалната база данни, използвана за наградите на „Нетфликс“. Приложени са принципите на колаборативното филтриране.

И така, вече знаем малко повече за интелигентните системи, които ни подбират предпочитания – за новини, филми или книги. А това да знаем как работят, със сигурност е полезно и за да имаме предвид и негативните страни от тях. Алгоритмите не са добри или лоши. От нас зависи до каква степен ще им позволим с помощта на препоръчването да ни изпратят в „балона“. Те вече ни познават доста добре. Затова е добре и ние да ги опознаем…

Дигитални истории

Дигитални истории е и ще си остане изцяло некомерсиално начинание, на което посвещавам доста време и усилия. За създаването на сайта обаче са нужни определени разходи. Ако имате възможност и желание да подпомогнете сайта, вече можете да го направите. Разбира се, все така важна подкрепа си остава всяка добра дума, всяко споделяне на темите.

<a href="https://karamanev.me/author/georgik" target="_self">Георги Караманев</a>

Георги Караманев

Програмист, журналист на свободна практика и писател. Още за мен – четете тук.
Дигитални истории

Най-нови публикации:

Можем ли да различим историческите факти от измислиците на ChatGPT? (резултати)

Можем ли да различим историческите факти от измислиците на ChatGPT? (резултати)

1910. Това е годината, в която се раждат Майка Тереза и Жак-Ив Кусто, а светът още се радва на предвоенното спокойствие. За българска история обаче сме се събрали да си говорим. Точно 1910 души се...

повече информация
Кой изобрети тостера? Няма такава история!

Кой изобрети тостера? Няма такава история!

Сигурно сте чували за Алън Макмастърс, прословутия изобретател на тостера? Опитвайки се да намери идеалната сплав за електрически крушки, той неволно получил вещество, което карало хляба да кафенее...

повече информация
Рори и рецептите на Баба

Рори и рецептите на Баба

Какво ли прави един татуиран американец на борда на 40-годишна лада, устремен към поредното българско село? А какво ли съдържа коктейлът „Компютър“? Защо гражданинът на щата Вашингтон избира да...

повече информация
Айнщайн се прекланя пред Дънов? 12 клишета от българската история

Айнщайн се прекланя пред Дънов? 12 клишета от българската история

Първият християнски манастир е у нас. Пловдив е най-старият град на Земята. Айнщайн се прекланя пред Петър Дънов, а Хан Тервел е спасителят на Европа. Нещо повече, никога не сме губили военен флаг....

повече информация

Още публикации по темата:

От рубриката:

Можем ли да различим историческите факти от измислиците на ChatGPT? (резултати)

Можем ли да различим историческите факти от измислиците на ChatGPT? (резултати)

Цели 1910 души се включиха в експеримента на Дигитални истории, който имаше за цел да провери колко добре познаваме българската история! Дали сме способни да различим безспорни исторически факти от учебниците от такива, измислени от изкуствения интелект, който има за цел да ни подведе.
30 твърдения – половината исторически верни, половината – измислици на алгоритмите. Можете ли да ги различите?
Резултатите, поне за мен, са впечатляващи и дават доста поводи за размисъл.
Успя ли изкуственият интелект да затрудни участниците? Познаваме ли добре българското минало, което е толкова важна днес тема?

повече информация
Тест: Колко добре познавате българската история? Ще ви подхлъзне ли ChatGPT?

Тест: Колко добре познавате българската история? Ще ви подхлъзне ли ChatGPT?

15 общоприети твърдения за българската история и 15, измислени от изкуствения интелект. Ще успеете ли да ги различите? Кое е исторически факт и кое – безсмислица?
Днес, както никога, спорим за миналото си. Намираме силните исторически моменти, които ни карат да се гордеем, но лесно залитаме и по измислената история.
Можем ли да различим историческите факти от измислиците? Хайде да проверим заедно. 15 твърдения, генерирани от ChatGPT за българската история (и проверени от историк) и 15, които алгоритъмът измисли, помолен да пофантазира. 15 от твърденията са верни, 15 – изцяло измислени от изкуствения интелект.
С този тест започва историческата поредица от Дигитални истории. Ще поговорим с историка Александър Мошев за големите клишета онлайн, ще съберем поуките от някои любопитни фалшификации в мрежата. Ще дадем думата на писателите Виктория Бешлийска и Захари Карабашлиев, на учителя по история и куиз рекордьор Борис Русев. А междувременно сте вие – ще успеете ли да различите фактите от измислиците?
Колко добре познаваме историята си? Нека проверим заедно, а накрая ще обобщим резултатите.

Можете да се включите и в жребий за награди – подбрани книги и фланелки с логото на Дигитални истории. Отговорите се събират до символичния 10 ноември, а на 15-и очаквайте резултатите.
Благодаря от сърце за всяко попълване, за всяко споделяне!

повече информация
Какво мислят българите за изкуствения интелект? (Резултати)

Какво мислят българите за изкуствения интелект? (Резултати)

След дълго събиране на отговори в мащабната анкета на Дигитални истории дойде време да обобщим резултатите! Какво мислят българите за изкуствения интелект? Впечатлява ли ги напредъкът му и използват ли го ежедневно? Със страх или с ентусиазъм посрещат следващите големи стъпки в тази посока? Вярват ли, че е възможен генерален изкуствен интелект? Смятат ли, че през следващите години ни очакват мащабни промени? Дойде време да разберем на базата на безпристрастния поглед на данните!

повече информация

Най-новите:

Можем ли да различим историческите факти от измислиците на ChatGPT? (резултати)

Можем ли да различим историческите факти от измислиците на ChatGPT? (резултати)

Цели 1910 души се включиха в експеримента на Дигитални истории, който имаше за цел да провери колко добре познаваме българската история! Дали сме способни да различим безспорни исторически факти от учебниците от такива, измислени от изкуствения интелект, който има за цел да ни подведе.
30 твърдения – половината исторически верни, половината – измислици на алгоритмите. Можете ли да ги различите?
Резултатите, поне за мен, са впечатляващи и дават доста поводи за размисъл.
Успя ли изкуственият интелект да затрудни участниците? Познаваме ли добре българското минало, което е толкова важна днес тема?

повече информация
Българският литературен Банкси

Българският литературен Банкси

„Най-опасният литературен терорист у нас“. Не, тези думи за днешния ни гост не са мои, а на специалист, който следи и познава отблизо случващото се в българската литература.
Ето че след 153 интервюта, публикувани на този сайт, дойде времето за… първия анонимен гост! Няма да ви издам дори дали е мъж, или жена, важни тук са историята и гледната му точка.
Преди броени дни в два поетични конкурса генерирани от ИИ стихове попаднаха сред най-добрите, във втория случай ставаше дума за експеримент на Дигитални истории. Според мен е жизненоважно да започнем дискусията за бъдещите ни взаимоотношения с технологиите, при това с участието на колкото може повече важни гледни точки. Очаквайте следващите забележителни гости (и експерименти) по темата.
Днес обаче се връщаме още преди модата на ИИ генерирането. За да разкажем историята на един човек, който дълго време експериментира с това да изпраща компилирани или просто абсурдни стихове под различни имена. Дълго време преди това той е участвал и печелил конкурси с истинското си име, докато… не се убеждава, че нещо в системата не е наред. Че критериите не са това, което би трябвало да бъдат. Идеята му се променя с годините, особено след като успява да постигне серия от убедителни резултати и безброй публикации в много от смятаните за водещи поетични издания у нас.
Каква ли е целта му? Как изглежда според него бъдещето на поезията? Как алгоритмите променят отношението ни към писаното слово и към творчеството? Очаква ни забележителна среща с първия анонимен гост на Дигитални истории, българския литературен Банкси.

повече информация
Кой изобрети тостера? Няма такава история!

Кой изобрети тостера? Няма такава история!

Сигурно сте чували за Алън Макмастърс, прословутия изобретател на тостера? Опитвайки се да намери идеалната сплав за електрически крушки, той неволно получил вещество, което карало хляба да кафенее до съвършен загар. Уви, след тежка вечер в компанията на половин шише уиски, неговият конкурент Стивън Кромптън откраднал начинанието му и го представил за свое. После обрал цялата слава. И покрай това доста пари…
Дълъг репортаж за него показаха по BBC, „Уошингтън таймс“ описа невероятната му история, „Дейли Мирър“ включи името му сред „50-те най-велики британски изобретатели“. Често го споменават и до днес на Световния ден на тостера – 27 февруари. Статии, сборници, енциклопедии разказват историята му. Дори в популярен британски готварски формат му посвещават състезание, участниците трябва да измислят забележително блюдо в чест на изобретателя на тостера.
Малката подробност е, че… няма такъв човек. Изобретателят Макмастърс е „изобретен“ от двама студенти, решили да покажат колко е важно днес да проверяваме информацията, особено тази, свързана с миналото. Колко лесно даваме доверие онлайн и колко по-критични би трябвало да бъдем. Измислената страница в Wikipedia просъществува почти десетилетие, преди истината да излезе наяве.
Колко лесно е днес да се създаде фалшива история? Отговора дава специалният списък, в който самата англоезична Уикипедия разказва за най-дълго просъществувалите фалшиви публикации.
За мащабни мистификации и дребни, неочаквано случили се шеги. Които идват да ни припомнят колко лесно може да бъдем подведени онлайн.

повече информация
Рори и рецептите на Баба

Рори и рецептите на Баба

Какво ли прави един татуиран американец на борда на 40-годишна лада, устремен към поредното българско село? А какво ли съдържа коктейлът „Компютър“? Защо гражданинът на щата Вашингтон избира да търси старите български рецепти из затънтените села, там, където е „Баба“, събирателното, вечното на един безкраен, универсален образ, който докосва всички ни?
Рори Милър с днешна дата преоткрива магията на българското село. Онова, което изоставяме, а пази толкова от смисъла.
Строителен работник, берач на маслини и учител по английски, преди около 15 години Рори спира в България, за да се родят тук двете му деца. Привлича погледите с участието си в “Masterchef”, после продължава пътя си из затънтените български села. Така се ражда забележителната книга „На око“, сюрреалистичен пътепис, където точни рецепти няма да намерите – и за гозби, и за бъдещето, всичко е „на око“ като мерна единица и начин на живот. Но ще намерите и самото село, и гозбите му, и бабите, и духа, и добре премерените подправки.
Следващата стъпка на американеца е книгата да се появи на английски с кампания в платформа за споделено финансиране. Аз лично ще го подкрепя, защото мисля, че е уловил безценния дух на българското село днес. Което е различно от онова на Елин Пелин и Иван Вазов. Което, вярвам, ще обърне сбъркана мода, че животът е в големия град. Светът на технологиите ни позволява както никога да разбиваме стереотипите. Припомня ни го и книгата на колоритния Рори, който има какво да ни каже и в следващите редове.

повече информация
Айнщайн се прекланя пред Дънов? 12 клишета от българската история

Айнщайн се прекланя пред Дънов? 12 клишета от българската история

Първият християнски манастир е у нас. Пловдив е най-старият град на Земята. Айнщайн се прекланя пред Петър Дънов, а Хан Тервел е спасителят на Европа. Нещо повече, никога не сме губили военен флаг.
Кое от твърденията, които можете да намерите всеки ден онлайн, има историческа обосновка? Къде можем да говорим за различни тълкувания, къде поводът за гордост има пълно основание и къде става дума за откровена измислица?
Историята е толкова важна област, която ни събира и дели. Щедро поле за гордост и за манипулации.
Вие можете ли да различите някои общоприети твърдения, свързани с българската история, от такива, измислени от изкуствения интелект? Опитайте тук, този експеримент ще даде интересни резултати!
А ние ще проверим някои от най-популярните твърдения, поводи за гордост онлайн, които можете да видите навсякъде. Не, няма да фактчектваме, според мен тази идея е обречена, защото и историята, както журналистиката, не може да бъде точна наука.
Срещаме се с историка Александър Мошев, за да поговорим на базата на изворите и на логиката, да се опитаме да потърсим рационалния поглед. Аз му подавам без предварителни условия 12 избрани клишета, а той ще разкаже повече за тях и за това доколко съвпадат с мнението на днешната историография.

повече информация
Кое лекува историческите рани?

Кое лекува историческите рани?

Историята днес ни свързва и дели, разпалва и вълнува, както никога преди. Разбира се, и защото, „който контролира миналото, контролира бъдещето“.
Захари Карабашлиев с най-новия си роман – „Рана“ се обърна именно към българската история, към едни от най-драматичните ѝ и важни моменти. Към раните, които ни нанася миналото, към предците, чийто път продължаваме. Романът наднича в няколко от големите теми на последните 150 години по вълнуващ и автентичен начин. Писателят вече ми е гостувал, срещаме се отново, за да поговорим за миналото. За силните му истории и вълнението. За поуките и отговорите. За това, което ни събира и което ни дели.

повече информация
Share This