Алгоритмите, които ни вкараха в „балона“

дек. 10, 2021 | Технологии

Алгоритмите, които ни вкараха в „балона“

10 декември 2021 | Технологии

Искам вечерта да гледам филм, обаче да не е тъп като последния. Търся препоръки. Някога щях да се ровя и ровя из интернет, сега няма нужда, изкуственият интелект се грижи за мен.

Алгоритмите за препоръчване на съдържание са сред по-старите и най-успешните представители на машинното самообучение. Днес да се говори за тях не е чак толкова на мода поради две основни причини. Вече могат да работят много добре и второ – никак не са удобна тема за тези, които ги използват най-активно.

Защо ли? Точно те са в основата на един от големите проблеми на днешното време: балона на филтрите. Бързаме, имаме време да четем само препоръчана информация, заобикаляме се с удобни гледни точни, нямаме сили за нюансите, така скоро се разделяме на ваксъри и антиваксъри…

…ама нали в началото ставаше дума за филми, това не е ли нещо безобидно? Точно така. Алгоритмите не са виновни за това как ние ги използваме. А историята на тези, които търсят как да предложат най-доброто съдържание, е интересна за всеки, който се интересува от технологиите и бъдещето, което те ни подготвят.

 

Нетфликс

 

ИИ, препоръчай ми филм!

Преди десетилетие особено нашумяла беше наградата на „Нетфликс“. Гигантът беше обещал милион долара на учените, които предлагат най-доброто решение в областта на алгоритмите за препоръчване на съдържание.

Последното връчване на приза през 2010-а беше отменено, от „Нетфликс“ се отказаха да организират повече надпреварата. Защото явно вече бяха станали достатъчно добри в това направление…

Дали системите за препоръчване са нещо добро или лошо, никак не е правилният въпрос. Винаги сме търсили препоръки от приятелите си за следващите книги, филми, плочи, на които да се насладим. Със сигурност е доста добър подход да се посъветваме с хора, които имат сходен вкус с нашия. Очевидно това например, че е един филм е станал много популярен, не е достатъчна гаранция, че ще ни хареса. Много по-добра идея е да сравним вкусовете си с наши приятели, които вече са го гледали.

Днес обаче нямаме време и за това. А и защо трябва да се случва по този начин, след като имаме на своя страна усъвършенстваните алгоритми за машинно самообучение? Те много добре умеят да съпоставят данните и да намират шаблоните, сходствата. В огромната база данни да открият хората със сходни с нашите вкусове, да систематизират информацията и на базата на това да ни дадат конкретна препоръка, която има много сериозен шанс да се окаже успешна.

И така, как работят системите за препоръчване, които днес са се доказали като най-добри?

 

Разделяй и уцелвай

Какво е машинното самообучение? Начин да създаваме „изкуствен интелект“, който помага в безброй много области (и може би един ден дори ще ни управлява). Както всички останали научни дисциплини, ако подходим без предубеждения, може да си го представим и като нещо по-просто. Компютърът получава огромна база от информация. После специалистите по машинно самообучение имат грижата да му предложат най-точните алгоритми, за да се опита да намери закономерностите в нея. Безброй са различните решения, някои са по-прости и могат да бъдат обяснени в няколко реда, други са почти невъзможни за популярно представяне.

Инженерите разделят данните, които подават, на такива за същинското обучение и за тестване на успеваемостта. После оставят програмата сама да опитва да налучква променливите параметри за съответния алгоритъм с основните данни и ги съпоставят с тестовите данни, отделени за тази цел.

В този момент прилагат различни нови методи, които да покажат колко добре се е справил със задачата си основният. Ако оценката му е достатъчно висока, са сигурни, че са си свършили работата. И могат да го пуснат на свобода…

 

Препоръчващи алгоритми

Снимка: mohamed Hassan, Pixabay

 

Четящи мозъци

Както стана дума, алгоритмите за препоръчване са едни от най-старите първопроходци в машинното самообучение, днес ги познаваме доста добре.

Основните подходи в това направление са два, наричат се „колаборативно филтриране“ и „филтриране, базирано на съдържанието“. В по-модерните решения се прилагат различни комбинации от тях така, че да се използват силните страни на двата подхода.

Колаборация, или сътрудничество, ще рече, че хората работят заедно, за да постигнат даден резултат. Това стои в основата и на колаборативното филтриране. Същият принцип, който споменахме и продължаваме да използваме и днес. А на езика на продажбите: „Хората, които купиха…, купиха и…“. Целта на алгоритъма в този случай е да обработи данните така, че максимално да потърси общите черти в избора на различните потребители, така че да изведе тенденциите.

Е, едно време всички харесваха „Титаник“, как тогава да се справим в океана от решения?

 

Колаборативно филтриране

Схема на колаборативно филтриране, направена от Google Developers

 

БезприСтрасти

Като цяло подходът е следният. Алгоритъмът за колаборативно филтриране групира хората, които са давали максимално близки рейтинги, както потребителя, на когото ще препоръчваме. После данните се използват, за да се изчисли колко е вероятно хората със сходен вкус да харесат и друг продукт от същата група. Измежду потребителите, харесали любимите ви филми, да намерим средните показатели за филмите и да видим за кои от тях са най-високи. Именно тях ще препоръчаме. Като, разбира се, опитаме да игнорираме например филмите, които имат твърде малко оценки, потребителите, които дават твърде разнопосочни числа. Или, т.нар. „пристрастие“, което в света на технологиите наричат с английския термин “bias”.

От другата страна идва филтрирането, базирано на съдържание. Идеята не е много различна, просто перспективата се обръща наобратно. Алгоритмите се базират на другите единици, които в случая са филмите, а не зрителите им. Сравняват се оценките на потребителите за всяка двойка филми и на базата на това се извежда предположение какъв би бил рейтингът на този потребител, който още не е гледал втория филм.

Както стана дума, „Нетфликс“ определено е пионер и доказан фактор в тази област, ето защо ще разгледаме по-подробно техния подход. Както твърдят от компанията, 80% от гледанията на техни филми са в резултат на персонализираните предложения. Представете си само! Едва 1 от 5 от филма е гледан, защото посетителят го е отворил сам, всички останали са били предложени като следващи най-добри решения.

 

Филтриране, базирано на съдържание

Схема на филтриране, базирано на съдържание, направена от Google Developers

 

Колаборационисти

„Нетфликс“ базират системата си повече върху подхода с колаборативното филтриране. Очевидно това се оказа печелившото решение след състезанието, за което ви споменах. А историята на наградата е повече от интересна. Малцина знаят, но „Нетфликс“ стартират бизнеса си в края на 90-те, разпространявайки филми на базата на абонамент, като доставят избраните заглавия на дивидита в домовете на зрителите.

През 2000 г. те представят за първи път напредничавата си система за препоръчване, а 6 години по-късно създават наградата, за която стана дума. Обещават да дадат 1 милион долара на всеки, който успее да създаде система с по-добри показатели. Има, разбира се и конкретна оценка, 1 милион не се дават току-тъй. Избран е един от най-често използваните критерии – този за оценка на средната квадратична грешка (RMSE). Алгоритъмът на „Нетфликс“ постига изключително високата стойност от 0,9525, а призът е обещан на всеки, който я надмине с поне 10%.

За щастие, наградата не си остава за тези, които са я обявили („за щастие“, защото те и без това си имат доста пари). През 2007 г. тя е спечелена с кандидатура, която ползва комбинация от два по-сложни алгоритми – матрична факторизация (SVD) и ограничени машини на Боцман (RBM). Успехът в този случай е вече 0,88, което изпълнява изискванията!

 

По първа програма

През 2009 г. наградата отново е спечелена, с нова комбинация от алгоритми. „Нетфликс“ чинно си изплащат отново обещаната сума, но този път решават да не използват предложените решения в своята практика. Преценяват, че за много малко по-добри резултати трябва да отделят прекалено сериозни разходи. Системата им и без това е доказано, че работи изключително добре, стигайки до споменатите 80% на препоръчаното съдържание.

Една от причините наградите след това да отпаднат е, че идва ерата на „стриймването“. Компанията спира да продава просто филми, а се превръща в абонаментна платформа, стигайки през 2021-а до над 190 милиона абонати!

Просто в този момент вече не им е чак такъв приоритет да препоръчват добре, защото следващата им продажба не е на нов филм, а на абонамент.

 

Препоръчващи алгоритми

Снимка: Gerd Altmann, Pixabay

 

Става за четене

Така системите за препоръчване продължават нататък, за да стигнем днес до времената на прословутия балон на филтрите. Със сигурност и днес именно споменатите алгоритми са в основата на персонализираното съдържание и препоръките, които получаваме от социалните мрежи и търсачките. Просто вече не се говори чак толкова за тези решения, защото те не са само повод за гордост.

Разбира се, всичко изброено дотук, са само основите идеи. Алгоритмите за препоръчване, с които работят „Фейсбук“ и „Гугъл“, са изключително комплексни и многопластови и, разбира се, за тях се знае малко. Освен това, последните разкрития, направени от бивш високопоставен служител на първата социална мрежа, ясно показват защо за компанията никак не е изгодно да показва системите си.

Що се отнася до „Гугъл“ и рекламите, които ви показва, има една малка подробност. На базата на ежедневните ви интеракции в мрежата, търсачката определя основни показатели за вас. Ще се учудите (или пък не) колко са точни те, ако надникнете тук. Даже можете да ги ограничите, поне така твърдят.

Така или иначе, в по-сложните задачи, като например лицевото разпознаване, машинния превод, автономните автомобили, днес се прилагат следващото поколение технологии. Те са висшият пилотаж в тази област и универсалното решение, на което се крепят най-големите очаквания за технологичното бъдеще – невронните мрежи.

Именно дълбоките невронни мрежи днес стоят в основата на препоръчващите системи на големите състезатели. При тях не се използват просто един или два конкретни алгоритъма, които обработват данните, а многобройни нива, способни да търсят още и още фини тенденции в данните. Благодарение на невронните мрежи компютрите дори могат да… сънуват! Но това е дълга и интересна тема, която скоро ще обсъдим по-подробно.

 

Препоръчващи алгоритми

Снимка: Gerd Altmann, Pixabay

 

Алгоритми на крак

Тук ще намерите файлово хранилище (малко странно, така е на български „репозитори“) с елементарен модел за създаването на алгоритъм за препоръчване на базата на официалната база данни, използвана за наградите на „Нетфликс“. Приложени са принципите на колаборативното филтриране.

И така, вече знаем малко повече за интелигентните системи, които ни подбират предпочитания – за новини, филми или книги. А това да знаем как работят, със сигурност е полезно и за да имаме предвид и негативните страни от тях. Алгоритмите не са добри или лоши. От нас зависи до каква степен ще им позволим с помощта на препоръчването да ни изпратят в „балона“. Те вече ни познават доста добре. Затова е добре и ние да ги опознаем…

Дигитални истории
<a href="https://karamanev.me/author/georgik" target="_self">Георги Караманев</a>

Георги Караманев

Програмист, журналист на свободна практика и писател. Още за мен – четете тук.
Дигитални истории

Най-нови публикации:

„Новата“ майка на ChatGPT

„Новата“ майка на ChatGPT

„Тварта прониква с множество очи в отворения свят…“ Коя ли е тази твар? Сътресенията в OpenAI през последната седмица надминаха по обрати „Игра на тронове“, че дори и българската политика. Сам...

повече информация
„Свободна воля. Или баркод в цифровия концлагер?“

„Свободна воля. Или баркод в цифровия концлагер?“

„Представете си Одисей с джипиес сред гръцките острови напът към Итака. Превръщаме пътуването на човечеството през времето в круиз. А от лъжовната розова зона на комфорта до цифровия концлагер е...

повече информация
Момчето, което спаси интернет. И влезе в затвора

Момчето, което спаси интернет. И влезе в затвора

12 май 2017-а, денят, който можеше да сложи край на интернет. Компютрите на британската здравна система започват да рухват един след друг. Спират да работят и на екрана се появява недвусмисленото...

повече информация

Още публикации по темата:

От рубриката:

„Новата“ майка на ChatGPT

„Новата“ майка на ChatGPT

„Тварта прониква с множество очи в отворения свят…“ Коя ли е тази твар?
Сътресенията в OpenAI през последната седмица надминаха по обрати „Игра на тронове“, че дори и българската политика. Сам Алтман, лидерът на компанията, превърнала се в доминатор, изведнъж… бе уволнен. На него място застана главният технологичен директор на компанията Мира Мурати. После настана пълна суматоха, в края на която всичко си дойде обратно на мястото.
Тепърва ще научим (или пък няма) как и защо се случи този панаир.
Повече от любопитна е версията, съобщавана и от сериозни медии, че причината за всичко е Q* – „кю стар“, нов алгоритъм, способен да разтърси човечеството. Алтман го е представил на борда на директорите и те са били толкова уплашени, че решили да спасят света…
И докато онлайн дебатите се превърнаха в спорове като за латиносериал кой и как дърпа конците, кой се е оказал в силната позиция и какво се променя в света на технологиите след цялата суматоха… встрани остана само образът на жената, която за няколко дни се озова начело на компанията.
Макар и името ѝ да се споменаваше след големия успех на ChatGPT, личността на албанката Мира Мурати винаги оставаше в сянката на Алтман. Ето че е дошло време да научим повече за нея, защото, по всичко личи, от нейните действия ще зависи бъдещето на света, при това не само на технологичния…

повече информация
Закъде си се забързал?

Закъде си се забързал?

„Забързаното ежедневие“ е клише, което повтаряме всеки ден.
Може би, защото е безусловно вярно. Все не стига времето, взеха да ги правят много кратки денонощията. Минутите се изнизват, не оставят време за спокойни мигове със семейството, с приятели, за книга, просто за замисляне или пълен релакс…
Как да е иначе? Днес в рамките на един ден можем да получим повече информация, отколкото само няколко поколения по-рано са възприемали за месеци, дори за цял живот.
На какво се дължи това постоянно усещане? Поколенията ли са различни, работата ли е повече? Или просто има нещо, което ни кара да се чувстваме под напрежение? Което все ни плаши, че изпускаме момента, дори когато няма никакво основание…

повече информация
Ковид 4 г. по-късно. Защо не си взехме поука?

Ковид 4 г. по-късно. Защо не си взехме поука?

Спомняте ли си, не толкова отдавна бяхме затворени по домовете си, парковете бяха преградени от ленти, пътищата извън града – от пропускателни пунктове… После се появиха ваксините, щяха да ни спасят или да ни убият. Рекорден брой българи умираха, разделихме се на ваксъри и антиваксъри, а оттам тръгнаха и толкова други разделения…
Невероятно е устроен човешкият мозък, бързо забравя и се адаптира към новото, към лесното. Така обаче много от важните въпроси изчезват, изтикани от поредната „актуална“ тема, по която да се дърляме. Докато, междувременно, от много държави идват сигнали, че ковид се завръща…
Видяхме колко бързо ежедневието ни може да се преобърне наопаки. Колко сме крехки, като индивиди и като вид. И е време да потърсим поуките.
Възможно ли е скоро да има нова вълна на коронавируса или пък да се появи следващият микроорганизъм, способен да промени живота на цялата планета?
Научихме ли си уроците?
Колко адекватно се справихме с пандемията?
Можеше ли повече човешки животи да бъдат спасени?
Колко смъртоносен се оказа коронавирусът?
Прекалихме ли с мерките или напротив – трябваше те да бъдат по-строги?
Решение ли се оказаха ваксините?
По-подготвени ли сме за следващи епидемии?

Въпроси, чиито отговори са важни за всеки от нас.

повече информация

Най-новите:

Пол Алън – другото лице на Microsoft

Пол Алън – другото лице на Microsoft

Две хлапета се сприятеляват покрай общия си интерес към компютрите. После заедно създават първата си фирма. Няма и десетилетие по-късно същата тази фирма вече е първият гигант на модерните компютърни времена. И ако за едното хлапе, което дълго беше най-богатият човек на планетата, знаем много, то историята на другото не е чак толкова популярна.
Не друг, а компютърният специалист Пол Алън, „кръстникът“ на Microsoft, се оказа собственикът на най-скъпо продадената частна колекция от картини. При това през ноември 2022-а, 4 години след като си отиде от този свят. Ценител на изкуството, запленен от спорта, огромен дарител за научни изследвания. Той е и богаташът, който пробуди модерния интерес към космическите полети.
Още на 29 разбира, че е болен от смъртоносно заболяване и решава да изживее остататъка от живота си така, както си е мечтаел.
Много може да се поучим от историята и светогледа на този нестандартен образ. И още повече – да си задаваме въпроса как щеше да изглежда днешният технологичен свят, ако и останалите му лидери имаха неговия светоглед?

повече информация
„Занимаваш се с наука? Ще си тъп и беден!“

„Занимаваш се с наука? Ще си тъп и беден!“

Не, няма! Технологиите, науката са пътят – и за всеки млад човек, който иска да постигне нещо, и за всички нас, като народ, дори като цивилизация.
29 милиона пъти са видени миналата година в социалните мрежи публикациите на сайта „Българска наука“. Достъпно, но и адекватно, издържано, в него се разказва за научните пробиви, за предизвикателствата, за големите успехи на българските учени.
Вече 17 години Петър Теодосиев влага в тази кауза душата си. Започва като хлапе, няма пари да си купи книги, от които да се научи да програмира. А после така се увлича в разказването на научни истории, че и до днес не губи вярата си.
Че можем да обърнем стереотипа. Че е важно да запалим искрата на любопитството, на любовта към книгите, пламъка на науката при следващите млади хора. Защото това е шансът ни като нация.
Но как да се случи?

повече информация
„Новата“ майка на ChatGPT

„Новата“ майка на ChatGPT

„Тварта прониква с множество очи в отворения свят…“ Коя ли е тази твар?
Сътресенията в OpenAI през последната седмица надминаха по обрати „Игра на тронове“, че дори и българската политика. Сам Алтман, лидерът на компанията, превърнала се в доминатор, изведнъж… бе уволнен. На него място застана главният технологичен директор на компанията Мира Мурати. После настана пълна суматоха, в края на която всичко си дойде обратно на мястото.
Тепърва ще научим (или пък няма) как и защо се случи този панаир.
Повече от любопитна е версията, съобщавана и от сериозни медии, че причината за всичко е Q* – „кю стар“, нов алгоритъм, способен да разтърси човечеството. Алтман го е представил на борда на директорите и те са били толкова уплашени, че решили да спасят света…
И докато онлайн дебатите се превърнаха в спорове като за латиносериал кой и как дърпа конците, кой се е оказал в силната позиция и какво се променя в света на технологиите след цялата суматоха… встрани остана само образът на жената, която за няколко дни се озова начело на компанията.
Макар и името ѝ да се споменаваше след големия успех на ChatGPT, личността на албанката Мира Мурати винаги оставаше в сянката на Алтман. Ето че е дошло време да научим повече за нея, защото, по всичко личи, от нейните действия ще зависи бъдещето на света, при това не само на технологичния…

повече информация
„Свободна воля. Или баркод в цифровия концлагер?“

„Свободна воля. Или баркод в цифровия концлагер?“

„Представете си Одисей с джипиес сред гръцките острови напът към Итака. Превръщаме пътуването на човечеството през времето в круиз. А от лъжовната розова зона на комфорта до цифровия концлагер е само крачка. Така наречената цифровизация би била една много комична, дори забавна част от историята на човечеството, но, уви, не е така. Тя ни води директно в един безсмислен от хуманна гледна точка свят.“
С тези думи на Недялко Славов започваме разговора за най-новия му роман „Хабитат“. Огромна по значение и сила книга, пропита с много от тези големи днешни въпроси, чиито отговори не спирам да търся чрез Дигитални истории.
Недялко Славов е носител на редица национални награди за поезия и проза, автор на романите „Фаустино“, „432 херца“, „Камбаната“.
На границата на епоса е и новото му произведение, в което с безпощадната си писателска наблюдателност и неповторимия си стил той ни показва зловещо тиктакащите взривни устройства на днешния ден, за които все нямаме време.
Ще се научим ли да ценим данните си, най-ценното, което имаме днес онлайн? Какво може да ни спаси от шпионските агенции, в каквито са се превърнали социалните мрежи? Къде е днес битката за свободата и има ли все още шанс да не я загубим?
„Всичко е в това какво искаш да си утре. Свободна воля. Или баркод в цифровия концлагер на един безсмислен свят“.

повече информация
Момчето, което спаси интернет. И влезе в затвора

Момчето, което спаси интернет. И влезе в затвора

12 май 2017-а, денят, който можеше да сложи край на интернет. Компютрите на британската здравна система започват да рухват един след друг. Спират да работят и на екрана се появява недвусмисленото съобщение „Ууупс, файловете ви са криптирани! Трябва да преведете между $300 и $600 в биткойн на следния адрес, за да отключите машината…“.
Вирусът WannaCry, влязъл в родния мем фолклор с нелепия превод „Искаплаче“, се превръща в най-мощната кибератака в човешката история. Само за един следобед нанася щети за между 4 и 8 милиарда долара. Нещо повече, заради начина и скоростта, с която се разпространява, заплашва за денонощие да порази всяко устройство, свързано към интернет.
Спира го по особено неочакван начин един симпатичен къдрав британец с ямайски произход. Само на 22, той се превръща в знаменитост в киберсвета. Докато няколко месеца по-късно не се озовава в щатски затвор с обвинения, които могат да му донесат десетки години затвор.
Историята на Маркъс Хъчинс е нещо средно между „Граф Монте Кристо“ и „Престъпление и наказание“ на дигиталните времена. За възходите и паденията на момчето, което спаси интернет (и хиляди животи), преди да се срещне с грешките от миналото си…

повече информация
„Искам да чета нещо, написано от хора!“

„Искам да чета нещо, написано от хора!“

За книги и фронтенд програмиране, за писането – на думи и компютърен код, ще си говорим с Александър Кондов. Ще минем покрай философията и изкуствения интелект.
Програмирането е изкуство, а не инженерна работа! – гласи веруюто на днешния ни гост.
Защо ли смята така?
Седнали сме тримата – с него и ChatGPT, в една дигитална кръчма, за да побъбрим на чаша дигитален чай за ония големи теми, които вълнуват всички ни…

повече информация
Share This