Можете ли да различите истински човешки глас от такъв, генериран изцяло от изкуствения интелект, при това на български? Сериозно предизвикателство ви очаква, при това с награди! Но преди да стигнем до експеримента, нека ви разкажа една гласовита дигитална история, която, вярвам, тепърва ще отеква със собствен тембър.
Не е новина, че ИИ генерира изображения и текстове, които (проверено!) не могат да бъдат различени от създадените от човека. Видеото като че ли все още изостава, но… Можете ли да си представите глас, неразличим от човешкия, който да чете новините? Или да ви се обади по телефона, без да има никакъв шанс да го различите? Не говорим за популярното решение гласът да бъде клониран, а за напълно изкуствено създаден, който обаче е толкова убедителен. При това на чист български, който е почти невъзможен за човек, чийто роден език не е!
А какво предизвикателство ви очаква в петък…
Право на глас
Макар още да си няма търговско име (предполагам, създателите му биха се радвали на интересни предложения), става дума за едно начинание, което вече успешно се използва в практиката. Благодарение на героите на тази дигитална история от половин година слушателите на радио „Фокус“ в цялата страна слушат регионални новини, прочетени специално за тях от любимите им водещи.
Доц. Мариана Тодорова и Иван Ванков – Gatakka. Ако следите Дигитални истории, това са познати за вас имена. Доц. Тодорова проправя пътя на футурологията в съвременния ѝ вид у нас и всяка година ми гостува с важен разговор за това, което ни очаква, за големите въпроси, които трябва да си задаваме. Gatakka пък е технологичен специалист с огромен опит, който отдавна е натрупал популярност с умението да обяснява технологиите, а и да наднича в бъдещето им. Какво ли обединява тези двама безспорни авторитети? Именно проектът, чиито умения ще подложим на съмнение в края на тази среща.
Глас меден, загорски
В епохата, когато медиите все още са пред голямата задача да преоткриват себе си, по-важно от всякога се оказва персонализираното съдържание. Личното отношение, точният избор, но и гарниран с авторитета, който (би трябвало да) дават медиите. Разговор по тази тема отварят доц. Тодорова, която по това време гостува с рубрика в радио „Фокус“, и собственикът на медията Кирил Налджиев.
„Почти на шега той попита може ли някой да направи ИИ, който да клонира гласа на водещата“, разказва изследователката. „Предложих им Иван, на шега решихме да експериментираме. Клонирахме гласовете на двама водещи – Биляна Бозинарева и Живко Георгиев. Резултатите бяха изненадващо добри, особено като за български език!“.
Шегата бързо става работещо начинание. От септември 2024 г. клонираните гласове на двамата водещи всеки ден „четат“ по 8 емисии новини, различни за всеки от 11-те региона, където радиото има локален канал. Послушах новините… определено резултатът е впечатляващ.
Доц. Мариана Тодорова
Гласове
„Не че това не е невъзможно да се случва и с радиоводещи, четящи новините, но се изисква голям ресурс и радиото нямаше тази възможност“, казва доц. Тодорова. „Така с едно просто решение „Фокус“ стана най-голямата радиомедия с регионални новини. Това демократизира знанието, защото го прави по-достъпно – хора, които нямат време да четат, ще го чуят. Хора със зрителни проблеми, по-възрастните, също имат възможност да възприемат информацията.“
Аз лично нямам търпение да се добавят и регионалните особености! Ако чуя Живко Георгиев да чете новините за Северозапада, като че ли са написани от Торлака в стила на „Северозападен романь“, а и нататък по регионите…Животът ще стане по-интересен и пъстър.
„Но! вината“ – така се казваше първата от вече над 450 публикации в този сайт, в която преди 4 години си представих как технологиите ще изземат още повече от работата на журналистите. Не знам за вас, но аз избирам да се ентусиазирам, а не да се плаша от това, че всичко, описано по темата в този материал, се случва на практика. Нека имаме следващите впечатляващи технологии, пък как ще ги въвеждаме и къде да оставим човешката намеса в тях е по-добре да е отделен разговор. Толкова важен, че ме кара вече 4 години да пиша по 2 дигитални истории всяка седмица.
Безгласна буква
Проектът на доц. Тодорова и Gatakka (кажете, че не ви звучи като дуо супергерои?) се доказва в практиката и е време да се развива нататък. Да, клонирането става по-лесно, но… дали не е добра идея за следваща стъпка – да се създават гласове, да чуваме в познатата графа „текста четоха“ думите на хора, които не съществуват?
Именно това е днешното предизвикателство, пред което се изправят нашите супергерои, а доколко добре се справят, скоро ще имаме шанса да преценим с общи усилия.
Защо изобщо е нужно звукът, издаван от един човек, да бъде генериран? На първо място заради авторското право. Гласът си е наш, както са наши и отпечатъците ни, това винаги може да създаде подобен тип проблеми. Именно тогава намира решение следващата стъпка от начинанието. То е концентрирано върху българския с амбицията да продължи за други по-редки (на фона на световното многообразие) езици от околните ни страни.
Гласност и демокрация
Персонализирани новини. Говорител, който чете специално подбрани конкретно за нас текстове… мен продължава да ме плаши, колкото и да се насочвам към оптимизма. Докато в същото време ми е ясно колко полезно може да бъде нещо подобно, ако те са проверени, осмислени, представени в контекст и с достатъчна гаранция за достоверност и компетентност.
„В създаването на съдържанието все още няма как човекът да бъде заменен“, категорична е доц. Тодорова. „Няма кой да прави разследваща журналистика, да пише със специфичен хумор.“
Но пък генерираният глас има още толкова много приложения. Например съобщенията по летищата или гарите могат бързо и лесно да бъдат казани от него. Магазините, които продават огромен брой артикули, ще приготвят кратка информация за всеки продукт, която да стане достъпна за всеки клиент. Ами фармацевтичната индустрия? Всичко важно от брошурите за лекарствени препарати лесно може да се превърне в аудио, достъпно и за възрастните хора, дори персонализирано.
Много уроци и лекции биха могли да бъдат превърнати в аудио, което ще облекчи студенти и ученици. В туристическия бранш също е лесно да си представим следващата стъпка – на персонализирана информация, която е и четена на различни езици. Доц. Тодорова може дълго да говори за многобройните приложения, които вече изглеждат толкова близки…
Иван Ванков – Gatakka
Не пей ми се, не смей ми се
Технологията да се генерира глас, който не съществува, е прелюбопитна тема. Да, напоследък са много проектите, които залагат на клониране – ИИ се обучава на дълги записи и създава свое аудио на базата на любимия ви актьор или водещ. Но глас от нищото, който при това се справя на екзотичния за невронните мрежи български език… се оказва трудно начинание, изпълнено с много неочаквани предизвикателства.
„Да клонираме глас се оказва учудващо лесно“, разказва Gatakka. „Използваме свой модел, цялата архитектура е наша. Не няма нищо иновативно, минах през пейпърите, видях какво работи, взех най-доброто от 7 компонента и го стиковах. Обаче когато се роди идеята да генерираме абсолютно синтетични гласове, без да имаме референция, без да имаме данни… Пак се оказа, че може, но трябваше да добавя и важни неща от себе си. Изисква се нова архитектура, сериозни промени и някои идеи, които не бих искал да разкривам.“
Ще познаете ли кое се оказва най-трудно конкретно в българския? Аз не бих могъл – ударенията. „Правили сме магии, за да ги подадем по правилния начин и моделът да ги разбере“, усмихва се Gatakka. „В българския има думи, които в зависимост от ударението имат три различни смисъла! Ако добавиш контекста, стават още повече. 9000 думи в българския език променят значението си в зависимост от ударението, докато в английския са само 7 или 8!
Срещнахме се с езиковеди от БАН и ни обясниха, че няма правила, по които да се водим. Получаваш два зара, хвърляш ги и това е. „Той бе уверен, че тя ще дойде.“ Ако нямате изрично указано ударение, как да сте сигурни, че ще разберете смисъла на изречението? Увèрен или уверèн? Същото важи и за моделите, и те не успяват да ги различат“.
Една от следващите стъпки по този път е да се постигне емоционалност на гласа. Не просто да чете равно, в духа на „нивото на река Дунав в сантиметри“, но и без „соншонжмон“ – емоция, актьорска добавка, която може да направи аудиокнигата дори повече от просто книга. „Постижимо е, но е адски трудно“, казва Gatakka. „Технически няма проблем да се направи, просто вече не е работа за няколко човека, а за екип с много сериозен хардуер. При съответната инвестиция технически знам как може да бъде направено на всеки език, но е много, много, много работа“.
Време е за експеримент! Ще успеете ли да различите генерираните от истинските човешки гласове? Предизвикателството ви очаква в петък!