Сьогодення диктує свої правила: соціальні платформи – як великі, так і маленькі – змушені боротися з ненависницькими коментарями, післяправдою, образливим та дискримінаційним контентом. Яскравим прикладом таких онлайн-заяв є публікації ультраправих американців про плани щодо штурму Капітолію 6 січня цього року. Варіант розв’язання такої проблеми, як не дивно, нам пропонує штучний інтелект: алгоритми визначатимуть та повідомлятимуть нас про токсичні, підбурювальні коментарі й ставитимуть прапорці для їх подальшого видалення. Однак з такими системами не може не виникнути купа труднощів.

Останніми роками ненависницькі публікації в Інтернеті стрімко поширюються, і наразі позбутися проблеми повністю дуже й дуже важко. Деколи навіть один з мільйонів негативних коментарів онлайн переростає в офлайн агресію, як-от насилля релігійних націоналістів у М’янмі, чи в розповсюдження неонацистської пропаганди, що спостерігаємо в США. Здається, токсичність у соціальних медіа вийшла з-під контролю. Ще 2019 року у Facebook заявили: їхні модератори ризикують отримати посттравматичний синдром внаслідок постійної взаємодії з негативним контентом. Делегування модерації коментарів ШІ може сприяти як зменшенню шкідливого контенту, так і обмеженню людської взаємодії з ним. Як не дивно, багато технологічних гігантів роками працювали над впровадженням схожих алгоритмів.

Токсичність на перегонах

Одним із прикладів є Jigsaw, підрозділ Google – компанії, що робить Інтернет безпечнішим. Ще 2017 року Google брала участь у дослідницькому проєкті Conversation AI, котрий визначає токсичні коментарі онлайн. З усім тим її продукт Perspective зазнав жорсткої критики, адже так званий «показник токсичності» не відповідав вимогам різних платформ. Деякі вебсайти, до прикладу, хочуть, щоб ШІ виявляв погрозливі коментарі, але аж ніяк не богохульство, водночас інші соціальні мережі можуть мати й кардинально інші вимоги.

Іншою проблемою було те, що ШІ об’єднував токсичні коментарі з необразливими публікаціями, які містили слова, пов’язані із сексуальною орієнтацією, статтю, релігією чи інвалідністю. До прикладу, один користувач поскаржився на те, що нейтральні речення «Я гомосексуальна чорна жінка» чи «Я глуха жінка» ШІ ідентифікував як дуже образливе, а рядок «Я – чоловік» мав низький показник токсичності.

Розглянувши зауваження юзерів, команда Conversation AI запросила розробників схожих алгоритмів випробувати їх у трьох щорічних конкурсах Kaggle – дочірньої компанії Google, відомої своєю спільнотою програмістів-практиків. Для того, аби випробувати моделі ШІ, Conversation AI надала учасникам 2 набори даних з більш ніж мільйоном негативних та нейтральних коментарів із Вікіпедії та сервісу під назвою Civil Comments. Характер матеріалів оцінювали їхні автори, де «дуже токсичний» коментар містив «надзвичайно агресивні висловлювання, через які співрозмовник найімовірніше покине дискусію або відмовиться від висвітлення власної точки зору», а під визначення «токсичний» підпадав «грубий, принизливий коментар, через який співрозмовник найімовірніше покине дискусію або відмовиться від висвітлення власної точки зору».

Мета першого експерименту Jigsaw – створити багатозначну класифікаційну модель, яка б відрізняла «токсичні» та «непристойні» коментарі від «надзвичайно токсичних», «погроз» та «ненависних» повідомлень. Другий та третій експерименти зосереджувалися на конкретних обмеженнях API (прикладного програмного інтерфейсу), на зведенні до мінімуму ненавмисних упереджень щодо заздалегідь визначених груп та навчанні багатомовних моделей роботі тільки з англомовними даними.

Попри те, що вищезазначені експерименти зробили внесок у покращення «антитоксичних алгоритмів», команда ШІ Unitary, яка модерує контент, зазначає: жодну з випробуваних моделей ще не впровадили.

Через це в Unitary вирішили взяти справу у свої руки та, використовуючи надбання Kaggle, тренувати власні алгоритми з перспективою їх широкомасштабного застосування. Для того команда програмістів залучила до роботи BERT Google, створену для обробки природної мови. Багато схожих моделей доступні у відкритій бібліотеці.

Таким чином з’явилася на світ Detoxify – бібліотека для виявлення невідповідного або шкідливого тексту в Інтернеті. Основне її завдання – допомогти дослідникам та програмістам ідентифікувати образливі коментарі. У межах цієї бібліотеки було випущено три різні моделі, що відповідають кожній з трьох експериментальних Jigsaw. Приміром, Kaggle для кожного завдання використовує комбінації алгоритмів, Detoxify має окремий алгоритм для конкретного завдання. Всі моделі (алгоритми) і навчальний код доступні на GitHub.

Прорахунки розробників

Хоча ці моделі мають високу ефективність, важливо також згадати про їхні недоліки. По-перше, алгоритми безпомилково працюватимуть з прикладами, схожими на дані, з якими їх тестували. І, найімовірніше, моделі можуть схибити з новими, невідомими їм коментарями.

Ба більше: наявність «токсичного» слова в коментарі грає вирішальну роль для його ідентифікації, навіть всупереч тону автора. До прикладу, речення «Мені набридло писати це тупе есе» отримає 99,7% токсичності, а з видаленням слова «тупе» токсичність знизиться до 0,05%.

Нарешті, попри те, що одна з випущених моделей спеціально готувалася для обмеження упередженості, у всіх трьох моделях все ще можливі її прояви. Це може викликати етичні проблеми при використанні готових моделей для модерації.

Хоча в автоматичному виявленні токсичних коментарів досягнуто суттєвого прогресу, розробникам ще належить пройти чималий шлях, щоб навчити ШІ визначати думку автора, а не просто аналізувати набори слів. Звичайно, інвестиції у більші та різноманітніші набори даних сильно вплинули на моделі ШІ, але річ тут у глибшому дослідженні контексту – невіддільної частини онлайн-поведінки. Напозір ввічливу медіапублікацію з прикріпленими до посту расистськими картинками чи відео сумнівного змісту алгоритм просто пропустить. Нам не варто сумніватися у тому, що істина – у контексті. Якщо ШІ зможе замінити живих модераторів у великих масштабах, просто необхідно навчити алгоритми бачити повну картину.

Коменти