Щороку галузь нейромереж набирає нових обертів. І хоча саме поняття нейромережі сформулювали ще за часів Другої світової, основні здобутки ми споглядаємо лише останніми декадами. Шлях від математичного концепту до реабілітації поп-хітів тривав менш ніж півстоліття. Авангардом нинішньої галузі, зокрема, можна вважати Facebook Research.
Дослідники їхньої команди навчили нейромережу перетворювати музичні записи у треки з іншими інструментами, жанрами та стилями. Методика базується на машинному навчанні без жодного втручання людини у процес. Нейромережа тренується на різних записах і згодом, наприклад, перетворює симфонію Моцарта на пісню Ріанни й навпаки.
Тепер алгоритми навчилися працювати не лише зі звуками, але й написами. Будь-який напис фактично складається з двох речей: форми (візуального стилю) та змісту (себто смислової складової). Залежно від навичок, люди вміють з певною точністю робити те, чого донині комп’ютери не вміли — максимально автентично відтворювати стиль написання тексту.

Приклади результатів роботи нейромережі TextStyleBrush. Джерело: Facebook AI
Науковці з дослідницького підрозділу Facebook опублікували алгоритм, який вміє переносити стиль тексту лише за одним прикладом. До порівняння, алгоритмам-попередникам знадобилися б гігабайти зразків. Новітня нейромережа складається з кількох компонентів. На першому етапі всі дані потрапляють на два кодувальники: текстовий та стильовий. Перший кодувальник перетворює текстовий рядок на зображення з текстом (гарнітурою Verily Serif Mono на білому тлі). Це саме зображення подається на кодувальника стилю.

Ілюстрована схема роботи алгоритму. Джерело: Facebook AI
Потім результати обох кодувальників потрапляють до нейромережі-генератора, що базується на архітектурі StyleGAN2 від NVIDIA. Оскільки її застосовують для роботи з обличчями, розробники з Facebook Research адаптували її генератором, що працює як умовна нейромережа Conditional Neural Network, де параметри задаються самими кодувальниками.
Щоб алгоритм передавав усі стильові відмінності, між кодувальником стилю та генератором помістили ще одну нейромережу, яка кодує різні аспекти стилю та передає на окремі шари генератора. В результаті алгоритм може передавати низькорівневі та високорівневі особливості «зразка» на відтвореному тексті.
Розробники обрали шлях самонавчального алгоритму саме том, що існує незліченна кількість написів та їхніх стилів. Та все ж таки елементи рукописного тексту зібрали та об’єднали у датасет Imgur5k, де відібрано 5 тисяч публічно доступних знимків рукописного тексту зі 135 000 слів в сумі. Автори також використовували наявні набори даних ICDAR 2013, ICDAR 2015, TextVQA та IAM Handwriting Database.
Втім, алгоритм має і певні обмеження. Він не завжди добре вправляється із короткими написами (менш ніж три літери) та курсивним текстом. Проте його планують застосовувати для технологій доповненої реальності, зокрема для реалістичного перекладу тексту на об’єктах поля зору користувачів.