Щойно людство отримало змогу оцифровувати цілі бібліотеки та зберігати їх на невеличких носіях, виникла необхідність спростити цей процес. І якщо для друкованого тексту використовували більш-менш зрозумілі методи, пов’язані з гарнітурою, то питання рукописного тексту залишалося відкритим.

Фактично завдання розпізнання рукописних текстів не розв’язане й досі. Однак методи та потужності останніми роками лише покращуються. У цій статті ми зазирнемо «під капот» цієї технології та спрогнозуємо її майбутнє у світі онлайн-листувань.

Як це працює

А почати пропонуємо з позитивної ноти – сьогодні майже усі необхідні людству тексти зацифровані. До цього ми йшли з кінця ХХ століття, коли дала перші паростки технологія оптичного розпізнавання символів (англ. Optical character recognition – далі ОРС).

Вона використовувала простий, але досі дієвий метод матричного зіставлення. Кожна буква у документі розбивається на піксельні матриці, а комп’ютер порівнює їх зі своїми. Коли матриці збігаються, текст вважається розпізнаним.

Приклад бінарної матриці з літерою “А”.

Можливості такого методу прямо залежать від кількості символів – зразків написання літер – які він «знає». Якщо завести до системи ОРС 33 літери української абетки, врахувати розділові знаки та регістр, комп’ютер зможе розпізнати будь-який текст солов’їною.

Від руки й під лінієчку

Звісно ж, не все так просто. Матричний метод все ж має свої обмеження, які полягають у самій його матричності. Якщо літера в оригінальному документі пошкоджена, або написана інакшим чином, система розпізнає її із помилкою (наприклад “л” замість “п”), або пропустить.

Коротко кажучи, ОРС, налаштована на шрифт Times New Roman, не розпізнає шрифт Exo 2, який ми використовуємо на Tokar.ua.

І хоча сьогодні матричні технології розпізнавання досить загартовані, вони все ще не розпізнають шрифти, під які вкрай важко підібрати піксельну матрицю, а саме – рукописні. Для текстів, написаних від руки, науковці винайшли інший спосіб – розпізнавання окремих частин. По факту це та ж оптика, тільки збоку.

Попри стиль написання, кожна літера все ж має свої елементи – стеми, апертури, засічки тощо. Навряд ви переплутаєте літери “х” та “о”, якими б курячими лапами їх не написали. Розпізнаючи окремі частини, машина по пікселях порівнює і зіставляє комбінації, доки не знайде правильний варіант.

Такі технології «навчаються» на даних аналізу рукописного тексту, якого, на щастя, вистачає. До прикладу, у наборі даних MNIST міститься понад 70 тисяч зображень рукописного тексту в різних варіаціях. Нейромережам, приміром, такого обсягу даних достатньо, аби досягати 99% точності розпізнавання.

Нейромережі мчать на допомогу

В роботі над текстом, який пишеться «в моменті», системам трохи легше – вони вхоплюють траєкторію пера і перерви між написанням слів, що допомагає із розпізнанням. А от в роботі над текстом, написаним кількасот років тому, доводиться думати довше. Для розв’язання цієї проблеми науковці застосовують машинне навчання і добудову даних, а саме – рекурентні нейронні мережі.

Їхній алгоритм зчитує дані по пікселях зі скану написаного тексту, але при цьому не бере до уваги якийсь конкретний алфавіт, а намагається власноруч добудувати літеру і «зрозуміти» її.

Рекурентна нейромережа, яка розпізнає рукописний текст.

Оскільки розпізнавати лікарський почерк нейромережі все ще не навчилися, є сумніви в їхній доцільності загалом. Для чого розпізнання тексту звичайній людині? На перший погляд, ні до чого.

Але тут в гру входять дослідники різноманітних рукописів, написаних малозрозумілими та невідомими мовами. Їх не може зацифрувати навіть людина, адже треба не лише розпізнати кожен окремий символ, але й відновити зміст тексту, який намагалися передати автори. Перцю додає й те, що самі автори писань могли робити граматичні помилки. А проте аналіз і розпізнання таких текстів дозволить нам почути давно затихлу мову (як українську в Дніпрі), а також відновити частини втраченого тексту.

Сьогодні над цим працює алгоритм PYTHIA, який намагається відновити загублені варіанти давньогрецьких написів на античних пам’ятках. Системі це вдається завдяки великій кількості зібраних раніше даних про давньогрецькі тексти. Спочатку вона його розпізнає, а потім аналізує всі можливі варіанти втрачених фрагментів на основі свого словника.

Хай там як, технологія розпізнавання рукописного тексту це завжди про збір і розмітку величезної кількості даних. Колись це робили люди, а сьогодні естафету приймають машини. І в будь-якому разі перед нами відкривається неосяжний світ стародавніх текстів, нікому до того невідомих.

І хто зна, можливо, вже незабаром, аналізуючи стародавні надписи на стінах Кремля, алгоритм PYTHIA шукатиме зіставлення до рядка «Кохайтеся, чорнобриві…»

Підтримайте Токар
50 грн.

10% середньостатистичної статті,
або ж пів дня роботи нашого сервера

Підтримати
Ось вона, нагода стати причетним до розвитку незалежних медіа!
Коменти