
Ke Sun et al. / UIST, 2018
Китайські розробники створили додаток для смартфона, що розпізнають беззвучну мова по рухах губ користувача і перетворює команди в дії на пристрої, наприклад, воно може запускати інші програми. На відміну від звичайних голосових помічників, додаток можна використовувати в громадських місцях, не заважаючи іншим людям, розповідають розробники в статті , Представленої на конференції UIST 2018.
Практично всі сучасні смартфони обладнані голосовими помічниками, що розпізнають і виконують команди користувача. За останні роки розробникам вдалося довести рівень точності розпізнавання мови алгоритмами до рівня фахівців з набору тексту, а також навчити помічники підтримувати діалог, запам'ятовуючи контекст попередніх команд. Проте, дослідження показують , Що більшість людей не використовують голосові помічники в громадських місцях, оскільки при цьому вони відчувають себе некомфортно.
Юаньчунь Ши (Yuanchun Shi) і його колеги з Університету Цінхуа розробили голосовий помічник для смартфонів, що вміє розпізнавати мову по рухах губ, навіть якщо користувач не видає звуків.
Під час роботи додаток визначає обличчя в кадрі з камери смартфона і після цього починає відстежувати стан 20 контрольних точок, які досить точно описують форму губ. Крім того, він визначає ступінь відкритості рота, що дозволяє відстежувати моменти початку і кінця команди. Після цього дані передаються на інший алгоритм на основі сверточное нейромережі, який займається безпосередньо розпізнаванням мови по рухах губ. Варто відзначити, що поки розробники реалізували розпізнавання не на самому смартфоні, а на додатковому і досить потужному комп'ютері.
Приклад створення контрольних точок на відео з камери
Ke Sun et al. / UIST, 2018
Автори програми розробили для нього 44 команди, частина з яких відноситься до всієї системи, наприклад, включення Wi-Fi, частина до конкретних додатків, а ще одна частина дозволяє взаємодіяти з будь-яким додатком за допомогою системних служб, наприклад, виділяти текст. При цьому додаток розуміє контекст команд, наприклад, якщо система відобразила спливаюче вікно з повідомленням, то користувач зможе швидко відповісти на нього.Підтримувані команди
Ke Sun et al. / UIST, 2018
Розробники перевірили точність розпізнавання, навчивши систему на прикладах мови 21 людини, і перевіривши на мовлення ще одного. Середня точність розпізнавання виявилася рівною 95,5 відсотка. Крім того, автори перевірили, наскільки їх додаток зручніше голосового введення в громадських місцях, і провели експеримент в пекінському метро. Під час експерименту п'ять пар добровольців оцінювали конфіденційність і комфорт використання додатка, при цьому один з них виконував команди, а другий виступав в ролі пасажира. Випробування показали, що в обох випадках люди вважають беззвучні команди більш комфортними і конфіденційними, ніж голосові команди, причому навколишні люди відчували себе більш комфортно, ніж сам користувач.Розробкою соціально прийнятних способів взаємодії зі смартфонами та іншими пристроями займається досить багато дослідників, які використовують для цього різні підходи. Наприклад, інженери з Массачусетського технологічного інституту створили закріплюється на шиї гарнітуру, яка реєструє зміни сигналів нейром'язової активності, коли користувач говорить, не відкриваючи рота. А інша група інженерів створила розумні окуляри, які відстежують жести пальцями біля носа і перетворюють їх в команди для смартфона.
Григорій Копіев