Кількість програм та важливість голосових інтерфейсів швидко зростає

Зміст

Велика четвірка
американці хочуть купити
Прати, пекти, прибирати!
Старий концепції. Невже її час нарешті настав?
Технічно складне питання
Голос? Графіка? Чи, може, обидва?
Слідкуйте за безпекою!

Американська сім'я в Портленді, штат Орегон, нещодавно дізналася, що голосовий помічник Алекса записав їхні особисті чати та відправив їх другові. Господиня будинку, яку ЗМІ прозвали Даніель, заявила журналістам, що «ніколи більше не підключатиме цей пристрій, тому що їй не можна довіряти».

Alexa, що надається динаміками Echo (1) та іншими гаджетами в десятках мільйонів будинків у США, починає запис після того, як почує своє ім'я або «призовне слово», вимовлене користувачем. Це означає, що навіть якщо слово Alexa згадується в телевізійній рекламі, пристрій може розпочати запис. Саме це і сталося в цьому випадку, каже Amazon, дистриб'ютор обладнання.

«Іншу частину розмови було інтерпретовано голосовим помічником як команда надіслати повідомлення», — йдеться у повідомленні компанії. «Якогось моменту Алекса голосно запитала: «Кому?» Продовження сімейної розмови про паркет із твердої деревини мало бути сприйнято машиною як пункт у списку контактів клієнта». Принаймні так вважає Amazon. Таким чином, переклад зводиться до низки нещасних випадків.

Тривога, однак, лишається. Тому що з якоїсь причини в будинку, де ми досі відчували себе у своїй тарілці, доводиться вводити якийсь «голосовий режим», дивитися, що ми говоримо, що транслює телевізор і, звичайно, що розповідає цей новий динамік на комоді . нас.

Проте, незважаючи на недосконалість технологій та побоювання щодо конфіденційності, зі зростанням популярності таких пристроїв, як Amazon Echo, люди починають звикати до ідеї взаємодії з комп'ютерами за допомогою голосу..

Як зазначив Вернер Фогельс, технічний директор Amazon, під час своєї сесії AWS re: Invent наприкінці 2017 року, досі технології обмежували наші можливості взаємодії з комп'ютерами. Ми набираємо ключові слова в Google за допомогою клавіатури, так як це все ще найпоширеніший і найпростіший спосіб введення інформації в машину.

– сказав Фогельс. -

Велика четвірка

При використанні пошукової системи Google на телефоні ми, напевно, давно помітили там знак мікрофона із закликом говорити. Цей Google зараз (2), за допомогою якого можна продиктувати пошуковий запит, ввести повідомлення голосом тощо. За останні роки Google, Apple і Amazon значно покращили технології розпізнавання голосу. Голосові помічники, такі як Alexa, Siri та Google Assistant, не тільки записують ваш голос, але й розуміють, що ви кажете, і відповідають на запитання.

Google Now доступний безкоштовно для всіх користувачів Android. Програма може, наприклад, ставити будильник, перевіряти прогноз погоди та маршрут на картах Google. Розмовне розширення станів Google Now Google Асистент () - Віртуальна допомога користувачеві обладнання. Він доступний в основному на мобільних пристроях та пристроях розумного будинку. На відміну від Google Now він може брати участь у двосторонньому обміні. Помічник дебютував у травні 2016 року як частину програми Google для обміну повідомленнями Allo, а також голосової динаміки Google Home (3).

3. Головна сторінка Google

У системі IOS також є свій віртуальний помічник, Siri, тобто програма, що входить до складу операційних систем Apple - iOS, watchOS, tvOS homepod та macOS. Siri дебютувала з операційною системою iOS 5 та смартфоном iPhone 4s у жовтні 2011 року на конференції «Поговоримо про iPhone».

Програмне забезпечення засноване на діалоговому інтерфейсі: воно розпізнає природне мовлення користувача (з iOS 11 також можливе введення команд вручну), відповідає на запитання та виконує завдання. Завдяки впровадженню машинного навчання помічник з часом аналізує особисті переваги користувачеві для надання більш релевантних результатів та рекомендацій. Для Siri потрібне постійне підключення до Інтернету – основні джерела інформації тут Bing та Wolfram Alpha. iOS 10 з'явилася підтримка сторонніх розширень.

Ще один з великої четвірки Кортан. Це інтелектуальний особистий помічник, створений Microsoft. Він підтримується платформами Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android та iOS. Вперше Cortana була представлена на конференції Microsoft Build Developer у квітні 2014 року у Сан-Франциско. Назва програми походить від імені персонажа із серії ігор Halo. Cortana доступна англійською, італійською, іспанською, французькою, німецькою, китайською та японською мовами.

Користувачі вже згаданої програми Alexa вони також повинні враховувати мовні обмеження — цифровий помічник говорить лише англійською, німецькою, французькою та японською мовами.

Віртуальний помічник Amazon вперше був використаний у розумних колонках Amazon Echo та Amazon Echo Dot, розроблених Amazon Lab126. Він забезпечує голосову взаємодію, відтворення музики, створення списків справ, настроювання будильника, потокову передачу подкастів, відтворення аудіокниг та надання в реальному часі інформації про погоду, пробки, спорт та іншу новинну інформацію, таку як новини (4). Alexa може керувати кількома інтелектуальними пристроями створення системи домашньої автоматизації. Його також можна використовувати для здійснення зручних покупок у магазині Amazon.

4. Для чого користувачі використовують Ехо (згідно з дослідженнями)

Користувачі можуть розширити можливості Alexa, встановивши «навички» Alexa (), додаткові функції, розроблені сторонніми постачальниками, найчастіше звані програмами, такими як погода та аудіопрограми в інших установках. Більшість пристроїв Alexa дозволяють активувати віртуальний помічник за допомогою пароля пробудження, так званого .

Сьогодні Amazon безперечно домінує на ринку розумних динаміків (5). IBM, що представила нову послугу в березні 2018 року, намагається увійти до четвірки лідерів, Помічник Ватсона, призначений для компаній, які хочуть самі створювати системи віртуальних помічників із голосовим управлінням. У чому перевага рішення IBM? За словами представників компанії, насамперед на набагато більші можливості персоналізації та захисту конфіденційності.

По-перше, Watson Assistant не має нав'язаної торгової марки. Компанії можуть створювати власні рішення на цій платформі і маркувати їх своїм власним брендом.

По-друге, вони можуть навчати свої допоміжні системи, використовуючи свої власні набори даних, які, за словами IBM, легше додавати функції та команди в цю систему, ніж інші технології VUI (голосовий інтерфейс користувача).

По-третє, Watson Assistant не надає IBM інформацію про активність користувачів – розробники рішень на платформі можуть зберігати цінні дані лише за себе. Тим часом, всі, хто створює пристрої, наприклад, за допомогою Alexa, повинні враховувати, що їхні цінні дані зрештою потраплять до Amazon.

Watson Assistant вже має кілька реалізацій. Систему використовувала, наприклад, компанія Harman, яка створила голосовий помічник для концепт-кара Maserati (6). В аеропорту Мюнхена помічник IBM приводить у дію робота Pepper, який допомагає відвідувачам пересуватися. Третій приклад – Chameleon Technologies, де голосова технологія використовується в розумному домашньому лічильнику.

6. Watson Assistant у концепт-карі Maserati

Варто додати, що базова технологія тут також не нова. Watson Assistant включає можливості шифрування для існуючих продуктів IBM, Watson Conversation та Watson Virtual Agent, а також API-інтерфейси для мовного аналізу та чату.

Amazon не тільки є лідером у галузі інтелектуальних голосових технологій, але й перетворює їх на прямий бізнес. Однак деякі компанії експериментували з інтеграцією Echo набагато раніше. Sisense, компанія з індустрії BI та аналітичних інструментів, представила інтеграцію Echo у липні 2016 року. У свою чергу, стартап Roxy вирішив створити власне програмне та апаратне забезпечення з голосовим керуванням для індустрії гостинності. Раніше цього року Synqq представила програму для нотаток, яка використовує обробку голосу та природної мови для додавання нотаток та записів календаря без необхідності набирати їх на клавіатурі.

Усі ці невеликі підприємства мають високі амбіції. Однак найбільше вони дізналися, що не кожен користувач хоче передавати свої дані в Amazon, Google, Apple або Microsoft, які є найважливішими гравцями у створенні платформ голосового зв'язку.

американці хочуть купити

У 2016 році на голосовий пошук припадало 20% усіх мобільних пошукових запитів Google. Люди, які використовують цю технологію щодня, відзначають її зручність та багатозадачність серед найбільших переваг. (наприклад, можливість використовувати пошукову систему під час керування автомобілем).

Аналітики Visiongain оцінюють поточну вартість ринку розумних цифрових помічників у $1,138 млрд. Таких механізмів стає дедалі більше. За даними Gartner, до кінця 2018 р. 30% наших взаємодій з технологією буде через розмови із голосовими системами.

За оцінками британської дослідницької компанії IHS Markit, до кінця цього року ринок цифрових помічників на базі ІІ (штучного інтелекту) досягне 4 млрд. пристроїв, а до 2020 року це число може збільшитися до 7 млрд.

Згідно зі звітами eMarketer та VoiceLabs, у 2017 році 35,6 млн американців використали голосове управління як мінімум раз на місяць. Це означає збільшення майже 130% проти попереднім роком. Очікується, що лише ринок цифрових помічників зросте на 2018% у 23 році. Це означає, що ви вже будете використовувати їх 60,5 мільйонів американців, що виллється у конкретні гроші для їхніх виробників. За оцінками RBC Capital Markets, до 2020 року інтерфейс Alexa принесе Amazon до $10 млрд. виручки.

Прати, пекти, прибирати!

Голосові інтерфейси дедалі сміливіше виходять на ринок побутової техніки та споживчої електроніки. У цьому вже можна було переконатися під час минулорічної виставки IFA 2017. Американська компанія Neato Robotics представила, наприклад, робота-пилососа, який підключається до однієї з кількох платформ розумного будинку, включаючи систему Amazon Echo. Поговоривши з розумним динаміком Echo, ви можете доручити машині прибрати весь будинок у певний час дня чи ночі.

На виставці були представлені й інші продукти з голосовим керуванням, починаючи від смарт-телевізорів, що продаються під брендом Toshiba турецькою компанією Vestel, та закінчуючи ковдрами з підігрівом німецької компанії Beurer. Багато електронних пристроїв також можна активувати віддалено за допомогою смартфонів.

Однак, за словами представників Bosch, поки що рано говорити про те, який з варіантів домашнього помічника стане домінуючим. Німецька технічна група продемонструвала на IFA 2017 пральні машини (7), духовки та кавоварки, які підключаються до Echo. Bosch також хотіла б, щоб у майбутньому її пристрої були сумісні із голосовими платформами Google та Apple.

7. Пральна машина Bosch, яка підключається до Amazon Echo

Такі компанії, як Fujitsu, Sony та Panasonic, розробляють власні рішення для голосового помічника на основі штучного інтелекту. Sharp додає цю технологію до печей та невеликих робіт, що виходять на ринок. Nippon Telegraph & Telephone наймає виробників обладнання та іграшок для адаптації системи штучного інтелекту з голосовим керуванням.

Старий концепції. Невже її час нарешті настав?

Насправді концепція голосового інтерфейсу користувача (VUI) існує вже кілька десятиліть. Будь-хто, хто дивився «Зоряний шлях» або «2001: Космічна одіссея» багато років тому, ймовірно, очікував, що приблизно 2000 року ми всі керуватимемо комп'ютерами за допомогою голосу. З іншого боку, як автори наукової фантастики бачили потенціал цього інтерфейсу. У 1986 році дослідники Nielsen запитали ІТ-фахівців, що, на їхню думку, буде найбільшою зміною в інтерфейсах користувача до 2000 року. Вони найчастіше вказували на створення голосових інтерфейсів.

Є підстави сподіватись на таке рішення. Вербальне спілкування - це, зрештою, найбільш природний спосіб свідомого обміну думками між людьми, тому його використання для взаємодії людини з машиною здається поки що найкращим рішенням.

Один з перших VUI, названий крихітна комірчина, була створена на початку 60-х років компанією IBM. Він був попередником сучасних систем розпізнавання голосу. Однак розробка пристроїв VUI обмежена межами обчислювальної потужності. Розбір та інтерпретація людської мови в режимі реального часу потребує багато сил, і знадобилося понад п'ятдесят років, щоб дістатися до того моменту, коли це дійсно стало можливим.

Пристрої з голосовим інтерфейсом почали з'являтися в масовому виробництві в середині 90-х, але популярності не набули. Перший телефон із можливістю голосового управління (набір номера) був Філіпс Спарк, випущений у 1996 році. Однак цей новаторський і простий у використанні пристрій не був вільний від технологічних обмежень.

Інші телефони, оснащені формами голосового інтерфейсу (створені такими компаніями, як RIM, Samsung або Motorola), регулярно з'являлися на ринку, дозволяючи користувачам набирати номер голосом або надсилати текстові повідомлення. Всі вони, проте, вимагали запам'ятовування конкретних команд і вимовлення в вимушеної, штучної формі, пристосованої до можливостей пристроїв на той час. Це породжувало велику кількість помилок, що, своєю чергою, призводило до невдоволення користувачів.

Однак нині ми вступаємо в нову еру обчислювальної техніки, в якій досягнення в галузі машинного навчання та розвитку штучного інтелекту відкривають потенціал розмови як нового способу взаємодії з технологіями (8). Кількість пристроїв, що підтримують голосову взаємодію, стала важливим фактором, що дуже вплинув на розвиток VUI. Сьогодні майже 1/3 населення світу вже має смартфони, які можна використовувати для такого типу поведінки. Схоже, більшість користувачів готові адаптувати свої голосові інтерфейси.

8. Сучасна історія розвитку голосового інтерфейсу

Однак перш ніж ми зможемо вільно розмовляти з комп'ютером, як це зробили герої «Космічної Одіссеї», ми маємо подолати низку проблем. Машини досі не дуже добре справляються із лінгвістичними нюансами. Крім того багато людей досі почуваються некомфортно, віддаючи голосові команди пошуковій системі.

Статистика показує, що голосові помічники використовуються переважно вдома або серед близьких друзів. Жоден із опитаних не зізнався у використанні голосового пошуку у громадських місцях. Проте ця блокада, найімовірніше, зникне з поширенням цієї технології.

Технічно складне питання

Проблема, з якою стикаються системи (ASR), полягає у вилученні корисних даних з мовного сигналу та зв'язуванні його з певним словом, що має певне значення для людини. Вимовлені звуки щоразу різні.

Мінливість мовного сигналу є його природною властивістю, завдяки якій ми, наприклад, розпізнаємо акцент чи інтонацію. Кожен елемент системи розпізнавання мовлення має певне завдання. На основі обробленого сигналу та його параметрів створюється акустична модель, яка пов'язана з мовною моделлю. Система розпізнавання може працювати на основі малої чи великої кількості патернів, що визначає розмір словника, з яким вона працює. Вони можуть бути маленькі словники у разі систем, які розпізнають окремі слова чи команди, а також великі бази даних що містять еквівалент мовної множини та враховують мовну модель (граматику).

Проблеми, з якими стикаються голосові інтерфейси, насамперед правильно розуміти мову, В яких, наприклад, часто опускаються цілі граматичні послідовності, зустрічаються лінгвістичні та фонетичні помилки, помилки, перепустки, мовні дефекти, омоніми, невиправдані повтори і т. д. Все це системи АСР повинні працювати швидко і надійно. Принаймні такі очікування.

Джерелом труднощів також є акустичні сигнали, відмінні від мови, що розпізнається, що потрапляють на вхід системи розпізнавання, тобто. всілякі перешкоди та шум. У найпростішому випадку вони вам потрібні відфільтровувати. Це завдання здається рутинним і легким - адже фільтруються різні сигнали і кожен електронник знає, що робити в такій ситуації. Однак це потрібно робити дуже уважно та ретельно, якщо результат розпізнавання мови повинен відповідати нашим очікуванням.

Використовувана в даний час фільтрація дозволяє видалити разом з мовним сигналом зовнішній шум, що уловлюється мікрофоном, і внутрішні властивості самого мовного сигналу, що ускладнюють його розпізнавання. Проте набагато складніша технічна проблема виникає, коли перешкодою для аналізованого мовного сигналу є... інший мовний сигнал, тобто, наприклад, гучні дискусії навколо. Це питання відоме в літературі як так зване. Це вимагає застосування складних методів, т.зв. деконволюція (розплутування) сигналу.

На цьому проблеми з розпізнаванням не закінчуються. Варто усвідомити, що мова містить у собі безліч різних типів інформації. Людський голос підказує стать, вік, різні характери власника або його здоров'я. Існує великий відділ біомедичної інженерії, що займається діагностикою різних захворювань на основі характерних акустичних явищ, що виявляються у мовному сигналі.

Також існують програми, де основною метою акустичного аналізу мовного сигналу є ідентифікація того, хто говорить, або перевірка того, що він той, за кого себе видає (голос замість ключа, пароля або PUK-коду). Це може мати важливе значення, особливо для інтелектуальних будівельних технологій.

Першим компонентом системи розпізнавання мовлення є мікрофон. Однак сигнал, що уловлюється мікрофоном, зазвичай залишається малопридатним. Дослідження показують, що форма і хід звукової хвилі дуже змінюються в залежності від людини, швидкості мови, а частково і настрої співрозмовника - при цьому мало вони відображають сам зміст команд, що вимовляються.

Тому сигнал має бути правильно оброблений. Сучасна акустика, фонетика та інформатика в сукупності надають багатий набір інструментів, які можна застосовувати для обробки, аналізу, розпізнавання та розуміння мовного сигналу. Динамічний спектр сигналу, так званий динамічні спектрограми. Вони досить легко виходять, а мова, яка представлена у вигляді динамічної спектрограми, порівняно легко розпізнається за допомогою прийомів, аналогічних тим, що використовуються при пізнанні зображень.

Прості елементи мови (наприклад, команди) можна розпізнати за простою подобою цілих спектрограм. Наприклад, словник мобільного телефону з голосовим керуванням містить лише від кількох десятків до кількох сотень слів і словосполучень, зазвичай заздалегідь накладених, щоб їх можна було легко та ефективно ідентифікувати. Цього достатньо для простих завдань управління, але це сильно обмежує загальну програму. Системи, побудовані за схемою, зазвичай, підтримують лише конкретних дикторів, котрим спеціально навчені голоси. Отже, якщо є хтось новий, хто хоче використовувати свій голос для управління системою, його, швидше за все, не приймуть.

Результат цієї операції називається 2-Вт спектрограматобто двомірний спектр. У цьому блоці є ще одне заняття, на яке варто звернути увагу. сегментація. Взагалі, йдеться про розбиття безперервного мовного сигналу на частини, які можна розпізнавати окремо. Лише із цих окремих діагнозів складається розпізнавання цілого. Така процедура необхідна, тому що неможливо ідентифікувати довгу та складну промову за один раз. Про те, які сегменти слід розрізняти в мовному сигналі, вже написані цілі томи, тому ми не будемо зараз вирішувати, чи сегменти, що виділяються, бути фонемами (звуковими еквівалентами), складами або, можливо, алофонами.

Процес автоматичного розпізнавання завжди звертається до деяких ознак об'єктів. Для мовного сигналу протестовано сотні наборів різних параметрів. У розпорядженні мовного сигналу розділений на розпізнані кадри та маючи вибрані функціїчерез що ці кадри представлені в процесі розпізнавання, ми можемо виконати (для кожного кадру окремо) класифікація, тобто. присвоєння кадру ідентифікатора, який його представлятиме надалі.

Наступний етап збирання кадрів в окремі слова - Найчастіше на основі т.зв. модель неявних марківських моделей (НММ). Потім йде монтаж зі слів повні пропозиції.

Тепер ми можемо ненадовго повернутись до системи Alexa. На його прикладі показаний багатоетапний процес машинного «розуміння» людини — точніше: команди, що віддається, або заданого питання.

Розуміння слів, розуміння значення та поняття наміру користувача – зовсім різні речі.

Отже, наступним кроком є робота модуля НЛП(), завдання якого розпізнавання намірів користувача, тобто. сенс команди/питання у тому контексті, у якому вона була вимовлена. Якщо намір ідентифікований, слід призначення так званого навички та вміння, тобто конкретна функція, що підтримується інтелектуальним помічником. У разі питання про погоду викликаються джерела даних про погоду, які залишається обробити у мову (механізм TTS-). В результаті, користувач чує відповідь на задане запитання.

Голос? Графіка? Чи, може, обидва?

Більшість відомих сучасних систем взаємодії ґрунтуються на посереднику, званому графічний інтерфейс користувача (графічний інтерфейс). На жаль, графічний інтерфейс – не найочевидніший спосіб взаємодії з цифровим продуктом. Це вимагає, щоб користувачі спочатку навчилися використовувати інтерфейс і запам'ятовували цю інформацію при кожній подальшій взаємодії. У багатьох ситуаціях голос набагато зручніший, тому що для взаємодії з VUI досить просто звернутися до пристрою. Інтерфейс, який не змушує користувачів запам'ятовувати та запам'ятовувати певні команди чи методи взаємодії, викликає менше проблем.

Звичайно, розширення VUI не означає відмову від традиційніших інтерфейсів — швидше будуть доступні гібридні інтерфейси, що поєднують у собі кілька способів взаємодії.

Голосовий інтерфейс підходить не для всіх завдань у мобільному контексті. З ним ми зателефонуємо другові за кермом автомобіля, і навіть відправимо йому смс, але перевірка останніх перекладів може виявитися занадто складною - через кількість інформації, що передається в систему () і системою, що генерується (система). Як передбачає Рейчел Хінман у своїй книзі Mobile Frontier, використання VUI стає найбільш ефективним при виконанні завдань, в яких кількість вхідної та вихідної інформації невелика.

Смартфон, підключений до Інтернету, зручний, але водночас завдає незручностей (9). Щоразу, коли користувач хоче щось купити або скористатися новою послугою, йому доводиться завантажувати іншу програму і створювати новий обліковий запис. Тут створено поле для використання та розвитку голосових інтерфейсів. На думку експертів, замість того, щоб змушувати користувачів встановлювати безліч різних програм або створювати окремі облікові записи для кожного сервісу, VUI дозволить перекласти тягар цих обтяжливих завдань на голосового помічника, оснащеного штучним інтелектом. Саме йому зручно виконуватиме напружену діяльність. Ми тільки віддаватимемо йому накази.

9. Голосовий інтерфейс за допомогою смартфона

В даний час до Інтернету підключено не лише телефон та комп'ютер. Розумні термостати, світильники, чайники та інші пристрої, інтегровані з Інтернетом речей, також підключені до мережі (10). Таким чином, навколо нас є пристрої з бездротовим підключенням, які наповнюють наше життя, але не всі їх природним чином вписуються в графічний інтерфейс користувача. Використання VUI допоможе вам легко інтегрувати їх у наше середовище.

10. Голосовий інтерфейс із Інтернетом речей

Створення голосового інтерфейсу користувача стане ключовим навичкою дизайнера. Це справжня проблема - необхідність впровадження голосових систем спонукає вас більше зосередитися на попереджувальному дизайні, тобто намагатися зрозуміти початкові наміри користувача, передбачаючи його потреби та очікування на кожному етапі розмови.

Голос – ефективний спосіб введення даних – він дозволяє користувачам швидко віддавати команди системі на своїх умовах. З іншого боку, екран забезпечує ефективний спосіб відображення інформації: дозволяє системам одночасно відображати великий обсяг інформації, зменшуючи навантаження на пам'ять користувачів. Логічно, що об'єднання в одну систему звучить обнадійливо.

Розумні стовпчики, такі як Amazon Echo і Google Home, взагалі не пропонують візуальний дисплей. Значно підвищуючи точність розпізнавання голосу на помірних відстанях, вони дозволяють працювати без допомоги рук, що, у свою чергу, підвищує їхню гнучкість та ефективність – вони бажані навіть для користувачів, які вже мають смартфони з голосовим керуванням. Проте відсутність екрана є величезним обмеженням.

Для інформування користувачів про можливі команди можна використовувати лише звукові сигнали, і читання виводу вголос стає стомлюючим, крім найпростіших завдань. Установка таймера за допомогою голосової команди під час приготування – це здорово, але змушувати вас запитувати, скільки часу лишилося, не обов'язково. Отримання звичайного прогнозу погоди стає випробуванням пам'яті для користувача, якому доводиться протягом тижня слухати та засвоювати низку фактів, а не збирати їх з екрана на перший погляд.

Дизайнери вже розробили гібридне рішення, Echo Show (11), в якому до базової розумної колонки Echo було додано екран дисплея. Це значно розширює функціональні можливості обладнання. Однак Echo Show, як і раніше, набагато менш здатне виконувати базові функції, які вже давно доступні на смартфонах і планшетах. Він не може (поки що), наприклад, переглядати веб-сторінки, показувати огляди або відображати вміст кошика покупок Amazon.

Візуальний дисплей за своєю сутністю є ефективнішим способом надання людям більшого обсягу інформації, ніж звук. Проектування з пріоритетом голосу може значно покращити голосову взаємодію, але в довгостроковій перспективі довільне невикористання візуального меню для взаємодії буде схоже на боротьбу з однією рукою, пов'язаною за спиною. Через складність наскрізних інтелектуальних голосових і дисплейних інтерфейсів розробники повинні серйозно розглянути гібридний підхід до інтерфейсів.

Підвищення ефективності та швидкості роботи систем генерації та розпізнавання мови дозволило використовувати їх у таких додатках та областях, як, наприклад:

• військові (голосові команди в літаках або вертольотах, наприклад, F16 VISTA),

• автоматична транскрипція тексту (мова у текст),

• інтерактивні інформаційні системи (Прайм-Мова, голосові портали),

• мобільні пристрої (телефони, смартфони, планшети),

• робототехніка (Cleverbot – системи ASR у поєднанні зі штучним інтелектом),

• автомобільний (керування компонентами автомобіля без допомоги рук, наприклад Blue&Me),

• домашні програми (системи розумного будинку).

Слідкуйте за безпекою!

Автомобілі, побутова техніка, системи опалення/охолодження та домашньої безпеки, а також безліч побутових приладів починають використовувати голосові інтерфейси часто на основі ІІ. На цьому етапі дані, отримані в результаті мільйонів розмов з машинами, вирушають у обчислювальні хмари. Цілком очевидно, що ними цікавляться маркетологи. І не лише вони.

У нещодавньому звіті експертів Symantec з безпеки рекомендується, щоб користувачі голосових команд не керували функціями безпеки, такими як замки дверей, не кажучи вже про домашні системи безпеки. Те саме стосується зберігання паролів або конфіденційної інформації. Безпека штучного інтелекту та інтелектуальних продуктів ще недостатньо вивчена.

Коли пристрої по всьому будинку прислухаються до кожного слова, ризик злому та неправомірного використання системи стає надзвичайно важливою проблемою. Якщо зловмисник отримає доступ до локальної мережі або пов'язаних з нею адрес електронної пошти, налаштування смарт-пристрою можуть бути змінені або повернені до заводських настройок, що призведе до втрати цінної інформації та видалення історії користувача.

Іншими словами, фахівці з безпеки побоюються, що штучний інтелект, керований голосом і VUI, ще недостатньо інтелектуальний, щоб захистити нас від потенційних загроз і тримати рот на замку, коли щось запитує незнайомець.