3542
21
31 мая 2018 в 16:54
Автор: Станислав Иванейко
YaC 2018: самоуправляемые машины, умная колонка и почему прорывные технологии «не работают»

На мероприятии Yet Another Conference 2018 «Яндекс» представила свой первый железный продукт — умную колонку «Яндекс.Станция», а также напомнила о других разработках и сервисах. Onliner.by побывал на конференции и делится впечатлениями.

Почему чудеса не работают

Руководитель «Яндекс» Аркадий Волож начал речь с рассуждений о том, как люди воспринимают технологии и почему в глазах пользователя часто что-то не работает: «У нас в кармане пульт управления материальным миром: бум! — еда, бум! — товары, бум! — полторы тонны железа и пластмассы приезжают к подъезду. Но не работает же! Вызвал такси — оно к другому подъезду приехало, и вообще меня не туда повезли».

По словам Аркадия, такое происходит всегда, и только с одним из самых свежих продуктов «Яндекса», голосовым помощником «Алиса», получилась другая история:

— Первый раз процесс пошел не по плану: случилось чудо, и оно «не не работает».

Дальше представители компании рассказывали устройство «Алисы»: сперва ей нужно распознать голос, причем система делает это лучше живого человека (в случае со щебетанием ребенка, например), затем нужно понять контекст, проанализировать ситуацию и ответить с учетом предыдущей истории общения с пользователем. Только потом «Алиса» должна собраться с мыслями и выдать голосовой ответ. Здесь тоже масса сложностей: «Яндекс» хотел сделать речь максимально живой и естественной, чтобы человеку хотелось еще и просто болтать время от времени с ассистентом.

«Яндекс.Станция»

После напоминания о гибридной платформе «Яндекс.Диалоги» настал черед главного анонса — той самой колонки, которую в компании называют станцией. Нам удалось немного пообщаться с системой. Колонка получилась массивная: 140×140×230 мм, по высоте она ощутимо больше Apple HomePod (172 мм). В компании оправдали такие размеры желанием добиться качественного звука.

Интересно, что от материала корпуса цена не меняется: и алюминиевый, и тканевый вариант обойдется в 9990 российских рублей (порядка 330 белорусских рублей). На колонке есть аппаратная кнопка Mute — «Яндекс» обещает, что при ее нажатии наглухо отключаются все семь микрофонов, которыми устройство слушает пользователя.

Система работает только с «Яндекс.Музыкой»: ни Spotify, ни Google Play Music, ни Apple Music не поддерживаются. При этом никто не запрещает стримить музыку по Bluetooth с другого устройства, но в таком случае потеряете все смарт-фишки — станция превратится в обычную колонку. А в случае с нативным сервисом «Алиса» поймет и витиеватые пожелания вроде «хочу чего-нибудь потяжелее» или «мне надо отдохнуть, включи что-то медленное». Собственно, все это умеет и Siri, и Alexa, но «Яндекс» делает упор на русскоязычном сегменте: мол, ассистент лучше всего справляется с запросами на языке Пушкина.

Беспилотник и нейросети

Пока в «ВТБ Ледовый дворец» шли конференции, на площадке перед спорткомплексом гостей развлекало автономное такси. Toyota Prius возила по короткому маршруту всех желающих. Поездка занимала чуть меньше минуты, но впечатлений хватило: одно дело — видеть самоуправляемые машины в роликах, а другое — самому сесть на заднее сиденье, когда за рулем никого. Легковушка бодро разгонялась (эффект скорости достигался за счет опущенных стекол) и шустро крутила руль. Еще немного, и азбукой Морзе потребовала бы заправить ее, на манер «Грузовиков» Стивена Кинга. Пока сложно сказать, как система будет ездить по Москве и другим мегаполисам со, скажем так, довольно агрессивным стилем вождения.

Практически во всех сервисах «Яндекса» используются нейросети. Как они устроены и когда машинное зрение станет привычным для нас делом, мы узнали у руководителя службы компьютерного зрения Александра Крайнова:

На чем нейросеть может ошибиться? Скажем, она способна пропустить фотографию с лужей крови, приняв ее за разлитый кетчуп?

— У сети, конечно, бывают ошибки, но сложно угадать, в каком случае они произойдут. Ошибки сети отличаются от наших ошибок. У нее свои понятия о похожести. Когда мы очень сильно что-то путаем? При возникновении оптической иллюзии. Так вот, у сети эти иллюзии свои. Бывают случаи, которые называются hard negative — когда ей померещилось что-то. И не всегда человеку понятно, почему нейросеть приняла одно за другое. 

Это схожие цвета, формы объектов?

— Когда как. Заранее не угадаешь, и не всегда можно интерпретировать ошибки. Да и не нужно. Мы ошибки добавляем в обучение, и каждая следующая версия становится все лучше, потому что перестает на этих примерах ошибаться. Вообще, довольно сложно обмануть грамотную систему. Можно сделать так, что изображения, которые нейросеть считает подозрительными, отправляются на модерацию, которой занимается человек. И уже после оценки человека картинка используется для дообучения нейросети. Таким образом, происходит и страховка нейросети человеком, и сбор данных для обучения сети.

Есть приложения, которые запускают нейросети прямо на смартфонах, без облачных вычислений. «Яндекс» рассматривает подобный вариант для какого-нибудь своего сервиса?

— Часть таких решений будет переноситься на телефоны, но далеко не все. Если посмотреть на распознающие изображения приложения, которые работают полностью на телефоне, то у них очень урезанный функционал. Да, можно засунуть в смартфон нейросеть по распознаванию общих классов предметов вокруг. Смотришь через смартфон на окружение, и все подписывается: столб, стул, собака и так далее. Круто! Но если задуматься: а в чем польза такой информации? Ну столб, ну собака. Это и так понятно. А что я могу узнать нового об этом объекте? На телефоне не могут храниться знания обо всех объектах окружающего мира. Мы сейчас для того, чтобы давать полноценный ответ на запрос картинкой, используем знания обо всем интернете, который хранится в памяти системы. Никак нельзя положить все это в смартфон. 

Это очередь на тест-драйв беспилотного такси. В машину одновременно запускали до трех человек на задний ряд (на место переднего пассажира садиться нельзя)

Есть красивые презентации с использованием AR в разных областях, но толком это ведь пока не работает, не так ли?

— И да и нет. Человек проходит крайне быстрый путь от полного восхищения до скепсиса. В среднем, секунд сорок. Сфотографировал что-то — ничего себе, оно распознало! Сейчас рюкзак попробую — ого, и его тоже нашел! Так, диван — слишком легко…

Человек только что видел чудо, но уже решает, что диван распознать смартфону чересчур просто. Поворачивает смартфон на 90 градусов, щелкает штору — не распознало. Все, ерунда, вообще не работает. Меньше минуты назад вы вообще не знали, что такое возможно, а уже разочаровались.

Человеку не очень важна доля правильных ответов, ему нужно, чтобы вообще не было ошибок. И пока система ошибается, а это будет происходить, останутся скептики.

По вашему прогнозу, когда из игрушки на сорок секунд это перейдет в повседневную жизнь? 

— Оно уже произошло, просто не все люди распробовали. Вначале человеку всегда важно «сломать» систему, найти границу, где технология перестанет работать. Ему нужно это отыскать, ощутить собственное превосходство, и потом он на время забывает об этой функциональности. Но когда возникает острая, не решаемая иным способом потребность, человек вспоминает о новой возможности. Например, когда ему нужно узнать, что это за растение, или найти в интернете похожую люстру. В этот момент он даже не задумывается о новизне технологии — вообще о ней не думает. Просто решает свою задачу. 

Камеры по распознаванию номеров — уже давно данность, например. А знаете самый яркий пример компьютерного зрения, с которым мы все каждый день сталкиваемся и даже не задумываемся об этом? Сканирование штрих-кодов в обычном супермаркете. Это ведь тоже компьютерное зрение. И даже здесь задача не до конца решена: иногда продавец раз сканирует, два — код не распознается, и приходится пальцами вбивать номер товара.

Такое уже произошло, например, со сканерами отпечатков в смартфонах. Следующий кандидат на обыденность — повсеместное распознавание лиц.

Беспроводные и портативные колонки в каталоге Onliner.by

Наш канал в Telegram. Присоединяйтесь!

Быстрая связь с редакцией: читайте паблик-чат Onliner и пишите нам в Viber!