Хотели каждого сделать музыкантом, а пришли к распознаванию эмоций. Как белорусы развивают стартап NeoSound

Автор: Станислав Иванейко. Фото: Влад Борисевич
15 010
24 июля 2017 в 8:00

Проект NeoSound изначально разрабатывался как приложение по созданию мелодий, которые напевает пользователь. Условное «на-на-на-та-ра-рам-пам-пам» система трансформировала в партию для гитары, клавиш или барабанов. Несмотря на любопытный концепт, от идеи разработчикам пришлось отказаться, чтобы сфокусироваться на распознавании человеческих эмоций. Как это работает и почему не удалось реализовать дебютное приложение, Onliner.by рассказал создатель сервиса NeoSound Александр Астафьев.

Не что говорят, а как

— Два с половиной года назад появилась идея приложения, которое поможет любому человеку записать свою мелодию. На ее основе создавалась бы полноценная музыка — понятно, что не суперсложная, но что-то похожее на настоящее произведение. По сути, можно стать композитором, не имея ни музыкального образования, ни слуха. Работали над приложением года полтора, были прототипы на Android и iOS, прошли три инкубатора и один акселератор. За это время мы многое узнали об индустрии: нас, технарей, научили разбираться в бизнесе. Сев за калькулятор, мы поняли, что с этим приложением не просто не заработаем, а еще в убытке окажемся. Для успешной B2C-модели желательно иметь серьезные связи, как было с Prisma. Мы пытались «поднять» $200—300 тысяч на разработку и раскрутку, но на мобильное приложение столько никто не хотел давать. А без этих денег сделать проект успешным довольно сложно.


Команде пришлось отложить задумку в долгий ящик, чтобы найти другое применение своей технологии. Теперь это сервис распознавания эмоций по голосу. Идея появилась во время акселерации в Startup Wise Guys: «Это по определению B2B-акселератор, и мы со своим B2C-приложением сразу пролетали. Но к тому моменту уже стало ясно, что нужна другая задумка и технология. Алгоритм распознавания нот работал прекрасно. Были попытки продавать софт для компаний, которые занимаются работой с музыкой, но в итоге ничего не вышло. И тут к нам пришли две компании, которые рассказали о своей проблеме с обработкой звонков в кол-центры. Стало ясно, что мы можем адаптировать свой алгоритм под них».

«Наша технология ориентирована не на распознавание ваших фраз, а на оценку эмоций, которые вы показываете при их произнесении»

Об участии в акселераторе Александр отзывается хорошо: «По крайней мере, без Startup Wise Guys мы, скорее всего, разбежались бы. Да, по условиям 8% компании перешло акселератору. Но мы за это получили $20 тысяч и обучение. Иначе сохранили бы 8% от нуля». Переход к проекту B2B-модели позволил NeoSound получить большее финансирование при меньших усилиях на разработку проекта — распознавать эмоции оказалось проще, чем воспроизводить мелодии.


Сервис NeoSound не то чтобы уникален, но разработчики говорят, что отличаются от конкурентов: «Смотрите, сейчас мы говорим, и система должна анализировать речь. Хлопает дверь, щелкает фотоаппарат, на соседнем этаже могут что-то сверлить, звенит кружка о блюдце — кроме выделения слов и букв, что нужно для превращения речи в текстовый документ, есть акустический анализ и масса других вещей. Наша технология ориентирована не на распознавание ваших фраз, а на оценку эмоций, которые вы показываете при их произнесении». 

Операторы под микроскопом

Если совсем упростить идею NeoSound, то она будет звучать так: алгоритм показывает уровень вежливости оператора кол-центра. Система анализирует речь не клиента, а именно сотрудника компании, который должен максимально корректно общаться с людьми, даже если они немного не правы.

— Для компаний сейчас это большая проблема: они делают случайные выборки и прослушивают записи разговоров. Или поступила жалоба от клиента — снова нужно ознакомиться с диалогом. Наш алгоритм умеет определять, кричит ли оператор, говорит грубо, сквозь зубы или доброжелательно. По одной фразе «Добрый день!» можно понять многое.

Поток речи отправляется на серверы NeoSound, где происходит анализ данных. На выходе заказчик получает отчет вида «в прошлую среду в 15:48 оператор накричал на звонившего клиента». Независимо от результатов появится интересная статистика: если из ста звонков оператор нагрубил только одному человеку, то нужно разобраться, в чем причина такого поведения. Происходит автоматическая проверка всех записей, а не выборочных. С помощью своего решения разработчики надеются упростить еще и работу менеджеров компаний: «Сразу можно понять, какого сотрудника стоит премировать, а с каким следует провести дополнительный тренинг по общению с клиентами».

«Компаниям интересны в первую очередь проявления агрессии. В эту общую большую категорию на самом деле входит много оттенков: от грубости до криков»

— Насколько точна система?

— Честно говоря, пока не знаем. Но проводилось пилотное тестирование на двух компаниях, и все было хорошо. Мы в процессе построения базы, после проверки которой можно будет говорить о точности в процентах. Здесь много переменных, все зависит от того, сколько параметров учитывать.


— Сколько их сейчас?

— Компаниям интересны в первую очередь проявления агрессии. В эту общую большую категорию на самом деле входит много оттенков: от грубости до криков. Теперь мы будем брать каждый из этих пунктов и дробить на 3—4 категории. Нужно понимать, что предстоит работа с огромным массивом данных: сотни операторов ежедневно совершают десятки звонков, и алгоритм должен все это обрабатывать.

Системе нужно учитывать множество особенностей: один человек в нормальном состоянии говорит резко, у другого речь более громкая. Разработчики хотят проводить индивидуальную настройку под каждого оператора, чтобы повысить точность системы. Но пока все на стадии эксперимента.


— При работе с разными языками алгоритм сильно меняется? 

— Какие-то параметры нужно докручивать, да. Но в остальном необходимо только насобирать достаточный массив данных. Выглядит это примерно так: вот 10 тысяч записей с агрессией на русском языке, вот столько же на английском, вот примеры радости и так далее. Сейчас у нас система работает на английском, добавляем русский и еще один язык.

«Если напевать какой-нибудь битбокс с бешеным ритмом, то далеко не каждый профессиональный музыкант сможет воспроизвести его на инструменте. А некоторые наши пользователи хотели стопроцентной точности» 

Почему B2B-решения более скучные

Пару месяцев назад Александр на финтех-хакатоне сделал концепт «детектора лжи». Это схожая система, но направлена уже не на оператора, а на клиента. Предполагается, что технологию можно использовать в банковской сфере — когда сотрудники звонят должникам по кредитам.

— Обычный детектор лжи при желании можно обмануть, для этого есть методики. В нашем случае речь скорее об анализе речи человека. Оператор спрашивает, когда клиент погасит задолженность. Технология анализирует манеру ответа: на самом деле он попал в сложную ситуацию и сейчас у него нет средств или же просто пытается уйти от ответственности. Сотрудник банка получит информацию в режиме реального времени и при необходимости сможет изменить линию общения, напомнить об ответственности за срыв дедлайна.


— Все-таки особенно интригует идея с созданием мелодий. Есть вероятность, что завершите первый проект?

— Мы не отказались от него, а просто оставили на потом. Когда наступит нужный момент — появится инвестор либо на нас свалится нужная сумма, — к проекту мы обязательно вернемся. Теперешняя разработка требует меньше ресурсов, не нужно много внимания уделять конечному дизайну, привлекательности внешнего вида для клиента. Да, наш теперешний проект, как и любое B2B-решение, более скучный. Раньше можно было с задором рассказывать, как мы каждого человека превратим в музыканта, а сейчас — ну, упрощаем работу компаниям, подумаешь.

При работе над первым проектом создатели столкнулись с частой проблемой для маленьких студий — нехваткой тестировщиков. «Мы сделали рабочий прототип, отправили ссылку друзьям — скачайте, посмотрите. И знаете, половина даже не скачала. Другие сделали одну-две записи, но этого слишком мало, чтобы оценить качество работы», — вспоминает Александр.


Еще одна проблема — люди хотели слишком многого. Качество распознавания должно быть просто идеальным, и приложение не всегда выдерживало проверку на прочность: «Если напевать какой-нибудь битбокс с бешеным ритмом, то далеко не каждый профессиональный музыкант сможет воспроизвести его на инструменте. А некоторые наши пользователи хотели стопроцентной точности. Хотя обычные мелодии распознавались отлично».


«Мы идем по классической модели стартапа: больше риска, но и больший кусок пирога в случае удачи», — говорит в конце встречи Александр. Через несколько дней ему предстоит долгий перелет: NeoSound отправляется осваивать новый рынок в далекую страну, но подробности разработчики пока не раскрывают. Там команда научит свою технологию работе с новым языком и будет сотрудничать с местными компаниями. Будущее проекта во многом зависит от успеха в этом регионе.

Наушники и гарнитуры в каталоге Onliner.by

Читайте также:

Перепечатка текста и фотографий Onliner.by запрещена без разрешения редакции. nak@onliner.by