«Пришлось увеличить штат в 7 раз — и не нанять при этом ни одного разработчика». Как создавали систему распознавания смешанной речи Speech Lab?

Технологию на основе нейросети и машинного обучения разработал стартап Speech Lab — и на это ушло 3 года и 75 миллионов тенге. С какими трудностями столкнулась команда проекта за это время и за какой срок планирует окупить инвестиции? Об этом и не только читайте в рассказе CEО Speech Lab Динары Алимовой для Digital Business.

«Мы — не классический стартап»

В 2018 году я стала проджект-менеджером Speech Lab — стартапа с командой из 2 человек, новой идеей и большими планами по завоеванию рынка в Казахстане. А за год до этого пришла в Kazdream на позицию аналитика-маркетолога из Казахтелекома.

Мне хватило года работы на этой должности, чтобы убедиться: я не хочу продвигать работающий проект, гораздо интереснее строить все с нуля. Рассказала об этом гендиректору и основателю Kazdream Даурену Тулебаеву. Он выслушал и предложил попробовать свои силы в реализации одной из задумок компании — технологии, которая на основе нейронных сетей и машинного обучения будет распознавать и казахскую, и русскую речь одновременно.

Идея меня зацепила, поэтому я согласилась на участие без раздумий — несмотря на то, что ничего не понимала в технических нюансах и никогда не работала с нейросетями и Big Data.

Speech Lab — не классический стартап. Инициатива и идея исходят из компании, первые инвестиции и часть материальной базы тоже дает Kazdream. Поэтому и команду проекта собирали из штатных сотрудников холдинга. На старте был нужен лишь 1 человек — программист с опытом в машинном обучении. Парня, который нам подошел, зовут Ердаулет Зейнолла, на тот момент он был выпускником бакалавриата Назарбаевского университета. Вместе с ним мы и взялись за разработку прототипа для проверки жизнеспособности идеи.

«Все 3 года разработки — жесткие эмоциональные качели, потому что мы не могли показать свой продукт миру»

Несколько месяцев в конце 2018 года мы разрабатывали MVP — демо-версию голосового помощника, который распознает смешанную казахскую и русскую речь пользователя и отдает команды софту. Чтобы построить прототип, нужно было сначала создать нейросеть, а потом обучить ее на примерах.

Материал для обучения — аудиозаписи человеческой речи. Мы брали их из роликов на YouTube и аудиокниг: находили аудиодорожки на двух языках, делали печатную расшифровку и подключали все к сети. Перед первым тестом MVP «скормили» нейросети около 30 часов аудиоматериала.

Подробнее по ссылке https://digitalbusiness.kz/2022-09-07/prishlos-uvelichit-shtat-v-7-raz-i-ne-nanyat-pri-etom-ni-odnogo-razrabotchika-kak-sozdavali-sistemu-raspoznavaniya-smeshannoj-rechi-speech-lab/

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *