Распознавание речи: как сделать Speech-to-Text своими руками / Иван Бондаренко (МФТИ)

Рет қаралды 29,772

5 жыл бұрын

Приглашаем на конференцию Saint HighLoad++ 2024, которая пройдет 24 и 25 июня в Санкт-Петербурге!
Программа, подробности и билеты по ссылке: vk.cc/cuyIqx
--------
--------
HighLoad++ Siberia 2018
Тезисы и презентация:
www.highload.ru/siberia/2018/a...
Задумываетесь над автоматизацией call-центра или хотите поговорить с «умным» домом? Время для системы распознавания устной речи. На рынке предложений хоть отбавляй - тут и гиганты IT-индустрии, и фирмы «калибром» поменьше.
…
--------
Нашли ошибку в видео? Пишите нам на support@ontico.ru

Пікірлер: 25

@alexeyburlakov8804 4 жыл бұрын

Спасибо большое Вам за лекцию! Для себя сделал разметку по времени и темам, может кому-то еще пригодится: 3:50 - CMU Sphinx 7:40 - речевой корпус и акустико-фонетический блок 8:54 - подготовка к запуску обучения 9:19 - создание конфиг-файла 14:26 - 3 параметра конфига 15:03 - что такое фонемы 16:56 - где взять фонемы 17:17 - про словарь транскрипций 18:15 - где взять словарь транскрипций на 800.000 слов 19:43 - генерация словаря транскрипций на основе машинного обучения 20:36 - филеры (квазифонемы) 22:03 - где взять записи филеров 23:26 - скрытые марковские модели (распознавания речи) 27:23 - конфиг языковых моделей 28:59 - детерминированные языковые модели 29:12 - вероятностные языковые модели 30:14 - как построить N-граммы (большой текстовый корпус, SRILM) 31:59 - где взять готовые N-граммы 32:56 - специфичные N-граммы для спец.тематик 34:28 - формула оценки ошибок системы (WER) 35:08 - разные WER в зависимости от задач 37:21 - кроссвалидация 39:04 - шумоподавление 40:07 - шумоподавление нейронными сетями 41:58 - регрессионная нейронная сеть (на TensorFlow) 44:22 - про чат-бота iPavlov (может распознавать и возможно синтезировать речь) 45:09 - про Baidu и Deep Speech 46:13 - про Toloka и краудфандинговый проект для набора голосовых данных в 1000ч 46:56 - благодарности 47:17 - контакты 47:36 - вопросы от зрителей

@ifeelmath3759 5 жыл бұрын

Огромное спасибо докладчику и тому человеку, кто выложил видео. Этот доклад прямо "луч света в тёмном царстве" и глоток свежего воздуха. ;-)

@cirkon42 7 ай бұрын

Иван, спасибо за ваш доклад! Вы золотой человек!

@valeriia7658 4 жыл бұрын

Замечательный доклад: приятно слушать, используются понятные термины! Огромное спасибо!

@be276me 5 жыл бұрын

Спасибо вам огромное за доклад, и за то что выложили в открытый доступ. Очень доступно раскрыты подходы и главное проблематика.

@nikeseverin6299 3 жыл бұрын

Замечательный доклад. Искреннее спасибо Ивану Бондаренко и его команде проекта "Speech-to-Text своими руками".

@akokov 3 жыл бұрын

Спасибо! Очень интересно, очень доступно! "Не надо ждать, не надо звать, а можно взять и..." написать! Цитата

@dmitryts1257 2 жыл бұрын

Ооооочень большое спасибо за настолько подробное и при этом понятное абсолютно нетехническому человеку (мне) изложение!

@marcus-school 2 жыл бұрын

Спасибо за доклад! Лектор супер!

@KJPiGames 3 жыл бұрын

Наконец-то, то что нужно! Искал 3 дня как же всё-таки запустить хоть один звуковой движок и вот оно решение, надеюсь оно сработается с моей библиотекой классов. Спасибо!:) А я побежал это вставлять в свою игру.

@KonstantinKrestnikov 5 жыл бұрын

Очень интересный доклад, спасибо!

@user-zm5qm4vh2b 2 жыл бұрын

Отлично, спасибо большое! )

@dedkoster 5 жыл бұрын

Спасибо!

@user-ec8lg6jt2n 2 жыл бұрын

Хороший доклад. Жаль что проект на данное время не получает новых коммитов. Вероятно не нашли финансирование, жаль.

@avaganovmail 3 жыл бұрын

Спасибо

@MSVNET 4 жыл бұрын

Ребята, а можно с помощью fft получить спектрограмму сигнала с меньшем периодом, чем период выборки? У меня с этим проблема: лезут гармоники, как я понял. На канале есть несколько роликов со спектральным анализатором, где это хорошо видно. Пока не знаю, как решить. Нужно fft для похожей задачи, как в докладе, но пока оно в таком виде просто неприменимо. Это не точный инструмент, а показометр какой-то получился (. Собсн, вот только и балуюсь с тем анализатором.

@blacksharksTV 2 жыл бұрын

Гений

@taskscrmtaskscrm9052 2 жыл бұрын

Спасибо огромное, Иван! Сколько времени по Вашему можно потратить на сборку системы транскрибации профессионального языка? и на обучение? Ну или сколько Вы трудились вчетвером над сборкой системы?