Распознавание речи: как сделать Speech-to-Text своими руками / Иван Бондаренко (МФТИ)

  Рет қаралды 29,772

HighLoad Channel

HighLoad Channel

5 жыл бұрын

Приглашаем на конференцию Saint HighLoad++ 2024, которая пройдет 24 и 25 июня в Санкт-Петербурге!
Программа, подробности и билеты по ссылке: vk.cc/cuyIqx
--------
--------
HighLoad++ Siberia 2018
Тезисы и презентация:
www.highload.ru/siberia/2018/a...
Задумываетесь над автоматизацией call-центра или хотите поговорить с «умным» домом? Время для системы распознавания устной речи. На рынке предложений хоть отбавляй - тут и гиганты IT-индустрии, и фирмы «калибром» поменьше.

--------
Нашли ошибку в видео? Пишите нам на support@ontico.ru

Пікірлер: 25
@alexeyburlakov8804
@alexeyburlakov8804 4 жыл бұрын
Спасибо большое Вам за лекцию! Для себя сделал разметку по времени и темам, может кому-то еще пригодится: 3:50 - CMU Sphinx 7:40 - речевой корпус и акустико-фонетический блок 8:54 - подготовка к запуску обучения 9:19 - создание конфиг-файла 14:26 - 3 параметра конфига 15:03 - что такое фонемы 16:56 - где взять фонемы 17:17 - про словарь транскрипций 18:15 - где взять словарь транскрипций на 800.000 слов 19:43 - генерация словаря транскрипций на основе машинного обучения 20:36 - филеры (квазифонемы) 22:03 - где взять записи филеров 23:26 - скрытые марковские модели (распознавания речи) 27:23 - конфиг языковых моделей 28:59 - детерминированные языковые модели 29:12 - вероятностные языковые модели 30:14 - как построить N-граммы (большой текстовый корпус, SRILM) 31:59 - где взять готовые N-граммы 32:56 - специфичные N-граммы для спец.тематик 34:28 - формула оценки ошибок системы (WER) 35:08 - разные WER в зависимости от задач 37:21 - кроссвалидация 39:04 - шумоподавление 40:07 - шумоподавление нейронными сетями 41:58 - регрессионная нейронная сеть (на TensorFlow) 44:22 - про чат-бота iPavlov (может распознавать и возможно синтезировать речь) 45:09 - про Baidu и Deep Speech 46:13 - про Toloka и краудфандинговый проект для набора голосовых данных в 1000ч 46:56 - благодарности 47:17 - контакты 47:36 - вопросы от зрителей
@ifeelmath3759
@ifeelmath3759 5 жыл бұрын
Огромное спасибо докладчику и тому человеку, кто выложил видео. Этот доклад прямо "луч света в тёмном царстве" и глоток свежего воздуха. ;-)
@cirkon42
@cirkon42 7 ай бұрын
Иван, спасибо за ваш доклад! Вы золотой человек!
@valeriia7658
@valeriia7658 4 жыл бұрын
Замечательный доклад: приятно слушать, используются понятные термины! Огромное спасибо!
@be276me
@be276me 5 жыл бұрын
Спасибо вам огромное за доклад, и за то что выложили в открытый доступ. Очень доступно раскрыты подходы и главное проблематика.
@nikeseverin6299
@nikeseverin6299 3 жыл бұрын
Замечательный доклад. Искреннее спасибо Ивану Бондаренко и его команде проекта "Speech-to-Text своими руками".
@akokov
@akokov 3 жыл бұрын
Спасибо! Очень интересно, очень доступно! "Не надо ждать, не надо звать, а можно взять и..." написать! Цитата
@dmitryts1257
@dmitryts1257 2 жыл бұрын
Ооооочень большое спасибо за настолько подробное и при этом понятное абсолютно нетехническому человеку (мне) изложение!
@marcus-school
@marcus-school 2 жыл бұрын
Спасибо за доклад! Лектор супер!
@KJPiGames
@KJPiGames 3 жыл бұрын
Наконец-то, то что нужно! Искал 3 дня как же всё-таки запустить хоть один звуковой движок и вот оно решение, надеюсь оно сработается с моей библиотекой классов. Спасибо!:) А я побежал это вставлять в свою игру.
@KonstantinKrestnikov
@KonstantinKrestnikov 5 жыл бұрын
Очень интересный доклад, спасибо!
@user-zm5qm4vh2b
@user-zm5qm4vh2b 2 жыл бұрын
Отлично, спасибо большое! )
@dedkoster
@dedkoster 5 жыл бұрын
Спасибо!
@user-ec8lg6jt2n
@user-ec8lg6jt2n 2 жыл бұрын
Хороший доклад. Жаль что проект на данное время не получает новых коммитов. Вероятно не нашли финансирование, жаль.
@avaganovmail
@avaganovmail 3 жыл бұрын
Спасибо
@MSVNET
@MSVNET 4 жыл бұрын
Ребята, а можно с помощью fft получить спектрограмму сигнала с меньшем периодом, чем период выборки? У меня с этим проблема: лезут гармоники, как я понял. На канале есть несколько роликов со спектральным анализатором, где это хорошо видно. Пока не знаю, как решить. Нужно fft для похожей задачи, как в докладе, но пока оно в таком виде просто неприменимо. Это не точный инструмент, а показометр какой-то получился (. Собсн, вот только и балуюсь с тем анализатором.
@blacksharksTV
@blacksharksTV 2 жыл бұрын
Гений
@taskscrmtaskscrm9052
@taskscrmtaskscrm9052 2 жыл бұрын
Спасибо огромное, Иван! Сколько времени по Вашему можно потратить на сборку системы транскрибации профессионального языка? и на обучение? Ну или сколько Вы трудились вчетвером над сборкой системы?
@pafosclashroyale7388
@pafosclashroyale7388 4 жыл бұрын
Ребята!!!! Помогите!!!! Необходима Ваша помощь, как с Вами связаться?
@user-rd2qz6px8w
@user-rd2qz6px8w 3 жыл бұрын
Возможно ли изменить голос исполнителя на другой на аудиодорожке(коммерческий вопрос)?
@finderos47
@finderos47 4 жыл бұрын
😁😆😂
@alexchajnik2931
@alexchajnik2931 5 жыл бұрын
kzfaq.info/get/bejne/pceIl6djlsqUlWw.html довольно мало ошибок распознавания речи Сажи !
@user-oh3jc4my6i
@user-oh3jc4my6i 3 жыл бұрын
Полная ерунда как с помощью этой информации можно что то сделать я так и не понял одни базовые понятия ничего конкретного.
@edgull_tlt
@edgull_tlt 2 жыл бұрын
Спасибо
DAD LEFT HIS OLD SOCKS ON THE COUCH…😱😂
00:24
JULI_PROETO
Рет қаралды 16 МЛН
Best Toilet Gadgets and #Hacks you must try!!💩💩
00:49
Poly Holy Yow
Рет қаралды 19 МЛН
Чего ожидать от HTTP/3 + Go
51:07
Нина Пакшина
Рет қаралды 7 М.
Лекция. Введение в распознавание речи
38:52
Deep Learning School
Рет қаралды 4,3 М.
Максим Дорофеев - Воспитай свою обезьяну
56:32
JPoint, Joker и JUG ru
Рет қаралды 218 М.
Делаю нейросеть с нуля
17:17
Onigiri
Рет қаралды 1,4 МЛН