Конвертер DivX в HTK

Извлеките аудио DivX в формат HTK для распознавания речи

Перетащите файлы сюда. 1 GB максимальный размер файла или Регистрация
в
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Видео в данные речи

Конвертируйте аудио DivX-видео прямо в HTK — экономя несколько ручных шагов при создании речевых датасетов из видеоархивов.

Серверное извлечение

Извлечение аудио из DivX и HTK-кодирование выполняются в нашем облаке. Установка инструментария или локальная обработка не нужны.

Независимо от платформы

Запускайте конвертацию DivX в HTK с любого устройства с браузером. Доступ к речевым аудиофайлам независимо от ОС.

Как сконвертировать DIVX в HTK

1

Выберите файлы с компьютера, Google Диска, Dropbox, по ссылке или перетащив их на страницу.

2

Выберите htk или любой другой формат, который вам нужен (более 200 поддерживаемых форматов)

3

Позвольте файлу сконвертироваться и вы сразу сможете скачать ваш htk-файл

О форматах

DivX — семейство видеокодеков и медиаконтейнерный формат, разработанный компанией DivX, LLC. Истоки проекта восходят к взломанной версии кодека Microsoft MPEG-4 v3, распространявшейся в конце 1990-х, но легитимный кодек DivX появился в январе 2001 года как проект с открытым кодом OpenDivX, а затем стал проприетарным коммерческим продуктом. Кодек основан на сжатии MPEG-4 Part 2 (ASP), а более поздние версии включили поддержку H.264/AVC и HEVC. DivX приобрёл огромную популярность в начале 2000-х благодаря способности сжать полнометражный фильм в файл, умещающийся на одном CD-ROM, с сохранением приемлемого визуального качества. Такая эффективность сжатия сделала DivX определяющим форматом эпохи раннего интернета, когда полоса пропускания и хранилище были дефицитными ресурсами. Контейнер DivX Media Format (.divx) добавляет функции — интерактивные меню, главы, субтитры и альтернативные аудиодорожки, привнося DVD-подобную функциональность в цифровые файлы. Сертификация DivX стала распространённой маркировкой на бытовой электронике — тысячи DVD-проигрывателей и других устройств поддерживали воспроизведение DivX нативно. Кодек также стал пионером кодирования с переменным битрейтом на основе качества, выделяя больше данных сложным сценам и меньше — статичным, что обеспечивало стабильное визуальное качество на всём протяжении видео.
Разработчик: DivX, LLC
Дата выпуска: 15 января 2001 г.
HTK — собственный контейнер волновых форм для Hidden Markov Model Toolkit, программного пакета, разработанного на инженерном факультете Кембриджского университета для исследований в области распознавания речи. Впервые выпущенный в 1993 году, HTK быстро стал эталонной платформой в лабораториях компьютерной лингвистики по всему миру, и его файловый формат последовал тому же пути. Каждый файл хранит последовательность параметрических векторов или сырых сэмплов с 12-байтовым заголовком, определяющим число кадров, период кадра в единицах по 100 нс, количество байтов на кадр и код типа данных — от PCM-волновых форм до мел-частотных кепстральных коэффициентов и энергий фильтровых банков. Эта универсальность позволяет одному контейнеру нести как исходное аудио, так и извлечённые признаки без смены парсера. Намеренно минимальный заголовок без дополнительных отступов и опциональных чанков делает формат элементарным для чтения из C, Python или MATLAB несколькими строками бинарного ввода-вывода. Три преимущества обосновывают актуальность HTK: тесная интеграция с конвейером обучения и распознавания HTK, детерминированная байтовая разметка, исключающая неоднозначности парсера, и широкое распространение в академических корпусах.
Дата выпуска: 1993

Часто задаваемые вопросы

Зачем конвертировать DivX в HTK?

HTK — стандартный формат для Hidden Markov Model Toolkit в исследованиях распознавания речи. Аудио DivX становится пригодными обучающими данными.

Что такое аудиоформат HTK?

HTK хранит одноканальный 16-битный PCM для обработки речи. Создан специально для инструментария HTK по распознаванию и анализу речи.

HTK работает с объёмным звуком DivX?

HTK — одноканальный формат. Многоканальный DivX-звук сводится в моно при конвертации — это стандарт для анализа речи.

Достаточно ли хорошее качество?

HTK сохраняет 16-битную PCM точность — более чем достаточно для обучения распознаванию речи. Диалоги из DivX конвертируются чисто.

Что ещё читает HTK?

Помимо самого HTK Toolkit, SoX и несколько академических пакетов анализа речи могут обрабатывать HTK-аудиоданные.