Конвертер MPG в HTK

Извлеките HTK-аудио из MPG для исследований речи онлайн

Перетащите файлы сюда. 1 GB максимальный размер файла или Регистрация
в
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Исследования речи

HTK создан для обучения распознаванию речи. Извлеките правильно отформатированные исследовательские данные из MPG-видео.

Облачная обработка

Извлечение аудио идёт на серверах — установка HTK-инструментария только для конвертации форматов не нужна.

Безопасность данных

MPG-файлы удаляются после обработки. HTK-результаты стираются с серверов в течение 24 часов.

Как сконвертировать MPG в HTK

1

Выберите файлы с компьютера, Google Диска, Dropbox, по ссылке или перетащив их на страницу.

2

Выберите htk или любой другой формат, который вам нужен (более 200 поддерживаемых форматов)

3

Позвольте файлу сконвертироваться и вы сразу сможете скачать ваш htk-файл

О форматах

MPG — распространённое расширение для видеофайлов, закодированных по стандартам сжатия MPEG-1 или MPEG-2, разработанным Moving Picture Experts Group. Трёхсимвольное расширение появилось из-за ограничений ранних файловых систем Windows и DOS, допускавших расширения не длиннее трёх символов, как сокращение полного обозначения MPEG. Файлы MPG содержат программные потоки MPEG, мультиплексирующие один видео- и один или несколько аудиопотоков в единый байтовый поток с метками синхронизации. Формат широко использовался в 1990-х и 2000-х для хранения цифрового видео на персональных компьютерах — от рипов Video CD и извлечений с DVD до записей цифрового ТВ с помощью аппаратных кодирующих карт. Файлы MPG со сжатием MPEG-1 обычно содержат видео 352x240 (NTSC) или 352x288 (PAL) при битрейтах около 1,5 Мбит/с, тогда как MPG с кодированием MPEG-2 поддерживает более высокие разрешения вплоть до Full HD. Программный поток предполагает относительно надёжный носитель хранения, в отличие от транспортного потока для вещания, что обеспечивает эффективное файловое воспроизведение без накладных расходов на восстановление после ошибок. Широкая совместимость — одна из непреходящих сильных сторон формата: практически любой медиаплеер на всех операционных системах декодирует такие файлы без установки дополнительных кодеков. MPG по-прежнему встречается в архивах видеоконтента, записях систем наблюдения и устаревших цифровых видеопроцессах.
Разработчик: Moving Picture Experts Group
Дата выпуска: Август 1993
HTK — собственный контейнер волновых форм для Hidden Markov Model Toolkit, программного пакета, разработанного на инженерном факультете Кембриджского университета для исследований в области распознавания речи. Впервые выпущенный в 1993 году, HTK быстро стал эталонной платформой в лабораториях компьютерной лингвистики по всему миру, и его файловый формат последовал тому же пути. Каждый файл хранит последовательность параметрических векторов или сырых сэмплов с 12-байтовым заголовком, определяющим число кадров, период кадра в единицах по 100 нс, количество байтов на кадр и код типа данных — от PCM-волновых форм до мел-частотных кепстральных коэффициентов и энергий фильтровых банков. Эта универсальность позволяет одному контейнеру нести как исходное аудио, так и извлечённые признаки без смены парсера. Намеренно минимальный заголовок без дополнительных отступов и опциональных чанков делает формат элементарным для чтения из C, Python или MATLAB несколькими строками бинарного ввода-вывода. Три преимущества обосновывают актуальность HTK: тесная интеграция с конвейером обучения и распознавания HTK, детерминированная байтовая разметка, исключающая неоднозначности парсера, и широкое распространение в академических корпусах.
Дата выпуска: 1993

Часто задаваемые вопросы

Зачем конвертировать MPG в HTK?

HTK — формат набора инструментов Hidden Markov Model для исследований ASR. Конвертация создаёт правильно отформатированные обучающие данные.

Что использует HTK-файлы?

Инструментарий Cambridge HTK, Kaldi и другие ASR-исследовательские фреймворки работают с HTK-отформатированными аудиоданными.

HTK подходит для общего аудио?

Нет — HTK специализированный исследовательский формат. Для прослушивания используйте WAV, MP3 или FLAC.

Какую частоту дискретизации выбрать?

Распознавание речи обычно работает при 16 кГц. Задайте это перед конвертацией для получения HTK-данных под ваш пайплайн.

Поддерживается пакетная конвертация?

Загрузите несколько MPG и одновременно извлеките HTK из каждого — эффективно для создания датасетов исследования речи.

Рейтинг MPG в HTK

5.0 (1 голосов)
Вам необходимо сконвертировать и скачать любой файл, чтобы оценить конвертацию!