Conversor de MPEG para SPH

Extraia áudio MPEG como formato de fala NIST SPHERE online

Solte os arquivos aqui. 1 GB tamanho máximo do ficheiro ou Registar-se
para
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Vídeo para Corpus de Fala

Extraia diálogos de vídeo MPEG e empacote como NIST SPHERE — pulando extração manual ao construir conjuntos de dados de pesquisa de fala.

Padrão NIST

A saída SPH atende especificações NIST SPHERE exatamente. Importe diretamente no Kaldi, HTK ou qualquer framework de reconhecimento de fala.

Manuseio Seguro

Uploads MPEG são removidos após a conversão. Arquivos SPH de saída são excluídos em 24 horas — seus materiais de pesquisa permanecem confidenciais.

Como converter MPEG para SPH

1

Selecione os arquivos do seu computador, Google Drive, Dropbox ou adicione um URL. Você também pode simplesmente arrastá-lo para esta página.

2

Escolha sph ou qualquer outro formato de saída desejado (mais de 200 formatos compatíveis)

3

Espere o arquivo ser convertido e você poderá, então, baixar o seu arquivo sph

Sobre os formatos

MPEG (MPEG-1) é um padrão fundamental de compressão de vídeo é áudio publicado em agosto de 1993 pelo Moving Picture Experts Group como ISO/IEC 11172. Foi o primeiro padrão internacional para compressão com perdas de imagens em movimento é áudio associado, estabelecendo principios é técnicas que influenciariam virtualmente todos os codecs de vídeo subsequentes. O vídeo MPEG-1 alcança compressão por meio de uma combinação de predicao compensada por movimento, codificação de transformada discreta de cosseno é codificação de entropia de comprimento variável, organizado em três tipos de quadros: I-frames (intra-codificados), P-frames (preditos) é B-frames (preditos bidirecionalmente). O padrão têm como alvo taxas de bits em torno de 1,5 Mbps para áudio é vídeo combinados, produzindo qualidade comparável a fita VHS em resolução SIF (352x240 para NTSC). Esse nível de compressão foi especificamente escolhido para corresponder a taxa de transferência de dados de unidades de CD-ROM de velocidade 1x, possibilitando o formato Vídeo CD que levou vídeo digital aos consumidores no início dos anos 1990. O componente de áudio, particularmente a Layer III (MP3), tornou-se o formato de áudio mais influente da história. A estrutura de quadros I/P/B, a abordagem de estimativa de movimento é a codificação de transformada baseada em blocos estabeleceram o modelo arquitetural seguido por todos os principais codecs de vídeo desde então, do MPEG-2 ao H.264 é além. Embora há muito superado em eficiência de compressão, o MPEG-1 permanece suportado por virtualmente todos os softwares de mídia.
Lançamento inicial: Agosto 1993
SPH é a extensão de arquivo para áudio armazenado no formato NIST SPHERE (SPeech HEader REsources), um padrão criado pelo National Institute of Standards and Technology dos EUA por volta de 1990. Construído para pesquisa em fala, os arquivos SPH carregam um cabecalho ASCII de 1024 bytes repleto de metadados — identificadores de banco de dados, contagens de canais, taxas de amostragem, ordenacao de bytes é tipo de compressão — tornando cada gravação autodescritiva. O áudio subjacente é tipicamente PCM linear de 16 bits amostrado a 16 kHz, embora outras configurações sejam permitidas. Pesquisadores do NIST, DARPA é universidades em todo o mundo confiam no SPH para distribuir corpora de fala como TIMIT, Switchboard é às coleções LDC que sustentam os modernos sistemas de reconhecimento automático de fala. Uma vantagem chave é que o cabecalho legível por humanos permite que scripts analisem metadados de gravação sem decodificação binária. A padronizacao rigorosa do formato também elimina ambiguidade ao compartilhar conjuntos de dados entre instituições é plataformas. Como os arquivos SPH armazenam PCM sem compressão, eles preservam a fidelidade total do áudio — critico ao treinar modelos acusticos onde até pequenos artefatos podem distorcer os resultados.
Lançamento inicial: 1990

Perguntas Frequentes

Por que converter MPEG para SPH?

SPH é o padrão NIST SPHERE para pesquisa de fala. Diálogos de vídeo MPEG tornam-se dados formatados corretamente para treinamento e avaliação ASR.

Quais ferramentas suportam SPH?

Kaldi, HTK, Praat e o toolkit NIST SPHERE suportam SPH nativamente. É o formato de intercâmbio padrão para pesquisa de áudio de fala.

SPH comprime o áudio?

Não — SPH armazena dados PCM sem compressão com perdas. Áudio MPEG chega ao formato SPHERE com qualidade total para processamento preciso de fala.

Áudio MPEG-1 é suficiente?

Áudio MPEG-1 fornece qualidade adequada para pesquisa de fala. Conteúdo de diálogo é bem preservado através do processo de extração e codificação SPH.

Posso converter muitos arquivos MPEG?

Envie múltiplos vídeos MPEG e converta em lote para SPH. Eficiente para construir corpora de fala a partir de coleções de vídeo MPEG arquivadas.