MPEG do SPH Konwerter

Wyodrębnij audio MPEG jako format mowy NIST SPHERE

Upuść pliki tutaj. 1 GB Maksymalny rozmiar pliku lub Zapisz się
do
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Wideo do korpusu mowy

Wyodrębnij dialogi z wideo MPEG i zapakuj je jako NIST SPHERE — pomijając ręczną ekstrakcję przy budowaniu zbiorów danych badawczych.

Standard NIST

Wyjście SPH spełnia specyfikacje NIST SPHERE dokładnie. Importuj bezpośrednio do Kaldi, HTK lub dowolnego frameworka rozpoznawania mowy.

Bezpieczna obsługa

Przesłane pliki MPEG są usuwane po konwersji. Pliki wyjściowe SPH są kasowane w ciągu 24 godzin — Twoje materiały badawcze pozostają poufne.

Jak przekonwertować plik w formacie MPEG do formatu SPH

1

Wybierz pliki z komputera, dysku Google, usługi Dropbox, adresu URL lub po prostu przeciągnij plik na stronę.

2

Wybierz format sph lub inny potrzebny Ci format (spośród ponad 200 wspieranych formatów).

3

Poczekaj, aż plik zostanie przekonwertowany do formatu sph; od razu po konwersji możesz go pobrać.

O formatach

MPEG (MPEG-1) to fundamentalny standard kompresji wideo i audio opublikowany w sierpniu 1993 roku przez Moving Picture Experts Group jako ISO/IEC 11172. Byl to pierwszy miedzynarodowy standard stratnej kompresji ruchomych obrazow i towarzyszacego audio, ustanawiajacy zasady i techniki, ktore wplynely na praktycznie wszystkie kolejne kodeki wideo. Wideo MPEG-1 osiaga kompresje poprzez kombinacje predykcji kompensowanej ruchem, kodowania dyskretna transformata kosinusowa i kodowania entropijnego o zmiennej dlugosci, zorganizowanego wokol trzech typow klatek: I-klatki (kodowane wewnetrznie), P-klatki (predykcyjne) i B-klatki (predykcyjne dwukierunkowo). Standard celuje w szybkosci transmisji ok. 1,5 Mbps dla laczonego audio i wideo, tworzac jakosc porownywalna z tasma VHS przy rozdzielczosci SIF (352x240 dla NTSC). Ten poziom kompresji zostal specjalnie dobrany, by odpowiadac przepustowosci danych napedow CD-ROM o predkosci 1x, umozliwiajac format Video CD, ktory przyniosl cyfrowe wideo konsumentom na poczatku lat 90. Komponent audio, szczegolnie Layer III (MP3), stal sie najbardziej wplywowym formatem audio w historii. Struktura klatek I/P/B, podejscie do estymacji ruchu i kodowanie transformata blokowa ustanowily architektoniczny szablon stosowany przez kazdy wiekszy kodek wideo od tamtej pory — od MPEG-2 przez H.264 i dalej. Choc dawno przewyzszony pod wzgledem efektywnosci kompresji, MPEG-1 pozostaje obslugiwany przez praktycznie kazde oprogramowanie multimedialne.
Pierwsze wydanie: Sierpień 1993
SPH to rozszerzenie plikow audio przechowywanych w formacie NIST SPHERE (SPeech HEader REsources) — standardzie stworzonym przez amerykanski National Institute of Standards and Technology okolo 1990 roku. Przeznaczony do badan nad mowa, pliki SPH zawieraja 1024-bajtowy naglowek ASCII wypelniony metadanymi — identyfikatorami bazy danych, liczba kanalow, czestotliwoscia probkowania, kolejnoscia bajtow i typem kompresji — co czyni kazde nagranie samoopisujoacy sie. Dane audio to zwykle 16-bitowe liniowe PCM probkowane przy 16 kHz, choc dozwolone sa inne konfiguracje. Badacze z NIST, DARPA i uniwersytetow na calym swiecie polegaja na SPH przy dystrybucji korpusow mowy, takich jak TIMIT, Switchboard i kolekcje LDC, ktore stanowia fundament nowoczesnych systemow automatycznego rozpoznawania mowy. Kluczowa zaleta jest to, ze czytelny naglowek pozwala skryptom parsowac metadane nagrania bez dekodowania binarnego. Scisla standaryzacja formatu eliminuje tez niejednoznacznosc przy wspoldzieleniu zbiorow danych miedzy instytucjami i platformami. Poniewaz pliki SPH przechowuja nieskompresowane PCM, zachowuja pelna wiernosc audio — co jest krytyczne przy trenowaniu modeli akustycznych, gdzie nawet drobne artefakty moga znieksztalcic wyniki.
Pierwsze wydanie: 1990

Często Zadawane Pytania

Dlaczego warto konwertować MPEG na SPH?

SPH to standard NIST SPHERE dla badań nad mową. Dialogi z wideo MPEG stają się prawidłowo sformatowanymi danymi do treningu ASR i ewaluacji.

Jakie narzędzia obsługują SPH?

Kaldi, HTK, Praat i zestaw narzędzi NIST SPHERE obsługują SPH natywnie. To standardowy format wymiany dla badań audio mowy.

Czy SPH kompresuje audio?

Nie — SPH przechowuje dane PCM bez kompresji stratnej. Audio MPEG trafia do formatu SPHERE w pełnej jakości do dokładnego przetwarzania mowy.

Czy audio MPEG-1 jest wystarczające?

Audio MPEG-1 zapewnia odpowiednią jakość do badań nad mową. Dialogi są dobrze zachowane podczas ekstrakcji i kodowania SPH.

Czy mogę konwertować wiele plików MPEG?

Prześlij wiele wideo MPEG i skonwertuj je partiami do SPH. Wydajne przy budowaniu korpusów mowy z archiwalnych kolekcji wideo.