Konwerter plików HTK do VOX

Konwertuj swoje pliki w formacie htk do formatu vox przez Internet i bezpłatnie

Upuść pliki tutaj. 1 GB Maksymalny rozmiar pliku lub Zapisz się
do
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Jak przekonwertować plik w formacie HTK do formatu VOX

1

Wybierz pliki z komputera, dysku Google, usługi Dropbox, adresu URL lub po prostu przeciągnij plik na stronę.

2

Wybierz format vox lub inny potrzebny Ci format (spośród ponad 200 wspieranych formatów).

3

Poczekaj, aż plik zostanie przekonwertowany do formatu vox; od razu po konwersji możesz go pobrać.

O formatach

HTK to natywny kontener fal dzwiekowych dla Hidden Markov Model Toolkit — pakietu oprogramowania opracowanego na Wydziale Inzynierii Uniwersytetu Cambridge do badan nad rozpoznawaniem mowy. Po raz pierwszy udostepniony w 1993 roku, HTK szybko stal sie platforma referencyjnaw laboratoriach lingwistyki obliczeniowej na calym swiecie, a jego format plikow poszedl w jego slady. Kazdy plik przechowuje sekwencje wektorow parametrow lub surowe probki, poprzedzone 12-bajtowym naglowkiem okreslajacym liczbe ramek, okres ramki w jednostkach 100 ns, liczbe bajtow na ramke oraz kod typu wskazujacy rodzaj danych — opcje obejmuja zarowno przebieg PCM, jak i wspolczynniki mel-czestotliwosciowe oraz energie pasma filtrowego. Ta wszechstronnosc pozwala pojedynczemu kontenerowi przenosic zarowno zrodlowe audio, jak i wyekstrahowane cechy bez zmiany parserow. Celowo minimalny naglowek unika wyrownan paddingu czy opcjonalnych blokow, co czyni format trywialnym do odczytu z C, Pythona czy MATLAB-a za pomoca kilku linii binarnego I/O. Trzy zalety stanowia o trwalym znaczeniu HTK: scisla integracja z potokiem trenowania i rozpoznawania HTK, deterministyczny uklad bajtow eliminujacy niejednoznacznosc parsera oraz szerokie przyjecie w korpusach akademickich.
Pierwsze wydanie: 1993
VOX to format audio bez naglowka oparty na kodowaniu Dialogic ADPCM, szeroko przyjety w telefonii, systemach interaktywnej odpowiedzi glosowej (IVR) i platformach poczty glosowej od lat 80. Kazda probka audio jest kompresowana do 4 bitow za pomoca algorytmu opracowanego przez Oki Electric i zaimplementowanego sprzetowo na kartach interfejsu telefonicznego firmy Dialogic Corporation. Pliki VOX zwykle uzywaja czestotliwosci probkowania 6000 lub 8000 Hz, tworzac wyjatkowo kompaktowe nagrania zoptymalizowane pod katem zrozumialosci mowy, a nie jakosci muzycznej. Poniewaz format nie zawiera naglowka, oprogramowanie do odtwarzania musi z gory znac czestotliwosc probkowania i parametry kodowania — kompromis, ktory redukuje narzut, ale wymaga starannego zarzadzania plikami. Glowna zaleta VOX jest efektywnosc przechowywania: jednominutowe nagranie glosowe przy 8 kHz zajmuje ok. 240 KB, co jest praktyczne dla systemow przechowujacych tysiace promptow. Dialogic ADPCM jest zgodny ze standardem ITU-T G.726, zapewniajac interoperacyjnosc sprzetu telefonicznego róznych producentow. Nawet gdy nowoczesne centra obslugi migruja na systemy IP z kodekami takimi jak Opus), ogromne biblioteki nagran VOX przetrwaly w starszych wdrozeniach IVR i archiwach zgodnosci regulacyjnej na calym swiecie.
Pierwsze wydanie: 1983