AV1 - HTK Dönüştürücü

AV1 videodan HTK konuşma tanıma sesi çıkarın

Dosyaları buraya bırakın. 1 GB maksimum dosya boyutu veya Kaydol
için
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

Konuşma Araştırma Formatı

HTK, konuşma tanıma araştırması için standarttır — AV1'den dönüştürme akustik model eğitimi için ses hazırlar.

Araştırma Parametreleri

Konuşma araştırma gereksinimlerine uygun örnekleme hızı ve kodlama ayarlayın — tanıma görevleri için tipik olarak 16 kHz mono.

Gizli Veriler

AV1 yüklemeleriniz dönüştürmeden hemen sonra silinir ve HTK çıktıları 24 saat içinde kaldırılır.

AV1'i HTK'ye dönüştürme yöntemi

1

Dosyaları bilgisayar, Google Drive, Dropbox, URL'den veya sayfa üzerinden sürükleyerek seçin.

2

htk ya da sonuç olarak ihtiyacınız olan diğer formatlardan birini seçin (200'den fazla format desteklenir)

3

Haydi dosyayı dönüştürün ve htk dosyanızı hemen sonra indirebilirsiniz

Formatlar hakkında

AV1 (AOMedia Video 1), kurucu üyeleri arasında Google, Mozilla, Microsoft, Amazon, Netflix ve Intel gibi şirketlerin bulunduğu Alliance for Open Media konsorsiyumu tarafından geliştirilen açık ve telifsiz bir video kodlama formatıdır. Spesifikasyon, lisans ücretlerinden arındırılmış olarak H.264 ve HEVC'nın sıkıştırma verimliliğini aşan yeni nesil bir video codec'ı sağlamak amacıyla Haziran 2018'de tamamlanmıştır. AV1, eşdeğer görsel kalitede HEVC'ye kıyasla yaklaşık %30-50 daha i̇yi sıkıştırma elde ederek, i̇zleyici deneyiminden ödün vermeden bant genişliği maliyetlerini düşürmek isteyen akış platformları için özellikle cazip hâle gelir. Codec; film grenü sentezi, paralel işleme için esnek döşeme yapısı, içerik uyarlamalı çözünürlük geçişi ve zengin intra/inter tahmin modları dahil geniş bir özellik yelpazesini destekler. Mobil işlemciler, GPU'lar ve akıllı TV'ler genelinde donanımsal kod çözme desteği hızla genişleyerek kodlama sırasındaki hesaplama gereksinimleriyle ilgili erken dönem endişeleri gidermiştir. AV1, büyük akış hizmetleri tarafından 4K ve HDR içerik dağıtımı için geniş çapta benimsenmiştir ve web tabanlı oynatma için WebM kapsayıcısının video bileşeni olarak hizmet vermektedir. Telifsiz yapısı, AV1'ı açık web standartları ve erişilebilir medya dağıtımı için özellikle önemli kılmaktadır.
İlk yayın: 25 Haziran 2018
HTK, Cambridge Üniversitesi Mühendislik Bölümü'nde konuşma tanıma araştırmaları için geliştirilen bir yazılım paketi olan Hidden Markov Model Toolkit'ın yerel dalga formu kapsayıcısıdır. 1993'te i̇lk dağıtılan HTK, dünya genelinde hesaplamalı dilbilim laboratuvarlarında hızla referans platform haline gelmiş ve dosya formatı da aynı yolu izlemiştir. Her dosya, çerçeve sayısını, 100 ns birimlerinde çerçeve süresini, çerçeve başına bayt sayısını ve veri türünü belirten bir tür kodu içeren 12 baytlık bir başlık ile öncelenmiş parametre vektörleri veya ham örnekler dizisi depolar — dalga formu PCM'den Mel-frekans kepstral katsayılarına ve filtre bankası enerjilerine kadar seçenekler mevcuttur. Bu çok yönlülük, tek bir kapsayıcının hem kaynak sesi hem de çıkarılan özellikleri ayrıştırıcı değiştirmeden taşımasını sağlar. Kasıtlı olarak minimalist başlık, hizalama dolgusu veya isteğe bağlı yığınlardan kaçınarak formatı C, Python veya MATLAB'da birkaç satır i̇kili G/Ç ile okumayı kolaylaştırır. HTK'nın kalıcı önemini destekleyen üç avantaj: HTK eğitim ve tanıma hattıyla sıkı entegrasyon, ayrıştırıcı belirsizliğini ortadan kaldıran deterministik bayt düzeni ve akademik veri derlemlerinde yaygın benimseme.
İlk yayın: 1993

Sık Sorulan Sorular

AV1'i neden HTK'ya dönüştürmelisiniz?

HTK, konuşma tanıma araştırması ve akustik model eğitimi için Hidden Markov Model Toolkit tarafından kullanılan ses formatıdır.

HTK dosyalarını ne açar?

HTK araç seti, Kaldi ve akademik konuşma işleme araçları araştırma ve analiz için HTK format sesini destekler.

HTK üretimde kullanılır mı?

HTK öncelikle konuşma tanıma için akademik ve araştırma formatıdır. Üretim sistemleri genellikle WAV veya PCM girişi kullanır.

HTK için hangi kalite gerekli?

HTK konuşma araştırması tipik olarak 16 kHz mono ses kullanır — konuşma tanıma eğitim verileri için standart.

Hizmet güvenli mi?

AV1 yüklemeleri hemen silinir. HTK çıktıları 24 saat içinde sunucularımızdan kaldırılır.