ตัวแปลง FLAC เป็น HTK

สร้างเสียงพูด HTK จากไฟล์ FLAC แบบไม่สูญเสียคุณภาพ

วางไฟล์ต่างๆ​ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ
ไปยัง
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

ข้อมูลฝึกที่ดีที่สุด

FLAC แบบไม่สูญเสียคุณภาพให้การฝึกโมเดล ASR ด้วยอินพุต HTK ที่สะอาดที่สุด

รูปแบบวิจัย

HTK เป็นมาตรฐานสำหรับ HMM speech recognition — สร้างจากต้นฉบับ FLAC

ประมวลผล Corpus

แปลงชุดข้อมูลเสียงพูด FLAC ทั้งหมดเป็น HTK พร้อมกัน

วิธีแปลง FLAC เป็น HTK

1

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

2

เลือกรูปแบบไฟล์ htk หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

3

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ htk ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

FLAC (Free Lossless Audio Codec) ส่งมอบการสร้างเสียงที่สมบูรณ์แบบทางคณิตศาสตร์ที่ขนาดประมาณครึ่งหนึ่งของไฟล์ WAV แบบไม่บีบอัด ดูแลโดย Xiph.Org Foundation และเผยแพร่ในปี 2001 จึงกลายเป็นมาตรฐานเปิดที่ใช้กันทั่วไปสำหรับการจัดเก็บเพลงแบบไม่สูญเสียข้อมูลอย่างรวดเร็ว ตัวเข้ารหัสใช้ linear prediction เพื่อสร้างแบบจำลองแต่ละบล็อกเสียง จากนั้นเข้ารหัสค่าเศษเหลือผ่าน Rice partitioning — ใช้ประโยชน์จากการกระจายทางสถิติของข้อผิดพลาดในการทำนายเพื่อการบีบอัดที่แข็งแกร่งโดยไม่ทิ้งข้อมูล รองรับความลึกบิตสูงสุด 32 และอัตราสุ่มตัวอย่างสูงสุด 655 kHz เกินความต้องการของการบันทึกความละเอียดสูง การรองรับฮาร์ดแวร์มีอย่างกว้างขวาง: สมาร์ทโฟน สเตอริโอรถยนต์ เครื่องเล่น Blu-ray และแอปพลิเคชันสื่อเดสก์ท็อปแทบทุกตัวถอดรหัส FLAC ได้โดยตรง บริการสตรีมมิ่ง เช่น Tidal และ Amazon Music ใช้ FLAC สำหรับระดับไม่สูญเสียข้อมูล ตอกย้ำความไว้วางใจจากอุตสาหกรรมในตัวแปลงสัญญาณนี้ ข้อดีสามประการทำให้ FLAC น่าสนใจ ประการแรก การกู้คืนสัญญาณต้นฉบับ bit-for-bit อย่างสมบูรณ์เมื่อถอดรหัส ประการที่สอง เมตาดาต้าแบบฝังผ่าน Vorbis comments และภาพอัลบั้มช่วยจัดระเบียบคลังเพลงโดยไม่ต้องมีไฟล์ข้างเคียง ประการที่สาม ใบอนุญาตแบบโอเพนซอร์สหมายความว่าไม่มีสิทธิบัตรหรือค่าลิขสิทธิ์ ลดความขัดแย้งทางกฎหมายสำหรับนักพัฒนาและผู้ผลิตฮาร์ดแวร์
ผู้พัฒนา: Xiph.Org Foundation
เผยแพร่ครั้งแรก: 20 กรกฎาคม 2001
HTK เป็นคอนเทนเนอร์รูปคลื่นดั้งเดิมของ Hidden Markov Model Toolkit ชุดซอฟต์แวร์ที่พัฒนาที่ภาควิชาวิศวกรรมของมหาวิทยาลัยเคมบริดจ์สำหรับการวิจัยด้านการรู้จำเสียงพูด เผยแพร่ครั้งแรกในปี 1993 HTK กลายเป็นแพลตฟอร์มอ้างอิงในห้องปฏิบัติการภาษาศาสตร์คอมพิวเตอร์ทั่วโลกอย่างรวดเร็ว และรูปแบบไฟล์ก็ได้รับความนิยมตามไปด้วย แต่ละไฟล์เก็บลำดับเวกเตอร์พารามิเตอร์หรือตัวอย่างดิบนำหน้าด้วยส่วนหัว 12 ไบต์ที่ระบุจำนวนเฟรม คาบเฟรมในหน่วย 100 ns จำนวนไบต์ต่อเฟรม และรหัสประเภทที่ระบุชนิดข้อมูล — ตัวเลือกมีตั้งแต่ waveform PCM ไปจนถึง Mel-frequency cepstral coefficients และพลังงาน filter-bank ความอเนกประสงค์นี้ช่วยให้คอนเทนเนอร์เดียวบรรจุทั้งเสียงต้นทางและคุณลักษณะที่สกัดออกมาโดยไม่ต้องเปลี่ยนตัวแยกวิเคราะห์ ส่วนหัวที่เรียบง่ายอย่างจงใจหลีกเลี่ยง alignment padding หรือ optional chunks ทำให้อ่านรูปแบบจาก C, Python หรือ MATLAB ได้ง่ายด้วยโค้ดไบนารี I/O เพียงไม่กี่บรรทัด ข้อดีสามประการที่สนับสนุนความเกี่ยวข้องอย่างต่อเนื่องของ HTK: การผสานรวมอย่างแน่นแฟ้นกับไปป์ไลน์ฝึกอบรมและรู้จำของ HTK เลย์เอาต์ไบต์ที่แน่นอนซึ่งขจัดความคลุมเครือของตัวแยกวิเคราะห์ และการนำไปใช้อย่างแพร่หลายในคอร์ปัสทางวิชาการ
เผยแพร่ครั้งแรก: 1993

คำถามที่พบบ่อย

ทำไมต้องแปลง FLAC เป็น HTK?

รูปแบบ HTK จำเป็นสำหรับการฝึก HMM speech recognition ต้นฉบับ FLAC แบบไม่สูญเสียคุณภาพช่วยให้ได้อินพุตที่สะอาดที่สุดสำหรับการสร้างโมเดล

อะไรใช้ HTK?

ชุดเครื่องมือ Cambridge HTK, Kaldi และไปป์ไลน์วิจัยการรู้จำเสียงพูดใช้เสียงรูปแบบ HTK

FLAC ปรับปรุงการฝึก ASR ได้ไหม?

ใช่ — ต้นฉบับแบบไม่สูญเสียคุณภาพสร้างอินพุต HTK ที่สะอาดกว่า อาจปรับปรุงความแม่นยำของโมเดลเสียงพูด

ควรใช้อัตราการสุ่มตัวอย่างเท่าไร?

งาน ASR ส่วนใหญ่ใช้ 8 หรือ 16 kHz mono — รีแซมเปิลอัตโนมัติระหว่างการแปลง

แปลงชุดข้อมูลได้ไหม?

อัปโหลดคลังเสียงพูด FLAC ทั้งหมดและแปลงเป็น HTK ในชุดเดียว

FLAC ถึง HTK คะแนนคุณภาพ

4.0 (2 คะแนน)
คุณต้องแปลงและดาวน์โหลดไฟล์อย่างน้อย 1 ไฟล์เพื่อให้ข้อเสนอแนะ!