MPEG เป็น NIST ตัวแปลง

สร้างเสียง NIST SPHERE จากไฟล์วิดีโอ MPEG ออนไลน์

วางไฟล์ต่างๆ​ ที่นี่. 1 GB ขนาดไฟล์สูงสุด หรือ ลงชื่อ
ไปยัง
Facebook Amazon Microsoft Tesla Nestle Walmart L'Oreal

ตรงตามมาตรฐาน

เอาต์พุต NIST SPHERE ตรงตามข้อกำหนดของ National Institute of Standards and Technology — เข้ากันได้กับกรอบงานวิจัย ASR หลักทั้งหมด

MPEG เป็น NIST โดยตรง

จากวิดีโอ MPEG สู่เสียงพูด NIST ในขั้นตอนเดียว ไม่ต้องดึงเสียงด้วยตนเองหรือแปลงรูปแบบกลาง

บนเบราว์เซอร์

ไม่ต้องมี SPHERE toolkit หรือ MPEG decoder บนเครื่อง แปลง MPEG เป็น NIST ผ่านเว็บเบราว์เซอร์บนอุปกรณ์หรือแพลตฟอร์มใดก็ได้

วิธีแปลง MPEG เป็น NIST

1

เลือกไฟล์จากคอมพิวเตอร์, Google Drive, Dropbox, URL หรือทำการลากไฟล์มาที่หน้า.

2

เลือกรูปแบบไฟล์ nist หรือรูปแบบไฟล์อื่นตามต้องการเป็นผลลัพธ์(รองรับรูปแบบไฟล์มากกว่า 200 รูปแบบ)

3

ปล่อยให้แปลงไฟล์และคุณสามารถดาวน์โหลดไฟล์ nist ของคุณได้หลังจากนั้น

เกี่ยวกับรูปแบบไฟล์

MPEG (MPEG-1) เป็นมาตรฐานการบีบอัดวิดีโอและเสียงพื้นฐานที่เผยแพร่ในเดือนสิงหาคม 1993 โดย Moving Picture Experts Group ในชื่อ ISO/IEC 11172 เป็นมาตรฐานสากลแรกสำหรับการบีบอัดแบบสูญเสียของภาพเคลื่อนไหวและเสียงประกอบ สร้างหลักการและเทคนิคที่มีอิทธิพลต่อตัวแปลงสัญญาณวิดีโอในยุคต่อมาแทบทั้งหมด วิดีโอ MPEG-1 บีบอัดผ่านการรวมกันของ motion-compensated prediction, discrete cosine transform coding และ variable-length entropy encoding จัดระเบียบรอบเฟรมสามประเภท: I-frames (intra-coded), P-frames (predicted) และ B-frames (bidirectionally predicted) มาตรฐานกำหนดเป้าหมายบิตเรตประมาณ 1.5 Mbps สำหรับเสียงและวิดีโอรวมกัน ให้คุณภาพเทียบเคียงเทป VHS ที่ความละเอียด SIF (352x240 สำหรับ NTSC) ระดับการบีบอัดนี้ถูกเลือกอย่างจำเพาะเพื่อให้ตรงกับปริมาณข้อมูลของไดรฟ์ CD-ROM ความเร็ว 1x ทำให้เกิดรูปแบบ Video CD ที่นำวิดีโอดิจิทัลมาสู่ผู้บริโภคในช่วงต้นทศวรรษ 1990 ส่วนประกอบเสียง โดยเฉพาะ Layer III (MP3) กลายเป็นรูปแบบเสียงที่มีอิทธิพลมากที่สุดในประวัติศาสตร์ โครงสร้างเฟรม I/P/B วิธีการประมาณการเคลื่อนไหว และการเข้ารหัสแปลงแบบบล็อก สร้างแบบแผนสถาปัตยกรรมที่ตัวแปลงสัญญาณวิดีโอหลักทุกตัวในยุคหลังปฏิบัติตาม ตั้งแต่ MPEG-2 จนถึง H.264 และหลังจากนั้น แม้จะถูกแซงหน้าในด้านประสิทธิภาพการบีบอัดมานาน MPEG-1 ยังคงได้รับการรองรับจากซอฟต์แวร์สื่อแทบทั้งหมด
ผู้พัฒนา: Moving Picture Experts Group
เผยแพร่ครั้งแรก: สิงหาคม 1993
NIST SPHERE (SPeech HEader REsources) เป็นรูปแบบไฟล์เสียงเฉพาะทางที่สร้างโดย สถาบันมาตรฐานและเทคโนโลยีแห่งชาติ สำหรับการวิจัยเสียงพูด โดยเฉพาะโปรเจกต์ที่ได้รับทุนจาก DARPA รูปแบบนี้ห่อหุ้มตัวอย่างเสียงดิบด้วยส่วนหัว ASCII ที่มีโครงสร้างซึ่งเข้ารหัสเมตาดาต้า เช่น อัตราสุ่มตัวอย่าง จำนวนแชนเนล ประเภทการเข้ารหัส ข้อมูลประชากรผู้พูด และคำอธิบายการถอดความ — เหมาะอย่างยิ่งสำหรับการเผยแพร่คอร์ปัสเสียงพูด ไฟล์ NIST มักเก็บ PCM แบบไม่บีบอัดหรือเสียง mu-law ที่อัตราสุ่มตัวอย่างคุณภาพโทรศัพท์ (8 kHz หรือ 16 kHz) แม้คอนเทนเนอร์จะยืดหยุ่นพอรองรับการเข้ารหัสหลายแบบ ข้อดีสำคัญคือส่วนหัวแบบบันทึกตัวเองที่หลากหลาย ช่วยให้นักวิจัยฝังเมตาดาต้าคอร์ปัสโดยละเอียดในไฟล์โดยตรง ไม่ต้องมีไฟล์ข้างเคียง SPHERE ยังกลายเป็นมาตรฐานที่ใช้จริงสำหรับฐานข้อมูลเสียงพูดหลัก ๆ เช่น TIMIT, Switchboard และคอร์ปัส Fisher รับประกันการรับรู้อย่างกว้างขวางในห้องปฏิบัติการทั้งด้านวิชาการและภาครัฐ ข้อกำหนดแบบเปิดและเครื่องมือบรรทัดคำสั่งที่มีให้ (sphere, h_strip, w_decode) ทำให้สามารถแปลง ตรวจสอบ และประมวลผลไฟล์เหล่านี้ทางโปรแกรมได้อย่างตรงไปตรงมาในไปป์ไลน์ประมวลผลเสียงพูด
เผยแพร่ครั้งแรก: 1990

คำถามที่พบบ่อย

ทำไมต้องแปลง MPEG เป็น NIST?

NIST SPHERE เป็นรูปแบบมาตรฐานสำหรับเผยแพร่ข้อมูลเสียงพูด บทสนทนาวิดีโอ MPEG กลายเป็นเสียงมาตรฐานสำหรับงานวิจัยจดจำ

NIST กับ SPH ต่างกันอย่างไร?

เป็นรูปแบบเดียวกัน — SPHERE โดย National Institute of Standards and Technology NIST และ SPH เป็นนามสกุลที่ใช้แทนกันได้

NIST รองรับคุณภาพ MPEG หรือไม่?

NIST จัดเก็บ PCM โดยไม่บีบอัด เสียงที่ดึงจาก MPEG ถูกเก็บรักษาในคุณภาพเต็มไม่ว่า MPEG ต้นทางจะเข้ารหัสอย่างไร

เครื่องมือ ASR อะไรยอมรับ NIST?

Kaldi, HTK, กรอบการประเมิน NIST และห้องปฏิบัติการเสียงพูดเชิงวิชาการส่วนใหญ่ทำงานกับเสียง NIST SPHERE เป็นรูปแบบอินพุตมาตรฐาน

การประมวลผลเป็นชุดพร้อมใช้หรือไม่?

ได้ — อัปโหลดวิดีโอ MPEG หลายไฟล์และแปลงเป็น NIST ทั้งหมดพร้อมกัน เหมาะสำหรับสร้างคลังข้อมูลจากคลังวิดีโอ