เมื่องาน CEDIA EXPO 2019 ที่ผ่านมา ด้านหน้าของงานมีการ แจกนิตยสารเกี่ยวกับด้านภาพและเสียงฟรีหลายฉบับ มีบทความหนึ่ง ที่ผมอ่านเจอ เขียนโดย Jon Herron ลงในนิตยสาร Widescreen Review เกี่ยวกับเรื่องของ Immersive Audio แบบต่างๆ และที่มา ที่ไปคร่าวๆ เลยคิดว่าเป็นเรื่องที่น่าสนใจ ในฉบับนี้ผมเลยเอาบทความ เรื่องนี้มาแปลให้ได้อ่านกันดู

พูดถึงเรื่อง Immersive Audio ขึ้นมา หลายคนคงนึกถึงว่าเป็น เรื่องใหม่ที่เพิ่งเข้ามาในวงการบันเทิง ความจริงเรื่องนี้ได้ถูกวิจัยและ พัฒนามาหลายสิบปีแล้ว อย่างที่รู้กันว่า การฟังเพลงแบบ 2 channels ทำให้เราสามารถได้รับฟังเพลงได้ในหลายที่ เวลาไหนก็ได้ เช่นอาจจะ ฟังเพลงที่บันทึกมาจากคอนเสิร์ตออร์เคสตร้าวงใหญ่ หรือ Blue Club แต่ความใฝ่ฝันของคนฟังก็อาจจะอยากได้ความรู้สึกเหมือนกับว่า เมื่อ

 ปิดตาลงแล้วมีอารมณ์ความรู้สึกเหมือนได้ไปอยู่ตรงนั้นจริงๆ ซึ่งการ จำลองเสียงแบบนี้โดยใช้ลำโพงแค่สองตัวอาจจะยังมีข้อจำกัดอยู่ จึงทำให้ นักวิจัยหลายท่านพยายามพัฒนาในเรื่องของ Immersive Audio เพื่อให้จำลองเสียงได้เหมือนจริงมากขึ้น เริ่มจาก Michael Gerzon ได้ เคยตีพิมพ์บทความเรื่อง “Ambisonics” ในปี ค.ศ. 1978 โดยในยุคนั้น เขาไม่ได้ใช้ลำโพงแค่ตัวเดียว แชนเนลเดียว แต่ใช้การบันทึกเสียง Sound Field และสร้างมันขึ้นมาโดยอาศัย speaker array ของลำโพง ที่มีจำนวนมากขึ้นจำลองมันขึ้นมาเพื่อให้ผู้ฟังสามารถแยกแยะและระบุ ตำแหน่งเสียงแต่ละเสียงที่ได้ยิน ต่อมา University of Delft ในประเทศ เนเธอร์แลนด์ ได้พัฒนา “Wave Field Synthesis” ในปี ค.ศ. 1988 โดยใช้ลำโพงที่มีมุมกระจายเสียงกว้าง ทำให้สามารถสร้างสนามเสียง ที่ครอบคลุมตำแหน่งนั่งฟังได้กว้างมากขึ้น โดยคลื่นเสียงที่ได้จะมาจาก หลายทิศทาง ในระยะทางต่างๆ ของระนาบสองมิติ

Michael Gerzon (ขวา) กำลังทดสอบ Sound Field จากลำโพง 4 ตัว
หลักการของ Wave Field Synthesis

ในปี ค.ศ. 2001 นักวิจัยจากประเทศฝรั่งเศส นับได้ว่าเป็นกลุ่มแรก ที่ได้ประสบความสำเร็จในการสร้างรูปแบบสนามเสียง High-spatial Resolution Audio สามมิติ ที่เริ่มตั้งแต่การบันทึก การจัดเก็บ การเอา กลับมาเล่นใหม่ โดยใช้เทคโนโลยีที่เรียกว่า “Ambisonics” และต่อมา นักวิจัยกลุ่มนี้ก็ได้กลายมาเป็นบริษัท Trinnov Audio ในปี ค.ศ. 2003 ปีต่อมา ค.ศ. 2004 ระบบ “IOSONO” ที่ได้พัฒนามาตั้งแต่ปี ค.ศ. 1988 โดย University of Delft ได้ถูกนำมาใช้ในงานโรงภาพยนตร์ และงาน PA เป็นครั้งแรก และในปีเดียวกันนี้ ค.ศ. 2004 โปรเจกต์ที่ชื่อว่า “Caruso Project” ในยุโรปได้มีการพัฒนาแนวคิดของ Object-based Audio โดยอาศัยหลักการในการวิเคราะห์สนามเสียง แล้วทำการเก็บข้อมูล เป็น metadata ในเรื่องของตำแหน่งเสียง ขนาดเสียง เป็นเหมือนวัตถุ ชิ้นหนึ่ง แล้วเวลาเล่นอีกทีก็จะใช้ข้อมูลนี้ render เพื่อให้สามารถเปิด กับลำโพงหลายๆ ตัว (ต่อมา ISONO ก็ได้ถูกซื้อไปโดยบริษัท Barco ในปี ค.ศ. 2014 และก็ได้กลายเป็นส่วนหนึ่งของเทคโนโลยี “AuroMax”)

ในปี ค.ศ. 2005 Mr. Wilfried Van Baelen ได้เปิดตัวระบบ เสียง 3D ขึ้นมาเป็นครั้งแรกที่ชื่อว่าระบบ “Auro” ใน Workshop ที่ มี co-organized สองคน คือ Arnaud Laborie จาก Trinnov และ Kimio Hamazaki จาก NHK ซึ่งในตอนนั้นระบบ Auro ยังใช้ลำโพงเป็น ระบบ 2+2+2 อยู่ ในปี ค.ศ. 2010 ก็มีการพัฒนาจนเป็น Auro-3D ที่ใช้ ลำโพงเป็น 11.1 และ 13.1 channel-based ในโรงภาพยนตร์ และใน ปีเดียวกันนั้นเอง บริษัทใหม่ในสเปนได้พัฒนาระบบ Object-based ที่ชื่อ “IMMSound” เพื่อใช้ในธุรกิจโรงภาพยนตร์ โดยติดตั้งลำโพงเป็นเลย์เอาต์ แบบ 24 channels และได้มีการติดตั้งไปแล้วกว่า 30 โรง

ระบบ IMMSound
รูปแบบของ Dolby Atmos ในโรงภาพยนตร์

ต่อมาในปี ค.ศ. 2012 ทาง IMMSound ก็ได้ถูก ซื้อไปโดยบริษัทเล็กๆ ที่ ชื่อ Dolby Laboratories (ในขณะนั้น) เพื่อนำไป พัฒนาเป็นโปรแกรมที่ชื่อว่า Atmos และระบบ Atmos นี้ก็ได้นำมาใช้ในโรงภาพยนตร์ตลาดผู้บริโภค จริงๆ ในปีถัดมา ซึ่งในปี ค.ศ. 2012 นี่เองเป็นปีที่ DTS ได้บริษัท SRS Labs มาเข้าร่วมเพื่อพัฒนาเทคโนโลยี object based audio ที่ชื่อ “MDA” (Multi Dimensional Audio) และได้เป็นพื้นฐานของระบบ DTS:X ในปัจจุบันนี้ ที่สุดแล้วบริษัทในระบบเสียง Immersive Sound ทั้งสามบริษัทก็ได้มีเทคโนโลยีเป็นของตัวเองเพื่อแข่งขันกัน ได้แก่ Auro Technologies, Dolby Laboratories และ DTS แล้วจะเป็นยังไงบ้าง ติดตามต่อครับ

NATO ที่ไม่ใช่ “North Atlantic Treaty Organization” แต่เป็น กลุ่มที่ชื่อว่า “National Association of Theatre Owners” โดยเป็น กลุ่มที่รวมตัวจากเจ้าของกิจการธุรกิจภาพยนตร์ที่ตอนนี้มีปัญหาใน เรื่องเมื่อมีหนังดังๆ เข้ามาฉายในโรงภาพยนตร์ Multiplex เจ้าของโรง ก็จะพยายามฉายหนังในโรงที่ใหญ่และดี (ราคาสูง) เพื่อที่จะทำรายได้ จากตรงนี้ให้ได้มากที่สุด แต่เมื่อหนังเรื่องลดความร้อนแรงลงก็จะถูก ลงมาฉายในโรงขนาดกลาง จนมาถึงก่อนหนังจะลาโรงออกมาเป็นแผ่น หรือ Streaming ก็จะต้องถูกฉายในโรงขนาดเล็ก ซึ่งในแต่ละโรงก็จะมี ระบบเสียงในแบบต่างกันไป ปัญหาก็คือเจ้าของโรงภาพยนตร์ไม่ได้สนใจ ที่จะทำโรงภาพยนตร์ทุกโรงให้รองรับกับระบบเสียงแบบต่างๆ (Auro, Dolby, DTS) ที่มีจำนวนลำโพง จำนวนแชนเนล แตกต่างกันไป (5.1, 7.1, 30.2, 34.1 หรือแม้กระทั่ง 61.3) เนื่องจากดูไม่สมเหตุสมผล และ การทำแบบนี้ต้องเสียค่าใช้จ่ายเพิ่มขึ้นอีกมหาศาล กำไรจากการฉายหนัง ก็ไม่ได้มากมายเทียบกับค่าอุปกรณ์ที่ราคาแพงทุกตัว ดังนั้น ทาง NATO จึงรวมตัวกันแล้วแจ้งไปทางสตูดิโอใหญ่ๆ ว่าจะสร้างหนัง Immersive Sound ด้วยเครื่องมือแบบไหนที่ชอบหรือแพงขนาดไหนไม่เป็นปัญหา แต่เวลาออกมาก็ควรจะต้องเป็นแบบมาตรฐานสากลที่สามารถ render เอาหนังเรื่องนี้ไปฉายในโรงภาพยนตร์โรงไหนก็ได้ ไม่ว่าโรงเล็ก โรงใหญ่ จะใช้อุปกรณ์อะไรก็สามารถ scale ให้เข้ากับโรงหนังแต่ละขนาดแต่ละ แบบได้

ยังไงก็ตามต้องยอมรับว่าเราก็กำลังอยู่ในช่วงเริ่มแรกของการคิดจะ ทำฟอร์แมตแบบ Object-oriented Audio ให้เป็น open-standard ที่ไม่มีใครเป็นเจ้าของ สามารถเข้ากันได้กับทั้งระบบ Auro, Dolby Atmos และ DTS:X Pro (เป็นรุ่นที่ใช้ในโรงภาพยนตร์ของ DTS:X ที่สามารถ render ขึ้นไปถึง 30.2 channels ได้) ปัญหาก็คือว่าคงไม่ง่าย ที่จะให้แต่ละระบบมานั่งประชุมด้วยกัน และยอมทำตามในข้อตกลง ทุกเรื่อง แต่ก็ยังดีหน่อยที่มีกลุ่มอื่นอีกสนับสนุนแนวคิดนี้ ได้แก่ขาใหญ่ อีกกลุ่ม คือ DCI (Digital Cinema Initiative) ที่มีสมาชิกประกอบไปด้วย Disney, Fox, Paramount, Sony Pictures, Universal และ Warner Brothers เรียกได้ว่า 99% ของ content ที่เราดูอยู่ก็มาจากกลุ่ม DCI นี้ ก็นับได้ว่าเป็นนิมิตหมายอันดีที่จะทำให้เกิดความเข้ากันได้ของ Immer­sive Sound ทั้งหมด แต่ก็อย่างที่บอกว่า ตอนนี้ยังเป็นช่วงเริ่มต้นอยู่ ก็คงต้องใช้เวลาอีกนานกว่าจะทำให้เกิดขึ้นได้ ช่วงที่เราอยู่ปีปัจจุบัน ก็คงยังไม่เกิดขึ้นแน่ ดังนั้น เราก็ยังต้องทำการ decode และ render รูปแบบเสียง Immersive Sound ให้เป็นระบบที่ใช้กันอยู่ในปัจจุบันไปก่อน คราวนี้ลองมาดูแบบละเอียดมากขึ้นว่า Immersive Audio formats แต่ละแบบมีอะไรบ้าง

Auro-3D

Auro เป็นระบบแบบ channel-based ลำโพงแต่ละตัวจะได้รับ สัญญาณข้อมูลแยกกันเหมือนกับที่ mixed ในสตูดิโอเลย มี Bed channels อยู่ 7 channels, Height channels มีอยู่ 5 channels และมี Top channel ที่อยู่เหนือหัวอีก 1 เรียกว่า Voice of God โดยอาศัย หลักการเหมือนกับ stereo ที่ว่า ถ้าต้องการใส่วัตถุอยู่ระหว่างลำโพง ที่อยู่ใกล้กันสองตัวก็จะ mixed ข้อมูลเสียงบางส่วนลงไปยังลำโพงทั้งสอง ให้เกิด Phantom Image ระหว่างลำโพงสองตัวนั้น จุดแข็งของระบบ Auro ก็คือ ความสอดคล้องกันของลำโพง 5 Bed channels ที่อยู่ ด้านหน้า และ Height channels 5 ตัว ที่ทำให้เสียงเวลามีการเคลื่อนที่ ในแนว vertical ระหว่าง layer ทั้งสองชั้นมีความ smooth ไร้รอย ต่อ และทำให้ Sound Engineer ที่มีความคุ้นเคยกับการ mixed แบบ Channel-based Audio ไม่ต้องปรับตัวมากนัก ยกเว้นแค่ว่ามีจำนวน แชนเนลเพิ่มขึ้นมาอีกนิดหน่อย แต่ข้อควรระวังในระบบนี้ก็คือเป็นระบบ ที่มีความไวต่อตำแหน่งลำโพงมาก ถ้าไม่สามารถติดลำโพงได้ในตำแหน่งที่ Auro แนะนำแล้ว ก็อาจจะทำให้เสียงที่ออกมาไม่เป็นไปตามที่ต้องการได้

Dolby Atmos

ระบบ Auro แบบ 13.1

Atmos เป็นรูปแบบเสียงที่ เป็น Object-based โดย Sound Engineer จะเป็นผู้สร้างเสียงขึ้น มาที่บรรจุข้อมูลเกี่ยวข้องกับเสียง สองอย่างที่สำคัญคือ ตำแหน่ง ของเสียงในช่วงเวลาที่กำหนด อีกอย่างหนึ่งคือขนาดของเสียงว่ามีโฟกัสที่เล็กแน่น หรือใหญ่แบบกระจัดกระจาย เช่น เสียงของกระสุนปืน แฉลบอาจจะต้องเล็กแหวกอากาศผ่านหูไป ในขณะที่เสียงฟ้าร้องที่อยู่ ไกลออกไปก็จะต้องให้เสียงที่ยิ่งใหญ่อยู่รอบตัว ซึ่งก็อาจจะต้อง render ให้เสียงออกลำโพงทุกตัวที่อยู่ในห้องฟัง แต่เสียงฟ้าร้องนั้นก็ยังถือว่าเป็น object อย่างเดียว ถึงแม้จะทำให้เสียงออกจากลำโพงหลายตัว

Dolby จะโฟกัสเสียง Atmos ในแนวระนาบให้ถูกต้องมีรายละเอียด โดยใช้ลำโพงที่รองรับสูงสุดใน Home Theater ถึง 24 channels เพื่อทำเสียงนี้ ส่วนในแนวหน้าหลังก็จะใช้ลำโพงจำนวน 5 คู่ที่อยู่ด้านบน เพื่อสร้างเสียงที่วิ่งบนหัวจากด้านหน้าห้องไปยังด้านหลังของห้อง หรือจากด้านหลังห้องมายังด้านหน้าห้อง และก็ยังสามารถ scale เสียงในระบบขนาดใหญ่ 24.1.10 แบบนี้ กลายไปเป็น 5.1.2 ได้ ในห้อง ขนาดเล็ก ซึ่งจะเห็นได้ว่าคงไม่มีทางไหนที่จะสามารถทำให้เสียงออกมา ได้สุดๆ แบบนี้ ถ้าไม่ใช้วิธีแบบ Object-based เพื่อ render เสียงตาม ที่ตั้งใจลงไปยังลำโพงที่ใช้อยู่ในห้อง

การใช้การ mixed แบบให้มี object วิ่งไปมาก็อาจจะทำให้ Audio Engineers ไม่คุ้นเคยเหมือนกับระบบ Channel-base systems ที่เคย ทำมา แต่ระบบแบบ Object-oriented systems ก็มีข้อได้เปรียบที่สามารถ scale ปรับให้ระบบเข้ากับลำโพง layout ที่ใช้อยู่ในห้องได้ หลายรูปแบบ อย่างเช่น ในระบบ 7.1 ที่ระบบเสียงแบบเดิมไม่สามารถ สร้าง object แบบพิเศษที่สามารถวิ่งไปมา สามารถกำหนดขนาดของ object ได้ แต่เมื่อเปลี่ยนใช้ระบบของ Dolby Atmos ก็จะมีการ scale ให้เสียงเข้ากับระบบลำโพง layout แบบเดิมที่เป็น 7.1 เพื่อทำให้เกิด effect ของวัตถุ ทำให้วัตถุสามารถเคลื่อนที่ เปลี่ยนขนาดได้ตามที่ Sound Designer ได้สร้างสรรค์ขึ้นมา

DTS:X DTS:X Pro

layout ลำโพงในระบบ Dolby Atmos
ที่ใช้ภายในบ้านแบบ 24.1.10

DTS:X ระบบพื้นฐานก็เป็น แบบ Object-based เช่นกัน แต่รูปแบบของข้อมูล metadata จะแตกต่างจากของ Dolby Atmos อย่างไรก็ตามผลลัพธ์ของเสียงที่ ออกมาก็ถือได้ว่ามีความใกล้เคียงกัน โดยถ้าเป็น Dolby Atmos จะใช้ระบบการระบุตำแหน่งอ้างอิงตามแกน x/y/z เช่น ตำแหน่งวัตถุต่างๆ ก็จะอ้างอิงจากความยาว ความกว้าง ความสูง ของห้อง แต่ DTS จะใช้วิธีการระบุตำแหน่งโดยใช้ระบบพิกัด เชิงขั้ว (Polar Coordinate System) คือมีการใช้มุมของ azimuth บอกตำแหน่งเทียบกับทิศ ร่วมกับมุมองศาของการยกขึ้นและระยะทาง จากตำแหน่งจุดนั่งฟังหลัก อย่างไรก็ตามข้อมูลพื้นฐานอื่นของ metadata ก็ใช้ใกล้เคียงกับ Atmos คือตำแหน่งขนาดของวัตถุในช่วงเวลา ส่วนจุด แตกต่างหลักอีกอย่างระหว่าง DTS และ Atmos ก็คือ DTS ใช้ layout ลำโพงที่ล้อมรอบตำแหน่งนั่งฟังหลักในระยะห่างเท่าๆ กันรอบๆ ตัวผู้ฟัง นึกถึงภาพเรานั่งเป็นจุดศูนย์กลางแล้วมีลำโพงวางอยู่รอบตัวแล้วทุกตัว หันหน้าเข้ามาหาจุดนั่งฟังนั้น และเช่นเดียวกับ Dolby Atmos ที่มี เวอร์ชั่นสามารถใช้ได้ทั้งในโรงภาพยนตร์ DCI ทั่วไป และใช้ในบ้าน (อาจจะมีข้อจำกัดในเรื่อง bandwidth ของแผ่น Blu-ray Disc) DTS:X ก็มีเวอร์ชั่นที่ใช้ทั้งใน Cinema/Pro และเวอร์ชั่นที่ใช้ภายในบ้าน สำหรับ ระบบ DTS:X Pro ที่พึ่งเปิดตัวไปก็จะเป็นการอัพเกรดจาก DTS:X เดิม ที่ถูกจำกัดอยู่แค่ 11.1 channels ให้สามารถรองรับแชนเนลได้มากขึ้น ไปถึง 30.2 channels เลย

DTS X Pro สามารถรอง รับแชนเนลได้มากถึง 32 channels

IMAX Enhanced

พูดถึงโรง IMAX ทุกคนก็นึกออกว่า คือโรงภาพยนตร์เชิงพาณิชย์ คุณภาพสูงที่มีจอและระบบเสียงขนาดใหญ่ ซึ่งตอนนี้ได้เริ่มกระโดด เข้ามาสู่ระบบ Immersive Sound ภายในบ้านด้วย โดยในฝั่งของระบบ เสียง IMAX Enhanced ได้ร่วมกับทาง DTS พัฒนาเพื่อให้เป็น DTS:X รูปแบบเฉพาะอีกรูปแบบหนึ่ง นำเอาข้อมูลเสียง mixed เพื่อโรง IMAX ที่เป็นระบบลำโพง Full-range 12 channels และไม่มี LFE channel เข้าไปสู่ระบบ Home Theater ภายในบ้าน แต่การนำไปใช้ภายในบ้าน ก็ต้องมีการใช้ Bass management ร่วมด้วย เพราะภายในบ้านคงจะมี ไม่กี่บ้านที่มีลำโพง Full-range อยู่ล้อมรอบตัวทุกแชนเนล โดยเฉพาะ แชนเนลที่อยู่ข้างบนเพดาน ดังนั้น Pre-processor ที่รองรับระบบ IMAX Enhanced ก็จะทำการ bypass ค่า setting ของ Bass Management ที่ ตั้งไว้ให้กับระบบเสียงอื่นเป็น Bass Management ที่ออกแบบมาสำหรับ IMAX Enhanced โดยเฉพาะ เพื่อคงสภาพเสียงที่ออกมาให้เสียงในห้อง Home Theater มีความใกล้เคียงเสียงที่ได้ยินในโรงภาพยนตร์ IMAX

IMAX Enhanced เป็นการนำเอาความบันเทิงในโรง IMAX ย่อเข้ามาสู่ห้อง Home Theater

หูของมนุษย์เราถูกออกแบบมาให้รับเสียงธรรมชาติล้อมรอบตัวแบบ สามมิติ การออกแบบระบบเสียงให้ใกล้เคียงกับเสียงที่มีอยู่ในธรรมชาติ จึงเป็นสิ่งที่ท้าทาย เพื่อให้เวลาฟังเสียงในระบบนั้นแล้วมีความรู้สึก เหมือนกับว่าได้เข้าไปอยู่ร่วมในเหตุการณ์นั้นจริง ดังนั้น ในปัจจุบันจึงมี ระบบเสียงสามมิติที่เรียกว่า Immersive Sound เกิดขึ้นมากมายหลาย ระบบ แต่ละระบบก็มีข้อดีข้อเสีย ข้อกำหนดต่างๆ แตกต่างกันออกไป ซึ่งก็คงต้องมีการพัฒนาต่อไปอีก แต่อย่างที่บอกไว้ว่าตอนนี้ยังเป็นช่วง เริ่มแรกของการพัฒนาเสียง Immersive Sound ในระบบต่างๆ เทคโนโลยีในแต่ละระบบก็ยังไม่นิ่ง และในอนาคตต่อไปการที่จะทำให้ ระบบต่างๆ สามารถใช้ร่วมกันได้ในทุกโรงภาพยนตร์ ในทุกห้อง Home Theater จะเป็นไปได้มากน้อยขนาดไหนก็คงต้องรอลุ้นติดตามกันต่อไป ถ้ามีความคืบหน้าหรือความก้าวหน้าของระบบเสียง Immersive Sound ใหม่ๆ ขึ้นมา ผมก็จะนำมาเสนอให้ท่านผู้อ่านได้ติดตามกันต่อไปเรื่อยๆ เช่นเคยครับผม. VDP

Immersive Sound จะเป็นอย่างไรในอนาคต ต้องคอยติดตามกันต่อไป

นิตยสาร AUDIOPHILE VIDEOPHILE ฉบับที่ 273