
فناوری Audioscenic Amphi صدای با ابعاد بالا با هوش مصنوعی
این مقاله مفهوم صدای سه بعدی دو گوشی و بازتولید آن از طریق بلندگوها را تشریح می کند.
در این مقاله به مزیت های فناوری توسعه یافته توسط Audioscenic می پردازیم و این صدای سه بعدی را در مقایسه با سایر فناوری های صدای سه بعدی شرح خواهیم داد، پس تا پایان این مقاله با ما باشید.
Audioscenic یک فناوری است که بازتولید صدا را توسعه داده است و امکان تنظیم بلادرنگ سیستمهای صوتی را فراهم میکند و توانایی موثر و طبیعی برای شنیدن سه بعدی بدون نیاز به محدود شدن شنونده در یک نقطه شیرین خاص را فراهم میکند.
پیشنهاد ویژه:
« اولین و کاملترین دوره آموزشی نرم افزار اودئون ODEON برای طراحی آکوستیک »
ثبت نام دوره آموزشی نرم افزار اودئون ODEON
شنیدن به صورت سه بعدی
سیستم شنوایی انسان به ما این امکان را می دهد که مکان منابع صوتی را با دقت استثنایی تعیین کنیم: بالا، پایین، جلو و پشت. توانایی شنوایی سه بعدی یکی از ویژگی های قابل توجه ادراک شنوایی انسان است.
شنوایی 360 درجه در طول تکامل انسان توسعه یافته است، ما را قادر می سازد تا از تهدیدات در امان بمانیم و در محیط های صوتی پیچیده ارتباط برقرار کنیم.
وقتی امواج صوتی به سر ما میرسند، هم با حضور خود سر و هم با شکل گوشهای بیرونی (پینه) تغییر میکنند. این تغییرات فیزیکی به عنوان نشانه های محلی سازی صدا توسط مغز تعبیر می شوند و به ما این امکان را می دهند که موقعیت مکانی را به هر صدایی که می شنویم مرتبط کنیم.
دو نشانه صوتی اولیه به همراه نشانه های ثانویه اضافی وجود دارد که شنوایی سه بعدی را فعال می کند. نشانههای اولیه صدا عبارتند از: اختلاف زمانی صدای رسیده به هر گوش (ITD) که از این جا به بعد آنرا تفاوت زمانی بین شنوایی و اختلاف تراز صدای رسیده به هر گوش (ILD) که در ادامه این مقاله این را هم تفاوت سطح بین شنوایی خواهیم گفت.
پس تفاوت زمانی بین شنوایی (ITD) به تفاوت زمان رسیدن موج صوتی بین گوش چپ و راست اشاره دارد.
این در شکل 1 نشان داده شده است – یک جبهه موج ورودی در زمان های مختلف به گوش چپ و راست می رسد، مگر اینکه منبع صدا در محور تقارن بین آنها قرار گیرد.
اثر مشابهی با تفاوت سطح بین شنوایی (ILD) رخ می دهد. بسته به موقعیت منبع صدا، یک جبهه موج تحت تأثیر پراش ناشی از سر انسان قرار می گیرد و با انرژی بیشتری در یک گوش نسبت به گوش دیگر صدا می کند.
پیشنهاد ویژه:
دوره آموزش ماژول آکوستیک ساختمانی نرم افزار کامسول
ثبت نام دوره آموزشی نرم افزار کامسول

اما چگونه میتوانیم محل صداها را مستقیماً در بالا یا پشت خود تشخیص دهیم؟
پاسخ در نشانه های صوتی ثانویه است که توسط فرم نامتقارن پینه و ساختار داخلی آن ارائه می شود.
این اشکال تشریحی پیچیده در فرکانسهای مختلف به روشی وابسته به جهت طنین انداز میشوند و طیف امواج صوتی را قبل از رسیدن به غشای تمپان تغییر میدهند.
نتیجه این است که هر جهت منحصر به فرد صدا با اثر انگشت طیفی مرتبط است.
اثر انگشت طیفی معمولاً به عنوان عملکردهای انتقال مرتبط با سر انسان (HRTFs) شناخته می شوند، عملکردهای انتقال بین منبع در یک موقعیت سه بعدی مشخص و گوش ما به عنوان (HRTFs) head-related transfer functions نامگذاری شده اند.
شکل دو HRTF در شکل 2 برای دو منبع صدا در صفحه افقی در 0 درجه (رو به شنونده) و 30 درجه (جانبی به شنونده) نشان داده شده است. همانطور که در شکل 2 نشان داده شده است، دو تابع انتقال برای منبع در 0 درجه تقریباً یکسان هستند (به جز برخی از تفاوت های معرفی شده در فرآیند اندازه گیری).
با این حال، عملکردهای انتقال منبع در 30 درجه تا حد زیادی بین هر دو گوش متفاوت است. این تفاوت ها (یا فقدان آنها) به مغز ما اجازه می دهد صداها را در فضای سه بعدی بومی سازی کند.

اثر این نشانهها توسط تکنیکهای ضبط دوگوشی مورد استفاده قرار میگیرد. در ضبط دو گوشی، از دو میکروفون برای شبیه سازی گوش ما استفاده می شود.
هنگامی که یک ضبط دوگوشی از طریق هدفون گوش داده می شود، شنونده احساس می کند که به صورت صوتی در محلی که ضبط انجام شده است غوطه ور شده است.
تکنیکهای ضبط دوگوشی [1] بهویژه برای تولیدکنندگان محتوا مانند پادکستهای ASMR به طور فزایندهای رایج شده اند و شرکتهایی مانند SonicPresence و 3Dio اکنون میکروفونهای دوگوشی را با قیمت مقرونبهصرفه برای مصرفکنندگان عرضه میکنند.
فیلتر کردن با بانک های HRTF به استانداردی برای سنتز صدای سه بعدی تبدیل شده است و به طور گسترده توسط صنایع صدای سه بعدی و واقعیت مجازی (VR) استفاده می شود.
علاوه بر این، فیلتر کردن با HRTF امکان تبدیل هر فرمت فراگیر موجود (از استریو به 22.2) را با ایجاد منابع صوتی مجازی بوجود آورده است. این امکان سازگاری کامل به جلو و عقب با فرمت های صوتی فضایی گذشته و آینده را فراهم می کند.
اصول مشابهی نیز توسط فرمتهای صوتی مبتنی بر شی مانند Dolby Atmos، Windows Sonic و DTS Headphone:X اتخاذ شده است – که همگی کدگذاری دوگوشی را برای محتوای مبتنی بر کانال در هنگام پخش بر روی پلتفرمهای رایانه شخصی فراهم میکنند. اما، آیا می توانیم صدای دو گوشی را بدون هدفون تجربه کنیم؟
صدای سه بعدی با بلندگو
بازتولید صدای سهبعدی دو گوشی با بلندگوها، که معمولاً به عنوان لغو تداخل نیز شناخته میشود، برای اولین بار در سال 1962 توسط بیشنو آتال و مانفرد شرودر [2]، همزمان با تلاشهای اولیه ضبط دو گوش، مورد بررسی قرار گرفت.
از آن زمان و به موازات پیشرفتها در پردازش سیگنال دیجیتال، حوزه صدای سهبعدی با بلندگوها تا حد زیادی از طریق تلاشهای دانشمندان، علاقهمندان به صدای سهبعدی و شرکتهای نوآوری که راهحلهایی را برای ارائه صدای دوگوشی از طریق بلندگوها توسعه دادهاند، تکامل یافته است [3] .
جلوه سه بعدی صدای دوگوشی با تغذیه مستقل کانال های چپ و راست سیگنال دو گوش، بدون تغییر، به گوش چپ و راست به طور مستقل به دست می آید.
این به طور بومی روی هدفون تضمین شده است. با این حال، هنگامی که از طریق بلندگوها پخش می شود، نه تنها هر کانال به هر دو گوش می رسد، بلکه توسط HRTF های اضافی بین هر گوش و بلندگو نیز رنگ آمیزی می شود – این به عنوان crosstalk شناخته می شود.
اصطلاح لغو تداخل به لغو تداخلی اشاره دارد که هنگام تلاش برای بازتولید سیگنال دوگوشی با بلندگوها رخ می دهد. این پدیده در شکل 3 نشان داده شده است. این به طور قابل توجهی یک سیگنال دوگوشی بازتولید شده را مخدوش می کند و درک نشانه های دوگوشی سه بعدی را همانطور که در ابتدا در نظر گرفته شده بود غیرممکن می کند.
پیشنهاد ویژه:
« اولین و کاملترین دوره آموزشی نرم افزار اودئون ODEON برای طراحی آکوستیک »
ثبت نام دوره آموزشی نرم افزار اودئون ODEON

طرح لغو تداخل، که در شکل 4 نشان داده شده است، شامل مجموعهای از بلوکهای فیلتر دیجیتال است که سیگنالهای ورودی بلندگو را تغییر میدهند تا HRTF گوش چپ به طور تمیز به گوش چپ و HRTF گوش راست به طور تمیز به گوش راست تحویل داده شود. .
در حالت ایدهآل، همان طیف فرکانس جانبی باید مسطح و نزدیک به واحد باشد، در حالی که برای طیف جانبی متناوب باید به میزان قابل توجهی انرژی کاهش یابد.
این امر جداسازی کانال بین گوشها، بازتولید واضح سیگنال دو گوش را تضمین میکند – بهطور دقیق نشانههای محلیسازی لازم را همانطور که در ابتدا توسط سازنده محتوا در نظر گرفته شده است، ارائه میکند.
به عبارت دیگر، یک سیستم لغو تداخل موثر “هدفون مجازی” را در گوش شنونده ایجاد می کند تا مجموعه ای از سیگنال های دوگوشی به طور تمیز و بدون اعوجاج ارائه شوند.
با استفاده از چنین طرحی، امکان بازتولید صدای دو گوش با بلندگوها وجود دارد. این اثر را می توان در نمودار شکل 4 مشاهده کرد.

اگرچه سیستمهای لغو تداخل میتوانند صدای سهبعدی طبیعی را با بلندگوها ارائه کنند، اما یک مشکل ذاتی وجود دارد: کامل بودن صدای سهبعدی تنها در صورتی درک میشود که شنونده در یک مکان دقیق یا “نقطه شیرین” قرار گرفته باشد.
دقیقا این همان محدودیتی است که فناوری آمفی برای مقابله با آن استفاده می شود و فناوری آمفی برای غلبه بر این محدودیت طراحی شده است و صدای سه بعدی با بلندگوها را در سناریوهای شنیداری معمولی و روزمره قابل دستیابی می کند.
فعال کردن صدای سه بعدی در دستگاه های روزمره
برنامهها برای صدای سهبعدی روی بلندگوها به دلیل مشکل باریک نقطه شیرین محدود شدهاند: شنونده فقط میتواند سهبعدی با وفاداری بالا را در یک موقعیت ثابت دقیقاً در مقابل بلندگوها تجربه کند.
اگر شنونده حتی به اندازه 5 سانتی متر از نقطه شیرین تعیین شده منحرف شود، درک نشانه های فضایی به طور چشمگیری کاهش می یابد، همانطور که در شکل 5 نشان داده شده است.
از آنجایی که بینندگان و شنوندگان به طور طبیعی در طول زمان موقعیت خود را تغییر می دهند، یک نقطه شیرین که گسترده و سازگار باشد مورد نیاز است.
Audioscenic Amphi فناوری صدای سه بعدی سازگار با موقعیت شنونده است [4].
پیشنهاد ویژه:
دوره آموزش ماژول آکوستیک ساختمانی نرم افزار کامسول
ثبت نام دوره آموزشی نرم افزار کامسول

حسگر موقعیت شنونده در هسته آمفی سیستم سنجش موقعیت شنونده مبتنی بر یادگیری ماشین (ML) قرار دارد.
با استفاده از یک دوربین داخلی یا حسگر ردیابی، Amphi به طور مداوم موقعیت گوش شنونده را نسبت به دستگاه صوتی از طریق فناوری ردیابی سر تشخیص می دهد.
سیستم سنجش موقعیت مبتنی بر ML فقط مجموعهای از نشانههای داده موقعیت را میگیرد، همانطور که در شکل 6 نشان داده شده است.
Amphi ویدئو، تصاویر یا اطلاعات کاربر را ذخیره نمیکند. هنگامی که شنونده یک تنظیم موقعیت را انجام می دهد، داده های بلادرنگ از طریق یک پردازشگر صوتی بر مبنای شبکه عصبی منتقل می شوند.
دادههای پردازش شده، پرتوهای صوتی لغو تداخل را قادر میسازد همانطور که در شکل 7 نشان داده شده است فوراً کاربر را دنبال کنند.
با تطبیق موقعیت، نشانههای صوتی دوگوشی با حداکثر کارایی به گوش شنونده تحویل داده میشوند و اطمینان حاصل میکنند که شنونده همیشه بهترین تجربه صوتی فضایی را دریافت میکند.


ما میتوانیم قابلیتهای تطبیقی نقطه شیرین فناوری Amphi را با نگاه کردن به طیف لغو تداخل با موقعیت نشان دهیم.
طیف لغو تداخل تابع انتقال فشار همان گوش کناری تقسیم بر تابع انتقال فشار گوش مقابل است. هرچه طیف لغو تداخل بیشتر باشد، کانالهای دو گوش چپ و راست به طور مستقل به هر گوش تحویل داده میشوند و در نتیجه عملکرد بهتر سیستم لغو تداخل را شاهد خواهیم بود.
یک مثال در شکل 8 برای شنونده ای که 15± درجه در مقابل آرایه بلندگو حرکت می کند نشان داده شده است.
شکل 8 نشان می دهد که سیستم غیرتطبیقی فقط می تواند مقدار قابل توجهی از لغو تداخل را در موقعیت های بین 4± درجه ارائه دهد. تغییرات زیادی از فشار صوتی فراتر از این موقعیت ها در امتداد محور افقی رخ می دهد.
از سوی دیگر، الگوریتمهای آمفی امکان بازتولید بدون نقطه شیرین را فراهم میکنند و همان لغو تداخل را در محدوده 15± درجه اندازهگیری شده در این مثال (طیف ثابت در سراسر محور افقی) به دست میآورند. هیچ محدودیت نظری برای محدوده سازگاری برای فناوری Audioscenic Amphi وجود ندارد.
پیشنهاد ویژه:
« اولین و کاملترین دوره آموزشی نرم افزار اودئون ODEON برای طراحی آکوستیک »
ثبت نام دوره آموزشی نرم افزار اودئون ODEON


افزایش عملکرد و طبیعی بودن صدای سه بعدی
وقتی سیستم صوتی فضایی نشانههای فیزیکی را همانطور که در محیطهای واقعی درک میشوند، تکرار میکند، بازتولید صدای سهبعدی دقیق به بهترین شکل ممکن به دست میآید. این مورد برای بازتولید صدای دو گوش از طریق هدفون و از طریق سیستم های لغو تداخل است.
برای نشان دادن این موضوع، Audioscenic یک آزمایش رفتاری روان آکوستیک انجام داد که در آن عملکرد ذهنی یک نوار صوتی مجهز به آمفی با سه روش بازتولید صوتی فضایی مقایسه شد:
سیستم 5.1، هدفون، و نوار صوتی مجهز به آمفی . این آزمایش در مجموع برای 15 شنونده اجرا شد. برای آزمایش، نمونههای مختلفی از محتوای همهجانبه استفاده شده است:
“Ninja Theory Hellblade”، یک بازی ویدیویی با صدای سهبعدی دو گوشی
«Unbroken»، یک تریلر Dolby 7.1 با صحنه نبرد هوایی جنگ جهانی دوم
«Overwatch» یک بازی ویدیویی با صدای 7.1
“Rainforest”، ضبط دو گوش از یک جنگل استوایی
برای تجزیه و تحلیل سیستمهای مختلف بازتولید صوتی فضایی، یک آزمون ترجیح ویژگی انجام شد، که در آن از آزمایشکنندگان در مورد ویژگیهای فضایی مختلف پرسیده شد:
عرض افقی، غوطهوری، عمق میدان و واقعگرایی. نتایج آزمایش در شکل 9 نشان داده شده است.
می توان مشاهده کرد که نوار صوتی فعال شده با آمفی در مقایسه با سایر سیستم ها برای هر یک از ویژگی ها و به طور کلی ترجیح داده شده است.

Figure 9: Subjective preference for various spatial attributes: (a) Horizontal Width, (b) Immersion Evelopment, (c) Depth of Field, and (d) Realism over four different spatial audio reproduction systems soundbar with Amphi technology (blue line), headphones (green line), conventional gaming soundbar (orange line), and a 5.1 home theater setup (red line).
تنظیم بر اساس نیازها
در تئوری، لغو تطابق تطبیقی تک شنونده می تواند با استفاده از یک سیستم بلندگوی استریو ارائه شود. با این حال، تحقیقات و مطالعات تجربی نشان داده است که استفاده از بیش از دو بلندگو مزایای بسیاری را به همراه دارد.
افزایش وفاداری و کیفیت صدا: استفاده از بیش از دو بلندگو امکان کنترل بهتر راندمان تابش آرایه بلندگو را در سراسر باندهای فرکانسی فراهم می کند. این بدان معنی است که یک آرایه بلندگو می تواند پاسخ فرکانسی یکنواخت تر و طیف لغو تداخل گسترده تری را در مقایسه با سیستمی که فقط از دو بلندگو استفاده می کند، تولید کند [5].
کاهش اثرات اتاق و انعکاس: استفاده از بیش از دو بلندگو، مجموع قدرت تابشی یک آرایه بلندگو را کاهش میدهد و بنابراین تأثیر بازتاب و طنین اتاق را به حداقل میرساند. این برای دستیابی به یک تجربه بهینه مهم است، زیرا بازتاب های قوی کیفیت درک شده سیستم لغو تداخل را کاهش می دهد [6].
فناوری Amphi برای کار با آرایه های بلندگوهای مختلف قابل تنظیم است. به عنوان مثال، در شکل 10 یک نمونه اولیه نوار صوتی بازی Audioscenic و یک سیستم مرجع استودیوی Audioscenic نشان داده شده است و هر دو سیستم از الگوریتم های هسته آمفی یکسانی استفاده می کنند.
پیشنهاد ویژه:
دوره آموزش ماژول آکوستیک ساختمانی نرم افزار کامسول
ثبت نام دوره آموزشی نرم افزار کامسول

راه حل آمفی صوتی
هدف Audioscenic این است که تولیدکنندگان محصولات صوتی را قادر سازد از فناوری Amfi استفاده کنند تا حداکثر و واقعی ترین تجربه صدای سه بعدی را به محصولات خود ارائه دهند. برای این منظور، Audioscenic با یک بسته نرم افزاری صوتی فضایی کامل برای بلندگوها و هدفون ها، راه حل Amphi را توسعه داده است.
راه حل Amphi هسته نرم افزار صدای سه بعدی سازگار با موقعیت Audioscenic است. مجموعهای از کتابخانههای نرمافزاری است که در سیستمعامل ویندوز و دستگاههای تعبیهشده اجرا میشوند و امکان استفاده آسان از فناوریهای صوتی Audioscenic، سنجش موقعیت شنونده و ردیابی سر را در سیستمهای پردازنده رایج فراهم میکنند.
راه حل Amphi شامل نرم افزار سنجش موقعیت شنونده است که می تواند با هر سیستم ردیابی سر مبتنی بر دید کامپیوتری یا پوشیدنی کار کند.
علاوه بر این، سوئیت دارای کانولورهای قابل تنظیم برای انتخاب منبع HRTF و عملکردهای DSP صوتی (برابرسازی، تقویت باس مجازی، و کنترلهای دینامیک) است تا یکپارچهسازی آسان و کیفیت صدای بهینهشده را برای محصولات تولیدکنندگان فراهم کند.
برای محصولات سیستم عامل ویندوز، رابط کاربری نهایی Amphi Settings Application برای ارائه کنترل کاربر برای تنظیماتی مانند حالتهای رندر صدا، EQ و کنترل سنجش موقعیت شنونده در دسترس است.
مزایای فناوری Audioscenic Amfi
برای تولیدکنندگان، فناوری Amphi به معنای توانایی حذف محدودیت نقطه شیرین، فعال کردن صدای سه بعدی در موارد استفاده روزمره، از لپتاپها و نمایشگرهای بازی گرفته تا نوارهای صوتی و صدای تلویزیون است.
از آنجایی که کاربران شروع به آشنایی با صدای فضایی در هدفون کردهاند، توانایی فعال کردن تجربهای مشابه بدون هدفون، در پیکربندی ساده بلندگو، از نقطه نظر تجاری موضوعی کاملا روشن است.
البته، فناوری Amphi برای کار با آرایههای بلندگو مناسبتر است. در مقایسه با بلندگوهای استریو یا سیستمهای فراگیر چند کاناله، آرایههای بلندگو صدای سهبعدی بهتری ارائه میکنند و از لغو کامل تداخل در کل محدوده فرکانس اطمینان میدهند. آرایه های بلندگو همچنین در برابر تأثیر بازتاب هایی که در یک محیط معمولی اتاق مشاهده می شود، قوی تر هستند.
اما فناوری Amphi میتواند با آرایهها با استفاده از هر تعداد بلندگو کار کند و امکان سفارشیسازی زیادی برای برنامهها و نیازهای مختلف را فراهم میکند (شکل 11). مهمتر از آن، فناوری Amphi را می توان با هر سیستم ردیابی سر استفاده کرد و می توان از آن در نرم افزارهای در حال اجرا در سیستم عامل ویندوز یا پردازنده های تعبیه شده استفاده کرد.
پیشنهاد ویژه:
« اولین و کاملترین دوره آموزشی نرم افزار اودئون ODEON برای طراحی آکوستیک »
ثبت نام دوره آموزشی نرم افزار اودئون ODEON

References
[1] “Hear New York City in 3D audio,” YouTube, www.youtube.com/watch?v=Yd5i7TlpzCk
[2] B. S. Atal and M. R. Schroeder, “Apparent sound source translator,” Patent, February 22, 1966, US Patent 3,236,949 https://patents.google.com/patent/US3236949
[3] J. Bennett, “Binaurality and stereophony in 60s/70s pop,” Joe Bennett Music Services, June 2017
https://joebennett.net/2017/06/30/binaurality-and-stereophony-in-60s70s-pop-iaspm2017
[4] “Audioscenic Technology Explainer,” YouTube https://youtu.be/NQ_9nyDuygU?feature=shared
[5] M. Simón, C. Berkeley, E. Hamdan, and F. M. Fazi, “A Robustness Study for Low-Channel-Count Cross-Talk Cancellation Systems,” Audio Engineering Society Conference: 2019 AES International Conference on Immersive and Interactive Audio, March 2019
[6] M. Simón, M. Blanco Galindo, and F. M. Fazi, “A study on the effect of reflections and reverberation for low-channel-count Transaural systems,” Proceedings of Internoise 2019, Madrid, Spain, 2019.
Resources
B. Bernschütz, “A Spherical Far Field HRIR/HRTF Compilation of the Neumann KU 100,” in AIA-DAGA 2013 Conference on Acoustics, 2013.
Dolby Laboratories, https://professional.dolby.com/categories/pc
DTS, “DTS Headphone X,” https://dts.com/anywhere
Predator Spatial Labs View 27, Acer Inc.
www.acer.com/gb-en/predator/monitors/spatiallabs-view-27
Razer Leviathan V2 Pro, Razer Inc.
www.razer.com/gb-en/gaming-speakers/razer-leviathan-v2-pro
SonicPresence, https://www.sonicpresence.com