
ماسکینگ اطلاعاتی در شنوایی
چرا مشکل درک گفتار فقط «بلندی صدا» نیست؟
در بسیاری از پروژههای آکوستیکی — از طراحی سالنهای اپرا گرفته تا اتاقهای کنترل، کلاسهای درس، استودیوهای پخش زنده یا حتی محیطهای Virtual Production — یک فرض پنهان وجود دارد:
اگر سیگنال به اندازه کافی بلند باشد، فهمیده میشود.
اما تجربه عملی و دادههای آزمایشگاهی نشان میدهد این فرض همیشه درست نیست.
ما اغلب در شرایطی قرار میگیریم که:
- صدا کاملاً قابل شنیدن است،
- نسبت سیگنال به نویز ظاهراً مناسب است،
- همپوشانی طیفی شدید هم وجود ندارد،
اما با این حال، درک گفتار بهشدت مختل میشود.
این پدیده، ماسکینگ اطلاعاتی (Informational Masking) نام دارد — مفهومی که درک آن برای طراحی محیطهای شنیداری مدرن ضروری است.
حالا این سوال که چرا بوق ماشینها نباید حرف بزنند؟
تصور کنید در بزرگراهی شلوغ رانندگی میکنید. همزمان یک پادکست گوش میدهید. ناگهان بوق ماشینها شروع میکنند به صحبت کردن:
- «از چپ سبقت میگیرم»
- «دارم ترمز میکنم»
- «برو کنار!»
در نگاه اول ایده جذابی به نظر میرسد. اطلاعات بیشتر یعنی ایمنی بیشتر… درست است؟
اما علم شنوایی پاسخ متفاوتی میدهد.
این دقیقاً جایی است که پدیدهای به نام Auditory Informational Masking وارد میشود.

پیشنهاد ویژه:
« اولین و کاملترین دوره آموزشی نرم افزار اودئون ODEON برای طراحی آکوستیک »
ثبت نام دوره آموزشی نرم افزار اودئون ODEON
مسأله مهم: Cocktail Party Problem
وقتی چند نفر همزمان صحبت میکنند، ما معمولاً میتوانیم روی یک نفر تمرکز کنیم.
اما این توانایی محدود است.
تحقیقات نشان دادهاند که در شرایط گفتار روی گفتار:
- بخش بزرگی از افت درک گفتار،
- ناشی از ماسکینگ اطلاعاتی است
- نه صرفاً ماسکینگ انرژی.
یعنی حتی وقتی سیگنال هدف از نظر انرژی «قابل شنیدن» است،
باز هم فهم آن مختل میشود.
مرحله اول: باز کردن مسئله
فرض کنید در یک فضای شلوغ در حال گوش دادن به یک گوینده هستید. چند نفر دیگر نیز همزمان صحبت میکنند. شما میتوانید صدای گوینده هدف را بشنوید — اما نمیتوانید آن را پردازش کنید.
در اینجا دو نوع تداخل ممکن است رخ دهد:
۱️⃣ ماسکینگ انرژی (Energetic Masking)
زمانی رخ میدهد که انرژی طیفی یک صدا، انرژی صدای دیگر را در فیلترهای شنوایی میپوشاند.
این همان چیزی است که در نویز گوسی یا صدای موتور هواپیما رخ میدهد.
در این حالت:
- محدودیت در سطح حلزون گوش اتفاق میافتد.
- سیگنال واقعاً در دسترس سیستم عصبی قرار نمیگیرد.
- مشکل فیزیکی–آکوستیکی است.

پیشنهاد ویژه:
دوره آموزش ماژول آکوستیک ساختمانی نرم افزار کامسول
ثبت نام دوره آموزشی نرم افزار کامسول
۲️⃣ ماسکینگ اطلاعاتی (Informational Masking)
در این حالت:
- سیگنال از نظر انرژی قابل شنیدن است.
- بخشهایی از آن حتی کاملاً تفکیکپذیر هستند.
- اما مغز در انتخاب، جداسازی یا تفسیر آن دچار مشکل میشود.
مسئله اینجا دیگر فیزیکی نیست؛
مسئله شناختی–ادراکی است.

تفاوت دو نوع ماسکینگ: انرژی در برابر اطلاعات
در آکوستیک شنوایی، ماسکینگ معمولاً به دو دسته تقسیم میشود:
۱️⃣ Energetic Masking
وقتی یک صدا بهطور فیزیکی صدای دیگر را میپوشاند.
مثلاً صدای کامیون باعث میشود پادکست را نشنویم.
این پدیده ناشی از همپوشانی طیفی–زمانی است.
۲️⃣ Informational Masking
در این حالت، اطلاعات لازم برای شنیدن وجود دارد…
اما مغز نمیتواند آن را بهدرستی پردازش کند.
هیچ مشکل فیزیکی جدی در سطح گوش وجود ندارد.
مشکل در پردازش ادراکی، توجهی، شناختی و زبانی است.
در مثال بوقهای سخنگو، همه پیامها ممکن است کاملاً قابل شنیدن باشند — اما:
- تعداد منابع زیاد است
- شباهت آکوستیکی بالاست
- عدم قطعیت زیاد است
- توجه باید بین منابع مختلف جابهجا شود
نتیجه؟
افزایش خطای ادراکی — حتی در سطحهای صوتی بالا.
چرا ماسکینگ اطلاعاتی خطرناکتر است؟
چون:
- یک پدیده فرا-آستانهای (suprathreshold) است
- با افزایش سطح صوت از بین نمیرود
- به حافظه کاری، پیشبینی زبانی و توجه وابسته است
- در شرایط عدم قطعیت شدیدتر میشود
- به شباهت منبعها حساس است
حتی زبان ماسکر مهم است:
اگر ماسکر به زبان مادری شنونده باشد، اثر شدیدتر است.
روش کلیدی تحقیق: Ideal Time-Frequency Segregation (ITFS)
برای جدا کردن سهم energetic و informational masking، پژوهشگران از تکنیکی به نام ITFS استفاده کردند.
ایده ساده است:
- سیگنال هدف و ماسکر را در حوزه زمان–فرکانس تحلیل میکنیم.
- فقط بخشهایی را نگه میداریم که در آنها انرژی هدف غالب است.
- بخشهای تحت سلطه ماسکر حذف میشوند.
- سیگنال بازسازی میشود (glimpsed speech).
نتیجه جالب:
وقتی فقط energetic masking باقی بماند،
قابلیت فهم تقریباً کامل است.
اما وقتی ماسکر گفتاری واقعی برگردانده شود،
افت شدید درک رخ میدهد.
در برخی آزمایشها:
- نویز گوسی → حدود ۴ dB افت آستانه
- گفتار رقابتی → تا ۳۰ dB افت
این اختلاف عظیم، همان informational masking است.
مرحله دوم: تحلیل عمیقتر پدیده
۱. چرا گفتار گفتار را بیشتر از نویز ماسک میکند؟
آزمایشهای کلاسیک نشان دادهاند که اگر گفتار هدف در نویز گوسی قرار گیرد، افت آستانه فهم معمولاً چند دسیبل است.
اما اگر همان گفتار در حضور یک یا دو گوینده دیگر قرار گیرد، افت درک میتواند تا چند ده دسیبل افزایش یابد.
چرا؟
زیرا گفتار رقیب:
- ساختار زمانی مشابه دارد
- الگوهای فرکانسی مشابه دارد
- از نظر زبانی قابلتفسیر است
- توجه را به خود جذب میکند
- رقابت ادراکی ایجاد میکند
نویز گوسی فقط انرژی دارد.
گفتار رقیب «معنی» دارد.
و مغز به معنی حساس است.

۲. نقش عدم قطعیت (Uncertainty)
هرچه عدم قطعیت بیشتر باشد، ماسکینگ اطلاعاتی افزایش مییابد:
- ندانیم منبع از کدام جهت میآید
- ندانیم چند گوینده وجود دارد
- ندانیم کدام گوینده هدف است
- سطح سیگنالها متغیر باشد
- زبان ماسکر آشنا باشد
در واقع، ماسکینگ اطلاعاتی رابطه مستقیمی با بار پردازشی دارد.
۳. پدیده Glimpsing و آزمایش ITFS
یکی از مهمترین روشها برای جدا کردن سهم energetic و informational masking استفاده از تحلیل زمان–فرکانس است.
در این رویکرد:
- سیگنال به سلولهای کوچک زمان–فرکانس تقسیم میشود.
- سلولهایی که انرژی هدف در آن غالب است حفظ میشوند.
- سایر سلولها حذف میشوند.
نتیجه شگفتانگیز است:
حتی با حذف بخش زیادی از انرژی،
اگر بخشهای غالب هدف باقی بمانند،
فهم گفتار تقریباً کامل میشود.
اما وقتی ماسکر گفتاری کامل برگردانده شود،
افت شدید درک رخ میدهد.
این نشان میدهد مشکل اصلی، فقدان انرژی نیست؛
مشکل در «انتخاب منبع» است.
۴. ماسکینگ اطلاعاتی یک پدیده فرا-آستانهای است
برخلاف ماسکینگ انرژی که نزدیک آستانه شنوایی عمل میکند،
ماسکینگ اطلاعاتی در سطوح بالا نیز باقی میماند.
حتی وقتی گفتار کاملاً بلند است،
رقابت شناختی ادامه دارد.
این موضوع در طراحی فضاهای گفتاری بسیار مهم است.
مرحله سوم: حل مسئله — چگونه ماسکینگ اطلاعاتی را کاهش دهیم؟
۱. جداسازی مکانی (Spatial Separation)
مؤثرترین راهکار:
ایجاد اختلاف مکانی بین منابع.
سیستم شنوایی از:
- اختلاف زمانی بین گوشها (ITD)
- اختلاف سطح (ILD)
- الگوهای HRTF
برای تفکیک منابع استفاده میکند.
حتی چند درجه جداسازی مکانی میتواند افت شدید درک را کاهش دهد.
این موضوع برای:
- طراحی چیدمان بلندگوها
- سیستمهای صوتی سالن
- VR و Ambisonics
- اتاقهای کنفرانس
حیاتی است.
۲. کاهش شباهت طیفی و زمانی منابع
اگر دو منبع:
- جنسیت متفاوت داشته باشند
- طیف متفاوت داشته باشند
- ریتم متفاوت داشته باشند
تفکیک آسانتر میشود.
به همین دلیل، در طراحی سیستمهای هشدار صوتی:
نباید از پیامهای گفتاری مشابه در چند منبع همزمان استفاده کرد.
۳. کاهش عدم قطعیت
- تثبیت سطح سیگنال
- حفظ موقعیت مکانی ثابت
- استفاده از cueهای بصری مکمل
- طراحی سلسلهمراتب هشدار
همگی باعث کاهش بار شناختی میشوند.
۴. اهمیت طراحی شناختمحور در آکوستیک
در بسیاری از پروژههای آکوستیکی، تمرکز صرفاً بر:
- RT60
- STI
- SNR
است.
اما اگر محیط چندمنبعی باشد،
این شاخصها کافی نیستند.
باید پرسید:
چند منبع همزمان فعال هستند؟
شباهت آنها چقدر است؟
آیا کاربر باید بین آنها انتخاب کند؟
آیا منابع معنیدار هستند؟
این همان جایی است که آکوستیک وارد قلمرو علوم شناختی میشود.
کاربردها در پروژههای واقعی
🎭 سالن اپرا
در ارکستر بزرگ، اگر سازها بیش از حد همطیف شوند،
تفکیک شنیداری کاهش مییابد — حتی اگر انرژی کافی باشد.
🎬 Virtual Production Stage
در صحنههای چند دیالوگی،
موقعیت میکروفن و طراحی مانیتورینگ باید بهگونهای باشد که تفکیک فضایی حفظ شود.
🚗 سیستمهای هشدار
سیستم هشدار نباید اطلاعات زبانی بیش از حد همزمان تولید کند.
سادگی گاهی ایمنتر از اطلاعات بیشتر است.
جمعبندی تحلیلی
ماسکینگ اطلاعاتی به ما میگوید:
🔹 شنیدن ≠ فهمیدن
🔹 انرژی کافی ≠ درک کافی
🔹 مسئله فقط فیزیک صوت نیست
🔹 مغز محدودیت پردازشی دارد
در محیطهای چندمنبعی مدرن —
از شهرهای هوشمند گرفته تا استیجهای XR —
طراحی صوت باید شناختمحور باشد.
و شاید به همین دلیل است که:
بوق ماشینها هنوز فقط بوق میزنند.

آموزس، شبیه سازی، طراحی و اجرای پروژه های آکوستیکی با آوانا
مرجع:
Auditory Informational Masking – Gerald Kidd Jr. and Christopher Conroy