سپستروم Cepstrum در پردازش صوت

سپستروم Cepstrum در پردازش صوت
سپستروم Cepstrum در پردازش صوت

مقدمه

در بسیاری از مسائل آکوستیکی و مهندسی صدا، هدف تنها شنیدن یا ثبت یک سیگنال صوتی نیست، بلکه استخراج اطلاعات پنهان درون آن است. اطلاعاتی مانند منبع تولید صدا، مسیر انتشار، وجود بازتاب‌ها، تأخیرهای زمانی و حتی حرکت منبع، همگی در ساختار سیگنال نهفته‌اند. برای دستیابی به این اطلاعات، ابزارهای تحلیلی کلاسیک مانند تحلیل زمانی و تحلیل طیفی همیشه کافی نیستند و لازم است از روش‌هایی استفاده شود که بتوانند روابط پیچیده‌تر در سیگنال را آشکار کنند.

یکی از این روش‌های پیشرفته، تحلیل سپستروم است؛ رویکردی که با نگاهی متفاوت به طیف فرکانسی، امکان بررسی الگوهای تناوبی پنهان در آن را فراهم می‌کند. سپستروم در واقع پلی میان دامنه زمان و دامنه فرکانس ایجاد می‌کند و به تحلیل‌گر اجازه می‌دهد ویژگی‌هایی را استخراج کند که در نگاه اول در طیف قابل مشاهده نیستند. به همین دلیل، این روش به‌تدریج جایگاه ویژه‌ای در حوزه‌هایی مانند پردازش گفتار، آکوستیک زیرآب، نویز و مکان‌یابی صوتی پیدا کرده است.

تعریفی از سپستروم Cepstrum

در تحلیل سیگنال‌های صوتی، معمولاً اولین ابزار، بررسی سیگنال در حوزه زمان و سپس در حوزه فرکانس است. تحلیل طیفی به ما نشان می‌دهد که یک صدا از چه مؤلفه‌های فرکانسی تشکیل شده و شدت هر کدام چقدر است. این اطلاعات برای بسیاری از کاربردها کافی است، اما در برخی مسائل آکوستیکی، خودِ طیف نیز دارای ساختار است. به بیان ساده‌تر، گاهی اوقات آنچه اهمیت دارد، نه فقط فرکانس‌ها، بلکه نحوه تکرار و فاصله منظم بین آن‌ها است.

برای مثال، در گفتار انسان، هارمونیک‌ها با فاصله‌ای منظم از یکدیگر در طیف ظاهر می‌شوند که این فاصله مستقیماً به دوره پایه صدا مربوط است. یا در آکوستیک محیط‌های بازتابی، تداخل مسیر مستقیم و مسیر بازتابی باعث ایجاد نوارهای منظم در طیف فرکانسی می‌شود. در چنین شرایطی، طیف به‌تنهایی تصویر کاملی از پدیده ارائه نمی‌دهد، زیرا اطلاعات کلیدی در قالب یک الگوی تناوبی پنهان شده است.

سپستروم دقیقاً برای آشکارسازی همین الگوها معرفی شد. ایده اصلی آن این است که اگر طیف فرکانسی شامل تناوب باشد، می‌توان با گرفتن لگاریتم طیف و سپس انجام تبدیل فوریه معکوس، این تناوب فرکانسی را به‌صورت یک پدیده قابل مشاهده در دامنه‌ای جدید نمایش داد. در این دامنه که کوفرنسی نام دارد، فاصله‌های منظم بین هارمونیک‌ها یا نوارهای تداخلی به شکل پیک‌هایی مشخص ظاهر می‌شوند که اندازه‌گیری آن‌ها بسیار ساده‌تر و دقیق‌تر از کار در دامنه فرکانس است.


پیشنهاد ویژه:

« اولین و کاملترین دوره آموزشی نرم افزار اودئون ODEON برای طراحی آکوستیک »

ثبت نام دوره آموزشی نرم افزار اودئون ODEON


به این ترتیب، سپستروم نوعی تغییر زاویه دید در تحلیل سیگنال محسوب می‌شود. به‌جای آنکه صرفاً بپرسیم «چه فرکانس‌هایی وجود دارند»، این سؤال مطرح می‌شود که «این فرکانس‌ها با چه نظم و تناوبی کنار هم قرار گرفته‌اند». همین تغییر نگاه باعث شده سپستروم به ابزاری کلیدی برای استخراج اطلاعات فیزیکی مانند دوره پایه، تأخیر چندمسیره و ساختار منبع صوتی تبدیل شود.

درک سپستروم Cepstrum در پردازش سیگنال صوتی

من یک طیف دارم؛ چرا باید به سپستروم نیاز داشته باشم؟

طیف فرکانسی نشان می‌دهد که چه مؤلفه‌های فرکانسی و با چه شدت نسبی در یک صدا وجود دارند. این اطلاعات برای تعیین ویژگی‌هایی مانند زیر و بمی صدا (فرکانس پایه) و هارمونیک‌هایی که به صدا شخصیت منحصربه‌فرد می‌دهند بسیار مهم است و همچنین می‌تواند برای استنباط منبع تولید صدا مورد استفاده قرار گیرد. به همین دلیل تعجب‌آور نیست که تحلیل طیفی به ابزاری کلاسیک و رایج در تقریباً تمام شاخه‌های آکوستیک تبدیل شده است؛ از جمله پردازش سیگنال، ارتباطات گفتاری، آکوستیک موسیقی، مهندسی آکوستیک، زیست‌آکوستیک جانوری، آکوستیک زیرآب و کنترل نویز.

اما پس از آنکه طیف فرکانسی به دست آمد، آیا می‌توان اطلاعات مفید بیشتری از آن استخراج کرد؟ پاسخ مثبت است. در بسیاری از موارد، محاسبه «طیفِ طیف» می‌تواند بسیار سودمند باشد. این موضوع به‌ویژه زمانی اهمیت دارد که طیف شامل مجموعه‌هایی از خطوط طیفی با فاصله‌های منظم باشد. در چنین شرایطی، انجام یک تحلیل طیفی دوم می‌تواند وجود این الگوها و ویژگی‌های آن‌ها را به‌خوبی آشکار کند. این ایده، هسته اصلی مفهوم سپستروم است که موضوع اصلی این مقاله را تشکیل می‌دهد.

اصطلاح سپستروم، به همراه واژه‌هایی مانند کوفرنسی، راه‌مونیک و لیفترینگ، برای نخستین بار حدود شش دهه پیش در ادبیات پردازش سیگنال لرزه‌ای ظاهر شدند. بوگرت، هیلی و توکی در سال ۱۹۶۳ با یک چالش واژگانی مواجه شدند و چنین بیان کردند که «ما در دامنه فرکانس به شیوه‌هایی کار می‌کنیم که معمولاً در دامنه زمان رایج است و برعکس». به همین دلیل، حروف ابتدایی واژه‌های آشنایی مانند spectrum، frequency، harmonic و filtering در دامنه فرکانس معکوس یا جابه‌جا شدند تا واژه‌های عجیب cepstrum، quefrency، rahmonic و liftering در دامنه زمان شکل بگیرند.


پیشنهاد ویژه:

دوره آموزش ماژول آکوستیک ساختمانی نرم افزار کامسول

ثبت نام دوره آموزشی نرم افزار کامسول


این اصطلاحات وارد واژگان پردازش سیگنال شدند زیرا سپستروم توان از طیف لگاریتمی توان سیگنال زمانی محاسبه می‌شود. طیف توان متناسب با مربع قدرمطلق تبدیل فوریه سیگنال است. در حالی که فرکانس متغیر مستقل طیف توان محسوب می‌شود، در سپستروم توان، متغیر مستقل کوفرنسی است. واحد اندازه‌گیری فرکانس هرتز است، در حالی که کوفرنسی واحد زمانی دارد، یعنی ثانیه.

اگرچه سپستروم در ابتدا برای تحلیل سیگنال‌های لرزه‌ای به کار رفت، اما کاربرد آن در تحلیل کوتاه‌مدت گفتار توسط مایکل نول در سال ۱۹۶۴ بود که ارزش عملی این روش را نشان داد. نول مشاهده کرد که سپستروم گفتار دارای یک پیک متناظر با دوره فرکانس پایه در گفتار واکدار است، در حالی که در گفتار بی‌واک چنین پیکی وجود ندارد. بنابراین، آنالیزور سپستروم می‌تواند هم به‌عنوان آشکارساز زیر و بمی و هم تشخیص‌دهنده گفتار واکدار و بی‌واک عمل کند.

همچنین تشخیص زیر و بمی با استفاده از سپستروم نسبت به اعوجاج فاز، نویز افزایشی و اعوجاج دامنه مقاوم است. این ویژگی‌ها باعث شد نول نتیجه‌گیری کند که تحلیل سپسترومی نسبت به روش‌های بصری تشخیص زیر و بمی، قابل اعتمادتر و کارآمدتر است. در گفتار واکدار، سپستروم دارای یک پیک بزرگ در کوفرنسی متناظر با دوره پایه منبع صوتی است، در حالی که نبود این پیک نشان‌دهنده گفتار بی‌واک است. ایده پایه تشخیص زیر و بمی با سپستروم به‌طور خلاصه در آثار اوپنهایم و شیفر مرور شده است.

از آنجا که سپستروم ابزاری بسیار ارزشمند برای بررسی ساختارهای تناوبی در طیف فرکانسی است، این مقاله تحلیل سپسترومی را به یک مسئله کلاسیک در آکوستیک اقیانوسی اعمال می‌کند: پدیده آینه لوید. این الگوی تداخلی زمانی مشاهده می‌شود که یک منبع صوتی پهن‌باند پیوسته در حضور یک مرز بازتابنده از کنار یک حسگر صوتی عبور کند. این مرز، پژواکی ایجاد می‌کند که به‌صورت سازنده و مخرب با موج مستقیم تداخل پیدا می‌کند و باعث ایجاد تغییرات زمانی در طیف توان با نوارهایی با فاصله‌های منظم می‌شود. سپس می‌توان با استفاده از تحلیل سپسترومی، مؤلفه تناوبی موجود در اسپکتروگرام را آشکار کرد.

ساختار تناوبی طیف آینه لوید

وقتی یک منبع صوتی مانند قایق موتوری نویز پهن‌باند پیوسته تولید می‌کند، این صدا توسط یک حسگر زیرآبی مانند هیدروفون دریافت می‌شود. اگر هیدروفون نزدیک کف دریا قرار داشته باشد، داده دریافتی ترکیبی از دو سیگنال خواهد بود: یکی مسیر مستقیم و دیگری نسخه‌ای با تأخیر زمانی که از مسیر بازتابی به حسگر می‌رسد. مسیر غیرمستقیم به دلیل بازتاب از کف دریا طول بیشتری دارد و در نتیجه با تأخیر زمانی مشخصی نسبت به مسیر مستقیم دریافت می‌شود.

اگر بازتاب بدون تلفات باشد، ضریب بازتاب برابر یک در نظر گرفته می‌شود. اختلاف زمان رسیدن این دو مسیر با نماد τβ نمایش داده می‌شود که همان تأخیر چندمسیره است. نویز تولیدشده توسط قایق موتوری را می‌توان به‌صورت یک فرایند تصادفی در نظر گرفت که در این مقاله به‌صورت نویز سفید فیلترشده پایین‌گذر مدل‌سازی شده است. سیگنال مستقیم با نسخه تأخیردار آن ترکیب شده و سیگنال نهایی دریافتی در حوزه فرکانس دارای الگویی تناوبی می‌شود.

نشان داده شده است که طیف ترکیبی برابر است با طیف مسیر مستقیم که توسط یک تابع کسینوسی تناوبی در فرکانس مدوله شده است. این مدولاسیون تناوبی در طیف به‌صورت نوارهای منظم ظاهر می‌شود. فاصله فرکانسی بین کمینه‌های متوالی این نوارها برابر با معکوس تأخیر چندمسیره است. بنابراین با اندازه‌گیری این فاصله فرکانسی می‌توان تأخیر زمانی مسیر بازتابی را محاسبه کرد.

با گسترش تحلیل به بازه‌های زمانی مختلف، اسپکتروگرام تشکیل می‌شود که تغییرات طیف با زمان را نشان می‌دهد. در این نمایش، فاصله نوارهای تداخلی در راستای فرکانس در هر لحظه یکنواخت است و این ویژگی امکان استخراج اطلاعات تأخیر زمانی را فراهم می‌کند.

سپستروم توان

گرفتن لگاریتم طیف باعث می‌شود حاصل‌ضرب‌ها به جمع تبدیل شوند. به این ترتیب، لگاریتم طیف توان شامل دو مؤلفه است: یکی مربوط به منبع و دیگری یک تابع تناوبی وابسته به فرکانس که ناشی از چندمسیره بودن سیگنال است. با گرفتن تبدیل فوریه معکوس از لگاریتم طیف توان، سپستروم توان به دست می‌آید.

در کاربرد آینه لوید، سپستروم توان شامل سپستروم مسیر مستقیم و دنباله‌ای از ضربه‌ها موسوم به راه‌مونیک‌ها در کوفرنسی متناظر با تأخیر چندمسیره و مضارب آن است. اولین راه‌مونیک دقیقاً متناظر با تأخیر زمانی مسیر بازتابی است و اندازه‌گیری آن تنها با یک مشاهده امکان‌پذیر می‌شود.

سپستروگرام توان

سپستروگرام توان تغییرات زمانی سپستروم توان را نشان می‌دهد. این نمایش امکان ردیابی تغییرات تأخیر چندمسیره در طول حرکت منبع صوتی را فراهم می‌کند. در داده‌های واقعی، مؤلفه‌های ناخواسته‌ای در سپستروم وجود دارد که باید با روش تفریق سپسترومی حذف شوند تا مؤلفه‌های راه‌مونیک آشکار شوند.

کاربردهای عملی سپستروم توان

در داده‌های واقعی عبور قایق‌های موتوری، الگوی آینه لوید به‌وضوح در اسپکتروگرام مشاهده می‌شود و سپستروم توان قادر است این الگو را حتی در شرایط نویزی آشکار کند. تغییرات زمانی کوفرنسی راه‌مونیک اصلی نشان‌دهنده تغییر فاصله منبع تا حسگر است.

از این ویژگی می‌توان برای مکان‌یابی غیرفعال منبع صوتی تنها با یک حسگر استفاده کرد. همچنین، با ترکیب سپستروم و یادگیری ماشین، می‌توان شبکه‌های عصبی را آموزش داد تا فاصله و مسیر حرکت منبع را با همراهی عدم قطعیت تخمین بزنند.

در کاربردی دیگر، پارامترهای حرکتی شناورهای سطحی مانند سرعت، زمان نزدیک‌ترین نقطه عبور و فاصله کمینه با استفاده از تخمین تأخیر چندمسیره و حل یک مسئله کمترین مربعات غیرخطی استخراج می‌شوند. تطابق بسیار خوبی بین پیش‌بینی مدل و داده‌های واقعی مشاهده شده است.

جمع‌بندی و نتیجه‌گیری

در الگوی آینه لوید، تناوب منظم فاصله فرکانسی نوارهای تداخلی با پارامتر زمانی τβ مشخص می‌شود که همان تأخیر مسیر بازتابی است. این پارامتر به‌راحتی با استفاده از سپستروم توان و از طریق کوفرنسی راه‌مونیک اصلی قابل اندازه‌گیری است.

تحلیل سپسترومی امکان مکان‌یابی یک منبع صوتی پهن‌باند را تنها با یک حسگر فراهم می‌کند و همچنین امکان تخمین پارامترهای حرکتی منبع را از طریق تغییرات زمانی تأخیر چندمسیره به وجود می‌آورد.

منبع این مطلب مقاله زیر است:

Understanding the Cepstrum: An Acoustic Signal Processing Method with Quirky Terminology


آموزس، شبیه سازی، طراحی و اجرای پروژه های آکوستیکی با آوانا


اشتراک گذاری

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

-- بارگیری کد امنیتی --