گام صدا در گفتار

گام صدا

مقدمه

سیگنال گفتار به دو بخش صدا دار و بدون صدا دسته بندی می شود که بیشترین انرژی صدا در بخش صدا دار آن قرار دارد جایی که شکل موج صدا تقریبا دوره ای می شود.
در این زمان پرده های صوتی برای تولید بخش صدا دار شروع به ارتعاش می کنند. فرکانس اصلی گام صدا در گفتار ، دوره زمانی آنرا تعیین می کند.
دوره گام صدا در گفتار را می توان با تشخیص محل اوج انرژی کوتاه مدت هر پالس در سیگنال گفتار تخمین زد. تشخیص بخش صدا دار و بدون صدای یک سیگنال گفتار با روش های مختلفی انجام می شود.

گام صدا در گفتار

فرکانس اصلی گفتار یا گام صدا در گفتار يكي از مهمترين پارامترها در برنامه هاي تحليل گفتار، تجزیه و تحلیل و رمزگذاري است.
فرکانس اصلی یا گام صدا در گفتار مستقیماً با مشخصات جسمانی فرد در ارتباط است و ویژگی منحصر به فرد گفتار را تعیین می کند.
برای هر دو جنس آقایان و خانم ها بر اساس فیزیک اندام های صوتی محدوده فرکانس احتمالی معمولاً در جایی بین 50 تا 500 هرتز یافت می شود. از نظر دوره زمانی، محدوده ای بین 2 تا 20 میلی ثانیه است.
می توان گفت که گام صدا یک پارامتر پایه است که متمایز کننده صدای مردانه از زنانه، یا صدای بزرگسالان از کودکان است. به عنوان یک قاعده، موجودات بزرگ‌تر صداهایی با گام یا فرکانس اصلی پایین تر تولید می‌کنند.
کوهلر (1981) از دیدگاه یک آواشناس و ویراستار یک مجله در زمینه آواشناسی، در رابطه با گام صدا می نویسد:
من احساس می کنم که ما به یک نام کلی نیاز داریم تا به تمام جلوه های مختلف گفتار اشاره کنیم که بیانی از ارتعاش تار صوتی، فرکانس اساسی، ادراک زیر و بم و کارکردهای آوایی، زبانی و ارتباطی باشد. نام واضح کل این زمینه گام (pitch) است زیرا قبلاً به این معنای گسترده تر در ادبیات پردازش سیگنال استفاده شده است و به یک فیزیکی کاملاً تعریف شده اشاره دارد، در حالی که عناوین دیگری همچون عروض یا لحن در ارتباط فیزیکی خود مبهم یا حداقل چند پارامتری هستند.

تعریف دوره گام صدا

صدای گفتار هنگامی ایجاد می شود که جریان هوا از ریه ها به طور دوره ای با حرکت تارهای صوتی قطع شود. زمان بین دهانه های پی در پی صدا را دوره اصلی یا دوره گام صدا در گفتار می نامند.
نشان های گام صدا در گفتار بر اساس طیف انرژی کوتاه مدت مشخص می شود  چرا که یک محاسبه تقریبی گام صدا بر اساس قله های انرژی انجام می شود و نشان های گام صدا در قله های عملکرد انرژی کوتاه مدت قرار می گیرند.
همانطور که در شکل یک مشاهده می کنیم فاصله بین دوگام صدای مجاور (دو قله انرژی) یا قسمتی از سیگنال که بین دو پالس تحریک متوالی قرار می گیرد به عنوان دوره گام صدا تعریف می شود.

دوره گام صدا

یک دوره مجزا را می‌توان از نظر تئوری با وزن کردن سیگنال گفتار با یک پنجره مستطیلی که طول آن برابر با TO است از سیگنال گفتار استخراج کرد که مدت زمان دوره TO یا طول دوره یا به سادگی دوره است. TO برابر با زمان سپری شده بین دو پالس تحریک متوالی است.

گام صدا در گفتار

فرکانس بنیادی FO

فرکانس مرتبط با طول دوره گام صدا فرکانس بنیادی FO نامیده می شود. شکل موجی (سینوسی) که فقط دارای فرکانس FO است اولین هارمونی یا اولین بخش سیگنال است.

محدوده فرکانسی گام صدا در گفتار

بسامد اساسی گفتار انسان می تواند طیف وسیعی را به خود اختصاص دهد. با این حال، تنها بخش کوچکی از آن برای گفتار محاوره ای استفاده می شود. مارنر، فرانسون و فانت (1964) دریافتند که برای اداهای صوتی دلخواه انسان، بسامد اساسی می تواند بین 33 تا 3100 هرتز تغییر کند در حالی که گفتار به قسمت پایین این محدوده محدود می شود.

داده‌های آن‌ها نشان می‌دهد که برای هر نوع صدا، محدوده F 0 در گفتار محاوره‌ای در جایی در رجیستر پایینی آن صدای فردی قرار دارد. کاتفورد (1964) نوع آواسازی “صدا” را به محدوده F 0 از 70 تا 1100 هرتز (به استثنای بخش آوازی) محدود کرد. بخش موسیقایی صدا به طیف وسیع تری از فرکانس اساسی نیاز دارد. به عنوان مثال، در اپراهای موتزارت که بیشترین تقاضاها را نسبت به محدوده فرکانس خوانندگان مطرح می کند، آهنگ ها از C2 (باس) تا F6 (سوپرانو) متغیر است که به ترتیب به معنی فرکانس های 66 و 1400 هرتز است. در جدول زیر محدوده های گام صدا بدست آمده در تحقیق های مختلف آورده شده است.

اندازه گیری های گام صدا

محاسبه گام های صدا در دو حوزه زمان و فرکانس انجام می شود. از جمله روش هایی که در حوزه فرکانس می توان نام برد عبارت است از: روش طیف محصول هارمونیک، تشابه طیف و روش تشخیص قله سپستروم است. در حوزه زمان نیز روش های متعددی وجود دارد که در ادامه به شرح چند مورد از آنها می پردازیم.

اشتراک گذاری

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *