دانلود پاورپوینت تحلیل و بررسی اجزای اصلی بازشناسی گفتار
Speech Recognition
عنوان های پاورپوینت :
تحلیل و بررسی اجزای اصلی بازشناسی گفتار
Speech Recognition
بازشناسی گفتار (Speech Recognition)
بازشناسی گفتار
بازشناسی گفتار: واحد آوایی
بازشناسی گفتار
دادگان های گفتاری
بازشناسی گفتار: اجزای اصلی
بازشناسی گفتار: استخراج ویژگی
بازشناسی گفتار: مدل سازی آکوستیک
بازشناسی گفتار: decoding
بازشناسی گفتار: مجموعه واژگان
بازشناسی گفتار: مدل سازی زبانی
مدل سازی آکوستیک: مدل مخفی مارکوف
مدل سازی آکوستیک: آموزش HMMها
decoding
بازشناسی گفتار: ارزیابی
قسمت ها و تکه های اتفاقی از فایل
بازشناسی گفتار: مجموعه واژگان
مجموعه واژگان (lexicon): مجموعه لغاتی که سیستم بازشناسی قادر به تشخیص آنها می باشد.
بسته به کاربرد سیستم بازشناسی، مجموعه واژگان می تواند کوچک، متوسط، بزرگ یا بسیار بزرگ باشد.
در بازشناسی گفتار پیوسته و با واژگان بزرگ که واحد آوایی معمولاً واج انتخاب می شود، هر یک از کلمات مجموعه واژگان باید دارای معادل یا معادل های واجی باشد:
باران b A r A n
سازمان(1) s A z m A n
سازمان(2) s A z e m A n
مرد(1) m a r d
مرد(2) m o r d
… …
ابهام آکوستیکی: کلماتی که شکل نوشتاری متمایز ولی تلفظ یکسان یا شبیه به هم دارند [هم آوا] سبب ایجاد ابهام آکوستیکی شده و ممکن است بجای یکدیگر بازشناسی شوند
مثال: «سمر» و «ثمر» – «خواستن» و «خاستن» – «خویش» و «خیش» – «ارز» و «عرض» و «ارض» – و …
بازشناسی گفتار: مدل سازی زبانی
مدل زبانی برای هدایت رویه decoding در بازشناسی به کار می رود.
در بازشناسی گفتار متصل (connected) معمولاً از یک گرامر ساده که نحوه توالی لغات را مشخص می کند، به عنوان مدل زبانی استفاده می شود.
در بازشناسی گفتار پیوسته معمولاً از مدل زبانی آماری استفاده می شود.
رایج ترین مدل زبانی: مدل n-gram
با توجه به کلمات بازشناسی شده قبلی، مدل زبانی آماری محتمل ترین کلمات بعدی را پیش بینی می کند.
در نهایت دنباله ای از لغات به عنوان خروجی بازشناسی انتخاب می شود که حاصلضرب امتیازهای مدل آکوستیک و مدل زبانی آن ماکزیمم باشد.
مشکل هم نگاره ها: کلماتی که شکل نوشتاری آنها یکسان ولی تلفظ آنها متفاوت می باشد [هم نگاره] برای استخراج مدل زبانی مشکل ایجاد می کنند:
مثال: «نُه» و «نه» – «مرد» و «مُرد» – «مهر» و «مُهر» – «گل» و «گِل» – …
مدل سازی آکوستیک: مدل مخفی مارکوف
مدل مخفی مارکوف (HMM) رایج ترین مدل آکوستیک در بازشناسی گفتار می باشد.
حالات مختلفی که سیگنال گفتار در حین ادا شدن از آن عبور می کند را به عنوان state های HMM در نظر می گیریم.
در مدل سازی واج ها معمولاً برای هر HMM بین 3 تا 7 state در نظر گرفته می شود.
در بازشناسی گفتار، HMM ها معمولاً دارای مشاهدات پیوسته در هر state می باشند.
تابع چگالی احتمال مشاهدات در هر state معمولاً به صورت توزیع گوسی در نظر گرفته می شود.
پرش بین حالت ها معمولاً به صورت چپ به راست در نظر گرفته می شود.
مدل سازی آکوستیک: مدل مخفی مارکوف
احتمال وقوع بردار مشاهده در حالت (state) s در HMM با چگالی پیوسته گوسی (با فرض مستقل بودن ابعاد بردار مشاهده):
با فرض وجود یک توزیع گوسی در هر state و با فرض مستقل بودن ابعاد بردار مشاهدات، هر state دارای یک بردار میانگین و یک بردار واریانس می باشد.
پارامترهای HMM شامل ماتریس پرش بین stateها و بردارهای میانگین و و واریانس توزیع گوسی در هر state می باشد.
مدل سازی آکوستیک: آموزش HMMها
در مرحله آموزش، پارامترهای HMM با استفاده از داده های آموزشی تخمین زده می شوند.
با فرض داشتن تقطیع واجی در دادگان آموزشی، الگوریتم segmental K-means به صورت زیر برای آموزش HMM هر واج به کار می رود:
1- برای سیگنال های گفتاری تمام واج ها در دادگان گفتاری استخراج ویژگی صورت می گیرد و دنباله ای از بردارهای ویژگی برای هر واج استخراج می گردد.
2- به ازای هر یک از واج های زبان تمام دنباله بردارهای ویژگی آن در دادگان گفتاری جمع آوری می شود.
3- دنباله بردارهای ویژگی بین state های HMM مربوط به آن واج به طور مساوی تقسیم می گردند.
4- میانگین و واریانس بردارهای مربوط به هر state محاسبه شده و به عنوان پارامترهای توزیع گوسی در آن state در نظر گرفته می شود.
5- احتمال پرش بین stateها با استفاده از شمارش دنباله state منتسب به دنباله بردارهای ویژگی به دست می آید.
6- به ازای هر نمونه از هر واج، یک الگوریتم ویتربی به ازای دنباله بردارهای ویژگی آن واج (دنباله مشاهدات) و دنباله stateهای HMM مربوط به آن واج اجرا می شود که در نتیجۀ آن بردارهای ویژگی به state های جدیدی منتسب می شوند.
7- مراحل 4 تا 6 تکرار می شود تا زمانی که پارامترهای HMM به همگرایی برسند.
مدل سازی آکوستیک: آموزش HMMها
در صورتی که دادگان آموزشی دارای تقطیع واجی نباشد، به ازای هر جمله (utterance) در دادگان گفتاری، HMMهای مربوط به واج های تشکیل دهندة آن به صورت زنجیروار به هم متصل شده و یک HMM بزرگ به وجود می آورند.
الگوریتم segmental K-means با استفاده از این HMM های بزرگ انجام می گردد.
decoding
مرحله decoding واج ها معمولاً با استفاده از الگوریتم ویتربی انجام می شود.
decoding
فریم های گفتار به عنوان مشاهدات و stateهای HMM به عنوان مجموعه حالتهای پنهان به کار می روند.
از شکل گسترش یافته ای از الگوریتم ویتربی استفاده می شود که به جای بهترین مسیر، N بهترین مسیر را محاسبه می کند.
خروجی الگوریتم ویتربی N بهترین مسیر از بین stateهای HMM مربوط به واج ها است.
براساس اینکه هر state مربوط به چه واجی می باشد، دنباله واج های موجود در گفتار به دست می آید.
هر کدام از N بهترین دنباله واجی یک فرضیه خروجی را تشکیل می دهند.
امتیاز حاصل از الگوریتم ویتربی برای هر فرضیه، امتیاز آکوستیک آن فرضیه را تشکیل می دهد.
decoding
مرحله decoding کلمات معمولاً با استفاده از یک درخت واژگان (lexicon tree) صورت می گیرد.
decoding
پس از شناسایی دنباله واج های گفتار، درخت واژگان بر اساس آن دنباله واج دنبال می شود و کلمات تشکیل دهنده دنباله واج ورودی به دست می آید.
هنگامی که در درخت واژگان به یک گره نهایی می رسیم یک کلمه جدید تشکیل می شود و امتیاز مدل زبانی آن کلمه اعمال می گردد.
دنباله واجی مربوط به هر فرضیه خروجی ممکن است دنباله کلمات متفاوتی تولید کنند و بدین ترتیب فرضیه های جدیدی تشکیل شود.
فرضیه های واجی که معادلی در درخت واژگان ندارند حذف می شوند.
از بین N بهترین فرضیه خروجی، فرضیه ای که حاصلضرب امتیازهای آکوستیک و زبانی آن بیشتر باشد انتخاب به عنوان خروجی نهایی انتخاب می گردد.
بازشناسی گفتار: ارزیابی
معمولاً مجموعه ای از utterance ها (فایل های گفتاری) همراه با برچسب کلمه ای آنها به عنوان مجموعه آزمون به کار می رود.
معمولاً شرایط آکوستیکی داده های آزمون مشابه با شرایط آکوستیکی داده های آموزش می باشد.
به منظور ارزیابی بازشناسی، دنباله کلمات خروجی سیستم بازشناسی با دنباله کلمات موجود در برچسب فایل های ورودی (دنباله کلمات صحیح) مقایسه و منطبق می شود.
انواع خطاهای بازشناسی
خطای جایگزینی (substitution): یک کلمه به جای یک کلمۀ دیگر بازشناسی گردد.
در بازشناسی گفتار مجزا و بازشناسی گفتار متصل فقط همین نوع خطا وجود دارد.
خطای حذف (deletion): یک کلمه که در گفتار وجود دارد، در خروجی بازشناسی حذف گردد.
خطای درج (insertion): یک کلمه که در گفتار وجود ندارد، در خروجی بازشناسی اضافه گردد.
30 تا 70 درصد پروژه | پاورپوینت | سمینار | طرح های کارآفرینی و توجیهی | پایان-نامه | پی دی اف مقاله ( کتاب ) | نقشه | پلان طراحی | های آماده به صورت رایگان میباشد ( word | pdf | docx | doc )
نقد و بررسیها
هیچ دیدگاهی برای این محصول نوشته نشده است.