বাক সংশ্লেষণ
বাক সংশ্লেষণ বলতে একটি পরিগণক ব্যবস্থার সাহায্যে (কম্পিউটার সিস্টেম) কৃত্রিমভাবে মানুষের মুখের কথা বা বাক উৎপাদনকে বোঝায়। বাক সংশ্লেষণকারী পরিগণক ব্যবস্থাটিকে বাক সংশ্লেষক বলে। বাক সংশ্লেষক যন্ত্রটিকে সফটওয়্যার (নির্দেশনাসামগ্রী) বা হার্ডওয়্যার (যন্ত্রাংশসামগ্রী) পণ্যদ্রব্যে প্রয়োগ করা হতে পারে। একটি পাঠ্য-থেকে-বাক (টেক্সট-টু-স্পিচ বা সংক্ষেপে টিটিএস) ব্যবস্থা স্বাভাবিক ভাষায় লিখিত পাঠ্যকে কথায় বা বাকে রূপান্তরিত করে। অন্যান্য ব্যবস্থাগুলি ধ্বনিগত প্রতিলিপি বা ঐ জাতীয় প্রতীকী ভাষিক রূপকে বাকে তথা কথায় রূপান্তরিত করে।[১] বাক সংশ্লেষণের বিপরীত প্রক্রিয়াটি হল বাক শনাক্তকরণ।

একটি উপাত্তভাণ্ডার (ডেটাবেজ) সংরক্ষিত পূর্ব থেকে যন্ত্রে ধারণকৃত কথার বিভিন্ন খণ্ডাংশ একের পর এক জোড়া লাগিয়ে সংশ্লেষিত বাক সৃষ্টি করা যেতে পারে। ভিন্ন ভিন্ন ব্যবস্থায় সঞ্চিত বাক-এককের পরিমাণ ভিন্ন হতে পারে। যে ব্যবস্থাতে বাগধ্বনি (ফোন) বা দ্বি-বাগধ্বনি (ডাইফোন) সঞ্চিত থাকে, সেটির উৎপাদন পরিসর সবচেয়ে বেশি হয়, তবে সেটিতে স্পষ্টতার অভাব থাকতে পারে।[তথ্যসূত্র প্রয়োজন]
নির্দিষ্ট প্রয়োগক্ষেত্রের জন্য সম্পূর্ণ শব্দ, বাক্যাংশ বা বাক্য সঞ্চয় করলে উচ্চ-মানের সংশ্লেষিত বাক উৎপাদন সম্ভব হয়। এর বিকল্প হিসেবে একটি বাক সংশ্লেষক মানুষের কণ্ঠনালীর একটি গাণিতিক প্রতিমান (মডেল) এবং মানুষের কন্ঠস্বরের অন্যান্য চারিত্রিক বৈশিষ্ট্যগুলিকে ব্যবহার করে একটি সম্পূর্ণরূপে "কৃত্রিম" কণ্ঠভিত্তিক সংশ্লেষিত বাক উৎপাদন করতে করতে পারে।[২]
একটি বাক সংশ্লেষকের গুণমান এর উৎপাদিত বাকের সাথে মানুষের কণ্ঠস্বরের সাথে কতটুকু মিল আছে এবং এটি কতটুকু স্পষ্ট বোধগম্য, এই দুইটি মানদণ্ড দ্বারা বিচার করা হয়। দৃষ্টি প্রতিবন্ধী বা পড়তে অক্ষম ব্যক্তিরা বাসাবাড়ির কম্পিউটারে স্থাপিত একটি বোধগম্য পাঠ্য-থেকে-বাক প্রোগ্রামের সাহায্যে লিখিত বা মুদ্রিত শব্দ শুনতে পারেন। ১৯৯০-এর দশকের শুরু থেকে অনেক কম্পিউটারের অপারেটিং সিস্টেমে বাক সংশ্লেষক অন্তর্ভুক্ত করা হয়েছে।[তথ্যসূত্র প্রয়োজন]
একটি পাঠ্য-থেকে-বাক ব্যবস্থা (বা "ইঞ্জিন") দুটি অংশের সমন্বয়ে গঠিত:[৩] একটি সম্মুখ-অংশ এবং একটি পশ্চাৎ-অংশ । সম্মুখ-অংশের দুটি প্রধান কাজ রয়েছে। প্রথমত, এটি অশোধিত পাঠ্যের অন্তর্ভুক্ত সংখ্যা এবং সংক্ষেপিত রূপগুলির মতো প্রতীকগুলির সমতুল্য পূর্ণ লিখিত রূপে রূপান্তরিত করে। এই প্রক্রিয়াটিকে প্রায়শই পাঠ্য স্বাভাবিকীকরণ (টেক্সট নর্মালাইজেশন), প্রাক-প্রক্রিয়াজাতকরণ (প্রি-প্রসেসিং) বা বাকখণ্ডীকরণ (টোকেনেইজেশন) বলা হয়। সম্মুখ-অংশটি তারপর প্রতিটি শব্দের জন্য ধ্বনিগত প্রতিলিপি সৃষ্টি করে এবং পাঠ্যটিকে অধিধ্বনিক একক যেমন বাক্যাংশ, খণ্ডবাক্য ও বাক্যতে ভাগ করে এবং সেগুলিকে অধ্বিধনিক চিহ্ন দ্বারা চিহ্নিত করে। কোনও লিখিত শব্দের জন্য ধ্বনিগত প্রতিলিপি সৃষ্টি করার প্রক্রিয়াটিকে পাঠ্য-থেকে-ধ্বনিমূল বা লিপিমূল -থেকে-ধ্বনিমূলে রূপান্তর বলা হয়। ধ্বনিগত প্রতিলিপি এবং অধিধ্বনিক তথ্য একত্রিত করে প্রতীকী ভাষাগত রূপটি সৃষ্টি করা হয় যা সম্মুখ-অংশ দ্বারা বহির্গত (আউটপুট) হয়। পশ্চাৎ-অংশটিকে প্রায়শই সংশ্লেষক হিসেবে উল্লেখ করা হয়। এটি সম্মুখ-অংশ থেকে বহির্গত প্রতীকী ভাষাগত রূপটি গ্রহণ করে সেটিকে ধ্বনিতে রূপান্তরিত করে। কিছু ব্যবস্থাতে এই অংশে উদ্দিষ্ট অধিধ্বনির সাথে সংশ্লিষ্ট পরিগণনা অঙ্গীভূত থাকে (যেমন সুরের নতোন্নতি রেখা, ধ্বনিমূলের স্থায়িত্বকাল, ইত্যাদি),[৪] যা পরে বহির্গত উৎপাদিত বাকে উপরিপাতন করা হয়।
আরও দেখুন
[সম্পাদনা]- চীনা বাক সংশ্লেষণ
- বাক সংশ্লেষকসমূহের তুলনা
- পর্দার পাঠকের তালিকা
- অর্কা (সহায়তামূলক প্রযুক্তি)
- কাগজবিহীন কার্যালয়
- নিঃশব্দ বাক আন্তঃক্রিয়াতল
- বাক-উৎপাদনী যন্ত্র
- বাক প্রক্রিয়াজাতকরণ
- ডিজিটাল টেলিভিশনে পাঠ্য থেকে বাক
তথ্যসূত্র
[সম্পাদনা]- ↑ Allen, Jonathan; Hunnicutt, M. Sharon (১৯৮৭)। From Text to Speech: The MITalk system। Cambridge University Press। আইএসবিএন 978-0-521-30641-6।
- ↑ Rubin, P.; Baer, T. (১৯৮১)। "An articulatory synthesizer for perceptual research": 321–328। ডিওআই:10.1121/1.386780।
- ↑ van Santen, Jan P. H.; Sproat, Richard W. (১৯৯৭)। Progress in Speech Synthesis। Springer। আইএসবিএন 978-0-387-94701-3।
- ↑ Van Santen, J. (এপ্রিল ১৯৯৪)। "Assignment of segmental duration in text-to-speech synthesis": 95–128। ডিওআই:10.1006/csla.1994.1005।
বহিঃসংযোগ
[সম্পাদনা]
- গান গাওয়া রোবট পাভারোবত্তির সাহায্যে ছদ্মায়িত গান বা বিবিসি থেকে একটি বর্ণনা কিভাবে রোবটটি গান গাওয়া সংশ্লেষিত করে .