বিষয়বস্তুতে চলুন

বাক সংশ্লেষণ

উইকিপিডিয়া, মুক্ত বিশ্বকোষ থেকে

বাক সংশ্লেষণ বলতে একটি পরিগণক ব্যবস্থার সাহায্যে (কম্পিউটার সিস্টেম) কৃত্রিমভাবে মানুষের মুখের কথা বা বাক উৎপাদনকে বোঝায়। বাক সংশ্লেষণকারী পরিগণক ব্যবস্থাটিকে বাক সংশ্লেষক বলে। বাক সংশ্লেষক যন্ত্রটিকে সফটওয়্যার (নির্দেশনাসামগ্রী) বা হার্ডওয়্যার (যন্ত্রাংশসামগ্রী) পণ্যদ্রব্যে প্রয়োগ করা হতে পারে। একটি পাঠ্য-থেকে-বাক (টেক্সট-টু-স্পিচ বা সংক্ষেপে টিটিএস) ব্যবস্থা স্বাভাবিক ভাষায় লিখিত পাঠ্যকে কথায় বা বাকে রূপান্তরিত করে। অন্যান্য ব্যবস্থাগুলি ধ্বনিগত প্রতিলিপি বা ঐ জাতীয় প্রতীকী ভাষিক রূপকে বাকে তথা কথায় রূপান্তরিত করে।[] বাক সংশ্লেষণের বিপরীত প্রক্রিয়াটি হল বাক শনাক্তকরণ

একটি সাধারণ পাঠ্য-থেকে-বাক ব্যবস্থার সামগ্রিক রেখাচিত্র

একটি উপাত্তভাণ্ডার (ডেটাবেজ) সংরক্ষিত পূর্ব থেকে যন্ত্রে ধারণকৃত কথার বিভিন্ন খণ্ডাংশ একের পর এক জোড়া লাগিয়ে সংশ্লেষিত বাক সৃষ্টি করা যেতে পারে। ভিন্ন ভিন্ন ব্যবস্থায় সঞ্চিত বাক-এককের পরিমাণ ভিন্ন হতে পারে। যে ব্যবস্থাতে বাগধ্বনি (ফোন) বা দ্বি-বাগধ্বনি (ডাইফোন) সঞ্চিত থাকে, সেটির উৎপাদন পরিসর সবচেয়ে বেশি হয়, তবে সেটিতে স্পষ্টতার অভাব থাকতে পারে।[তথ্যসূত্র প্রয়োজন]

নির্দিষ্ট প্রয়োগক্ষেত্রের জন্য সম্পূর্ণ শব্দ, বাক্যাংশ বা বাক্য সঞ্চয় করলে উচ্চ-মানের সংশ্লেষিত বাক উৎপাদন সম্ভব হয়। এর বিকল্প হিসেবে একটি বাক সংশ্লেষক মানুষের কণ্ঠনালীর একটি গাণিতিক প্রতিমান (মডেল) এবং মানুষের কন্ঠস্বরের অন্যান্য চারিত্রিক বৈশিষ্ট্যগুলিকে ব্যবহার করে একটি সম্পূর্ণরূপে "কৃত্রিম" কণ্ঠভিত্তিক সংশ্লেষিত বাক উৎপাদন করতে করতে পারে।[]

একটি বাক সংশ্লেষকের গুণমান এর উৎপাদিত বাকের সাথে মানুষের কণ্ঠস্বরের সাথে কতটুকু মিল আছে এবং এটি কতটুকু স্পষ্ট বোধগম্য, এই দুইটি মানদণ্ড দ্বারা বিচার করা হয়। দৃষ্টি প্রতিবন্ধী বা পড়তে অক্ষম ব্যক্তিরা বাসাবাড়ির কম্পিউটারে স্থাপিত একটি বোধগম্য পাঠ্য-থেকে-বাক প্রোগ্রামের সাহায্যে লিখিত বা মুদ্রিত শব্দ শুনতে পারেন। ১৯৯০-এর দশকের শুরু থেকে অনেক কম্পিউটারের অপারেটিং সিস্টেমে বাক সংশ্লেষক অন্তর্ভুক্ত করা হয়েছে।[তথ্যসূত্র প্রয়োজন]

একটি পাঠ্য-থেকে-বাক ব্যবস্থা (বা "ইঞ্জিন") দুটি অংশের সমন্বয়ে গঠিত:[] একটি সম্মুখ-অংশ এবং একটি পশ্চাৎ-অংশ । সম্মুখ-অংশের দুটি প্রধান কাজ রয়েছে। প্রথমত, এটি অশোধিত পাঠ্যের অন্তর্ভুক্ত সংখ্যা এবং সংক্ষেপিত রূপগুলির মতো প্রতীকগুলির সমতুল্য পূর্ণ লিখিত রূপে রূপান্তরিত করে। এই প্রক্রিয়াটিকে প্রায়শই পাঠ্য স্বাভাবিকীকরণ (টেক্সট নর্মালাইজেশন), প্রাক-প্রক্রিয়াজাতকরণ (প্রি-প্রসেসিং) বা বাকখণ্ডীকরণ (টোকেনেইজেশন) বলা হয়। সম্মুখ-অংশটি তারপর প্রতিটি শব্দের জন্য ধ্বনিগত প্রতিলিপি সৃষ্টি করে এবং পাঠ্যটিকে অধিধ্বনিক একক যেমন বাক্যাংশ, খণ্ডবাক্য ও বাক্যতে ভাগ করে এবং সেগুলিকে অধ্বিধনিক চিহ্ন দ্বারা চিহ্নিত করে। কোনও লিখিত শব্দের জন্য ধ্বনিগত প্রতিলিপি সৃষ্টি করার প্রক্রিয়াটিকে পাঠ্য-থেকে-ধ্বনিমূল বা লিপিমূল -থেকে-ধ্বনিমূলে রূপান্তর বলা হয়। ধ্বনিগত প্রতিলিপি এবং অধিধ্বনিক তথ্য একত্রিত করে প্রতীকী ভাষাগত রূপটি সৃষ্টি করা হয় যা সম্মুখ-অংশ দ্বারা বহির্গত (আউটপুট) হয়। পশ্চাৎ-অংশটিকে প্রায়শই সংশ্লেষক হিসেবে উল্লেখ করা হয়। এটি সম্মুখ-অংশ থেকে বহির্গত প্রতীকী ভাষাগত রূপটি গ্রহণ করে সেটিকে ধ্বনিতে রূপান্তরিত করে। কিছু ব্যবস্থাতে এই অংশে উদ্দিষ্ট অধিধ্বনির সাথে সংশ্লিষ্ট পরিগণনা অঙ্গীভূত থাকে (যেমন সুরের নতোন্নতি রেখা, ধ্বনিমূলের স্থায়িত্বকাল, ইত্যাদি),[] যা পরে বহির্গত উৎপাদিত বাকে উপরিপাতন করা হয়।

আরও দেখুন

[সম্পাদনা]

তথ্যসূত্র

[সম্পাদনা]
  1. Allen, Jonathan; Hunnicutt, M. Sharon (১৯৮৭)। From Text to Speech: The MITalk system। Cambridge University Press। আইএসবিএন 978-0-521-30641-6 
  2. Rubin, P.; Baer, T. (১৯৮১)। "An articulatory synthesizer for perceptual research": 321–328। ডিওআই:10.1121/1.386780 
  3. van Santen, Jan P. H.; Sproat, Richard W. (১৯৯৭)। Progress in Speech Synthesis। Springer। আইএসবিএন 978-0-387-94701-3 
  4. Van Santen, J. (এপ্রিল ১৯৯৪)। "Assignment of segmental duration in text-to-speech synthesis": 95–128। ডিওআই:10.1006/csla.1994.1005 

বহিঃসংযোগ

[সম্পাদনা]