শব্দার্থে দ্ব্যর্থতা নিরসন

উইকিপিডিয়া, মুক্ত বিশ্বকোষ থেকে
মানচিত্র

শব্দার্থে দ্ব্যর্থতা নিরসন (ইংরেজি: word sense disambiguation বা সংক্ষেপে, WSD) গণনীয় ভাষাতত্ত্বপ্রাকৃতিক ভাষা প্রক্রিয়াকরণের একটি খোলা সমস্যা (open problem)। শব্দার্থে দ্ব্যর্থতা নিরসনের কাজ হল যখন কোন শব্দের একের অধিক মান (sense) অথবা অর্থ (meaning) থাকে, সেখান থেকে সঠিক অর্থটি খুঁজে বের করা।

উদাহরণস্বরূপ বলা যায়, 'আমি ভাত খাই।' - এ বাক্যে 'ভাত' শব্দটি একটি দ্ব্যর্থ (যা বোধগোম্য নয়) শব্দ। এখানে কম্পিউটারকে বুঝতে হবে যে এ বাক্যে 'ভাত' শব্দটির মানে 'দিনে প্রায় দু'বার নিয়মিত সময় নেওয়া সম্পূর্ণ আহার', কিন্তু 'খাওয়ার জন্য জলে সিদ্ধ করা চাল' নয়।

এ ধরনের সমস্যার সমাধান অন্যান্য কম্পিউটার সংক্রান্ত লেখার উপর প্রভাব ফেলে, যেমন, বকৃতা, অন্বেষণ যন্ত্রের (বা, সার্চ ইঞ্জিন) প্রাসঙ্গিকতা উন্নয়ন, অ্যানাফোরা বিশ্লেষণ (anaphora resolution), সংসক্তি, অন্বীক্ষা, ইত্যাদি।

মানব মস্তিষ্ক শব্দার্থে দ্ব্যর্থতা নিরসনে বেশ দক্ষ। যদিও সত্য যে প্রাকৃতিক ভাষা এমন উপায়ে গঠিত হয় যে এর স্নায়ু বাস্তবতার প্রতিফলন খুবই প্রয়োজন। অন্য কথায়, মানুষের ভাষা এমন উপায়ে গঠিত হয় যা মস্তিষ্কের স্নায়বিক জাল দ্বারা প্রদত্ত সহজাত ক্ষমতার প্রতিফলন (এবং আকার দিতে সাহায্য করে)। কম্পিউটার বিজ্ঞানতথ্য প্রযুক্তিতে যেখানে এটা করা যায়, সেখানে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ ও যন্ত্র শিক্ষণ দেওয়ার জন্য কম্পিউটারের ক্ষমতার বিকাশ ঘটাতে বিজ্ঞানীদের জন্য এটি একটি দীর্ঘ মেয়াদী চ্যালেঞ্জ ছিল।

শব্দার্থে দ্ব্যর্থতা নিরসন করতে এখন পর্যন্ত বিভিন্ন রকমের প্রচুর কৌশলের খোঁজ করা হয়েছে। যেমন, অভিধান-ভিত্তিক পদ্ধতি থেকে (যা কিনা আভিধানিক সম্পদের মধ্যে নিহিত জ্ঞান ব্যবহার করে), পরিদর্শিত যন্ত্র শিক্ষণ পদ্ধতি (যেখানে প্রতিটি শব্দের জন্য হাতে প্রস্তুত করা সঠিকঅর্থসহ উদাহরনের লিখন থেকে এক একটি শ্রেণীবদ্ধকারীকে প্রশিক্ষণ দেওয়া হয়), অপরিদর্শিত যন্ত্র শিক্ষণ পদ্ধতি (যা শব্দের উপস্থিতির গুচ্ছ তৈরী করে যার ফলে অর্থপূর্ন শব্দের আরোহন ঘটে) পর্যন্ত। ক্যাভিয়েট হোস্ট (host of caveat) ছাড়া বর্তমান গাণিতিক পরিভাষার (algorithm) যথার্থতা বর্ণনা করা কঠিন। ইংরেজি ভাষার ক্ষেত্রে অপকৃষ্টবুনান (coarse-grained) পর্যায়ের সঠিকতার মাত্রা নিয়মিতভাবে ৯০ ভাগের উপরে, কোন নির্দিষ্ট সমপ্রকৃতি শব্দ নিয়ে কিছু পদ্ধতি ৯৬ ভাগের উপরে সফলতা অর্জন করে।

তথ্যসূত্র[সম্পাদনা]