পাঠ্যবস্তু খণ্ডায়ন

পাঠ্যবস্তু খণ্ডায়ন বা টেক্সট খণ্ডায়ন (ইংরেজি: Text segmentation) বলতে কোন একটি প্রদত্ত পাঠ্য বিষয়বস্তু বা টেক্সট-কে শব্দ বা অর্থপূর্ণ এককে বিভাজিত করাকে বোঝায়। ধারণা করা হয় যে লিখিত বা মুদ্রিত কোন পাঠ্যবস্তু পড়ার সময় মানুষের মনে পাঠ্যবস্তু খণ্ডায়ন প্রক্রিয়া চলে। এছাড়া স্বাভাবিক ভাষা প্রক্রিয়াজাতকরণের সময় কম্পিউটারের মাধ্যমে কৃত্রিম উপায়ে পাঠ্যবস্তু খণ্ডায়ন করা হয়।

যেসমস্ত ভাষার লিখিত রূপে শব্দের সীমানা সহজেই বোঝা যায়, যেমন - ইংরেজি বা বাংলা ভাষার ক্ষেত্রে স্পেস বা ফাঁকা স্থানের উপস্থিতি, কিংবা আরবি ভাষায় শব্দের শুরু বা শেষে বর্ণসমূহের নির্দিষ্ট লক্ষণবাচক রূপ, সেসব ভাষায় পাঠ্যবস্তু খণ্ডায়ন করা তুলনামূলকভাবে সহজ। কিন্তু যেসব ভাষায় সহজে এরকম চাবিকাঠি খুঁজে পাওয়া যায় না, তাদের ক্ষেত্রে পরিসংখ্যানিক সিদ্ধান্ত গ্রহণ, বড় অভিধান, বাক্যতাত্ত্বিক ও আর্থিক সীমাবদ্ধতা, ইত্যাদির সাহায্য নিতে হয়।

স্বাভাবিক ভাষা প্রক্রিয়াজাতকরণে শব্দ ও বাক্যের সীমানা খুঁজে বের করার কৌশল আলোচিত হয়। এই কৌশলগুলি প্রায় ক্ষেত্রেই কোন একটি বিশেষ জাতীয় পাঠ্যবস্তুর জন্য প্রযোজ্য। যেমন - সাধারণ সংবাদের পাঠ্যবস্তু খণ্ডায়নের কৌশল এবং চিকিৎসাবৈজ্ঞানিক পাঠ্যবস্তুর খণ্ডায়নের কৌশল থেকে অনেক ভিন্ন। সাধারণত যে ডোমেন বা ক্ষেত্রের পাঠ্যবস্তু খণ্ডায়ন করা হবে, তার একটি বড় কর্পাস বা ভাষাংশ নিয়ে গবেষণা কাজ শুরু হয়। যন্ত্র শিখনের কৌশলগুলির সাহায্য নেয়া হয়।

আরও দেখুন[সম্পাদনা]