টেক্সট খণ্ডায়ন

উইকিপিডিয়া, মুক্ত বিশ্বকোষ থেকে

টেক্সট খণ্ডায়ন (ইংরেজি: Text segmentation) বলতে কোন একটি প্রদত্ত লিখিত বিষয়বস্তু বা টেক্সট-কে শব্দ বা অর্থপূর্ণ এককে বিভাজিত করাকে বোঝায়। ধারণা করা হয় যে লিখিত কোন কিছু পড়ার সময় মানুষের মনে টেক্সট খণ্ডায়ন প্রক্রিয়া চলে। এছাড়া স্বাভাবিক ভাষা প্রক্রিয়াকরণের সময় কম্পিউটারের মাধ্যমে কৃত্রিম উপায়ে টেক্সট খণ্ডায়ন করা হয়।

যেসমস্ত ভাষার লিখিত রূপে শব্দের সীমানা সহজেই বোঝা যায়, যেমন - ইংরেজি বা বাংলা ভাষার ক্ষেত্রে স্পেস বা ফাঁকা স্থানের উপস্থিতি, কিংবা আরবি ভাষায় শব্দের শুরু বা শেষে বর্ণসমূহের নির্দিষ্ট লক্ষণবাচক রূপ, সেসব ভাষায় টেক্সট খণ্ডায়ন করা তুলনামূলকভাবে সহজ। কিন্তু যেসব ভাষায় সহজে এরকম চাবিকাঠি খুঁজে পাওয়া যায় না, তাদের ক্ষেত্রে পরিসংখ্যানিক সিদ্ধান্ত গ্রহণ, বড় অভিধান, বাক্যতাত্ত্বিক ও আর্থিক সীমাবদ্ধতা, ইত্যাদির সাহায্য নিতে হয়।

স্বাভাবিক ভাষা প্রক্রিয়াকরণে শব্দ ও বাক্যের সীমানা খুঁজে বের করার কৌশল আলোচিত হয়। এই কৌশলগুলি প্রায় ক্ষেত্রেই কোন একটি বিশেষ জাতীয় টেক্সটের জন্য প্রযোজ্য। যেমন - সাধারণ সংবাদের টেক্সট খণ্ডায়নের কৌশল এবং চিকিৎসাবৈজ্ঞানিক টেক্সটের খণ্ডায়নের কৌশল থেকে অনেক ভিন্ন। সাধারণত যে ডোমেন বা ক্ষেত্রের টেক্সট খণ্ডায়ন করা হবে, তার একটি বড় কর্পাস বা ভাষাংশ নিয়ে গবেষণা কাজ শুরু হয়। যন্ত্র শিখনের কৌশলগুলির সাহায্য নেয়া হয়।

আরও দেখুন[সম্পাদনা]