টেক্সট খণ্ডায়ন

উইকিপিডিয়া, মুক্ত বিশ্বকোষ থেকে
Jump to navigation Jump to search

টেক্সট খণ্ডায়ন (ইংরেজি: Text segmentation) বলতে কোন একটি প্রদত্ত লিখিত বিষয়বস্তু বা টেক্সট-কে শব্দ বা অর্থপূর্ণ এককে বিভাজিত করাকে বোঝায়। ধারণা করা হয় যে লিখিত কোন কিছু পড়ার সময় মানুষের মনে টেক্সট খণ্ডায়ন প্রক্রিয়া চলে। এছাড়া স্বাভাবিক ভাষা প্রক্রিয়াকরণের সময় কম্পিউটারের মাধ্যমে কৃত্রিম উপায়ে টেক্সট খণ্ডায়ন করা হয়।

যেসমস্ত ভাষার লিখিত রূপে শব্দের সীমানা সহজেই বোঝা যায়, যেমন - ইংরেজি বা বাংলা ভাষার ক্ষেত্রে স্পেস বা ফাঁকা স্থানের উপস্থিতি, কিংবা আরবি ভাষায় শব্দের শুরু বা শেষে বর্ণসমূহের নির্দিষ্ট লক্ষণবাচক রূপ, সেসব ভাষায় টেক্সট খণ্ডায়ন করা তুলনামূলকভাবে সহজ। কিন্তু যেসব ভাষায় সহজে এরকম চাবিকাঠি খুঁজে পাওয়া যায় না, তাদের ক্ষেত্রে পরিসংখ্যানিক সিদ্ধান্ত গ্রহণ, বড় অভিধান, বাক্যতাত্ত্বিক ও আর্থিক সীমাবদ্ধতা, ইত্যাদির সাহায্য নিতে হয়।

স্বাভাবিক ভাষা প্রক্রিয়াকরণে শব্দ ও বাক্যের সীমানা খুঁজে বের করার কৌশল আলোচিত হয়। এই কৌশলগুলি প্রায় ক্ষেত্রেই কোন একটি বিশেষ জাতীয় টেক্সটের জন্য প্রযোজ্য। যেমন - সাধারণ সংবাদের টেক্সট খণ্ডায়নের কৌশল এবং চিকিৎসাবৈজ্ঞানিক টেক্সটের খণ্ডায়নের কৌশল থেকে অনেক ভিন্ন। সাধারণত যে ডোমেন বা ক্ষেত্রের টেক্সট খণ্ডায়ন করা হবে, তার একটি বড় কর্পাস বা ভাষাংশ নিয়ে গবেষণা কাজ শুরু হয়। যন্ত্র শিখনের কৌশলগুলির সাহায্য নেয়া হয়।

আরও দেখুন[সম্পাদনা]