ক্লাস্টার বিশ্লেষণ

উইকিপিডিয়া, মুক্ত বিশ্বকোষ থেকে
একটি কৃত্রিম ডেটাসেট ("মাউস", একটি সুপরিচিত কমিক চিত্রের অনুরূপ) এ সঞ্চালিত ক্লাস্টার বিশ্লেষণ

ক্লাস্টার বিশ্লেষণ

ক্লাস্টারিং এমন বস্তুর একটি সেট গোষ্ঠীভুক্ত করার কাজ যা এই গোষ্ঠীতে (ক্লাস্টার বলা হয়) বস্তুগুলি অন্য গোষ্ঠীগুলির (ক্লাস্টার্স) তুলনায় একে অপরের সাথে আরও অনুরূপ। এটি অনুসন্ধানকারী ডেটা মাইনিংয়ের একটি প্রধান কাজ এবং পরিসংখ্যানগত ডেটা বিশ্লেষণের জন্য একটি সাধারণ কৌশল, যা অনেক ক্ষেত্রে ব্যবহৃত হয় যেমন মেশিন লার্নিং, প্যাটার্ন স্বীকৃতি, চিত্র বিশ্লেষণ, তথ্য পুনরুদ্ধার, বায়োইনফরম্যাটিক্স, ডেটা কম্প্রেশন এবং কম্পিউটার গ্রাফিক্স।

ক্লাস্টার বিশ্লেষণ নিজেই একটি নির্দিষ্ট আলগোরিদিম নয়, কিন্তু সাধারণ কাজ সমাধান করা হবে। এটি বিভিন্ন অ্যালগরিদমগুলি দ্বারা অর্জন করা যেতে পারে যা একটি ক্লাস্টার গঠন করে এবং দক্ষতার সাথে কীভাবে তাদের খুঁজে বের করতে হয় তা বোঝার ক্ষেত্রে উল্লেখযোগ্যভাবে ভিন্ন। ক্লাস্টারগুলির জনপ্রিয় ধারণার মধ্যে ক্লাস্টার সদস্য, ডেটা স্পেসের ঘন এলাকায়, অন্তর বা নির্দিষ্ট পরিসংখ্যানগত বিতরণগুলির মধ্যে ছোট দূরত্ব সহ গোষ্ঠী অন্তর্ভুক্ত। ক্লাস্টারিং তাই একটি মাল্টি-উদ্দেশ্য অপ্টিমাইজেশান সমস্যা হিসাবে প্রণয়ন করা যেতে পারে। যথাযথ ক্লাস্টারিং অ্যালগরিদম এবং প্যারামিটার সেটিংস (ব্যবহারের জন্য দূরত্ব ফাংশন যেমন একটি ঘনত্ব থ্রেশহোল্ড বা প্রত্যাশিত ক্লাস্টারের প্যারামিটার সহ) পৃথক ডেটা সেট এবং ফলাফলগুলির উদ্দেশ্যে ব্যবহারে নির্ভর করে। ক্লাস্টার বিশ্লেষণ যেমন একটি স্বয়ংক্রিয় কাজ নয়, কিন্তু জ্ঞান আবিষ্কার বা ইন্টারেক্টিভ মাল্টি-উদ্দেশ্য অপটিমাইজেশনের একটি পুনরাবৃত্তিমূলক প্রক্রিয়া যা বিচার এবং ব্যর্থতার সাথে জড়িত। ফলাফলটি পূর্বনির্ধারিত বৈশিষ্ট্য অর্জন না হওয়া পর্যন্ত এটি ডেটা প্রপ্রোকাসিং এবং মডেল প্যারামিটারগুলিকে সংশোধন করতে প্রায়শই প্রয়োজনীয়।

ক্লাস্টার শব্দটি ছাড়াও, স্বয়ংক্রিয় শ্রেণীকরণ, সংখ্যাসূচক শ্রেণীবিন্যাস, বট্রিওলজি (গ্রিক βότρυς "দ্রাক্ষারস" থেকে), টাইপোলজিকাল বিশ্লেষণ এবং সম্প্রদায় সনাক্তকরণ সহ একই অর্থ সহ অনেকগুলি পদ রয়েছে। সূক্ষ্ম পার্থক্যগুলি প্রায়ই ফলাফলগুলির ব্যবহারে হয়: ডেটা মাইনিংয়ের সময়, ফলাফলযুক্ত গোষ্ঠী আগ্রহের �%A