ক্লাস্টার বিশ্লেষণ

উইকিপিডিয়া, মুক্ত বিশ্বকোষ থেকে
পরিভ্রমণে ঝাঁপ দিন অনুসন্ধানে ঝাঁপ দিন

ক্লাস্টার বিশ্লেষণ

ক্লাস্টারিং এমন বস্তুর একটি সেট গোষ্ঠীভুক্ত করার কাজ যা এই গোষ্ঠীতে (ক্লাস্টার বলা হয়) বস্তুগুলি অন্য গোষ্ঠীগুলির (ক্লাস্টার্স) তুলনায় একে অপরের সাথে আরও অনুরূপ। এটি অনুসন্ধানকারী ডেটা মাইনিংয়ের একটি প্রধান কাজ এবং পরিসংখ্যানগত ডেটা বিশ্লেষণের জন্য একটি সাধারণ কৌশল, যা অনেক ক্ষেত্রে ব্যবহৃত হয় যেমন মেশিন লার্নিং, প্যাটার্ন স্বীকৃতি, চিত্র বিশ্লেষণ, তথ্য পুনরুদ্ধার, বায়োইনফরম্যাটিক্স, ডেটা কম্প্রেশন এবং কম্পিউটার গ্রাফিক্স।

ক্লাস্টার বিশ্লেষণ নিজেই একটি নির্দিষ্ট আলগোরিদিম নয়, কিন্তু সাধারণ কাজ সমাধান করা হবে। এটি বিভিন্ন অ্যালগরিদমগুলি দ্বারা অর্জন করা যেতে পারে যা একটি ক্লাস্টার গঠন করে এবং দক্ষতার সাথে কীভাবে তাদের খুঁজে বের করতে হয় তা বোঝার ক্ষেত্রে উল্লেখযোগ্যভাবে ভিন্ন। ক্লাস্টারগুলির জনপ্রিয় ধারণার মধ্যে ক্লাস্টার সদস্য, ডেটা স্পেসের ঘন এলাকায়, অন্তর বা নির্দিষ্ট পরিসংখ্যানগত বিতরণগুলির মধ্যে ছোট দূরত্ব সহ গোষ্ঠী অন্তর্ভুক্ত। ক্লাস্টারিং তাই একটি মাল্টি-উদ্দেশ্য অপ্টিমাইজেশান সমস্যা হিসাবে প্রণয়ন করা যেতে পারে। যথাযথ ক্লাস্টারিং অ্যালগরিদম এবং প্যারামিটার সেটিংস (ব্যবহারের জন্য দূরত্ব ফাংশন যেমন একটি ঘনত্ব থ্রেশহোল্ড বা প্রত্যাশিত ক্লাস্টারের প্যারামিটার সহ) পৃথক ডেটা সেট এবং ফলাফলগুলির উদ্দেশ্যে ব্যবহারে নির্ভর করে। ক্লাস্টার বিশ্লেষণ যেমন একটি স্বয়ংক্রিয় কাজ নয়, কিন্তু জ্ঞান আবিষ্কার বা ইন্টারেক্টিভ মাল্টি-উদ্দেশ্য অপটিমাইজেশনের একটি পুনরাবৃত্তিমূলক প্রক্রিয়া যা বিচার এবং ব্যর্থতার সাথে জড়িত। ফলাফলটি পূর্বনির্ধারিত বৈশিষ্ট্য অর্জন না হওয়া পর্যন্ত এটি ডেটা প্রপ্রোকাসিং এবং মডেল প্যারামিটারগুলিকে সংশোধন করতে প্রায়শই প্রয়োজনীয়।

ক্লাস্টার শব্দটি ছাড়াও, স্বয়ংক্রিয় শ্রেণীকরণ, সংখ্যাসূচক শ্রেণীবিন্যাস, বট্রিওলজি (গ্রিক βότρυς "দ্রাক্ষারস" থেকে), টাইপোলজিকাল বিশ্লেষণ এবং সম্প্রদায় সনাক্তকরণ সহ একই অর্থ সহ অনেকগুলি পদ রয়েছে। সূক্ষ্ম পার্থক্যগুলি প্রায়ই ফলাফলগুলির ব্যবহারে হয়: ডেটা মাইনিংয়ের সময়, ফলাফলযুক্ত গোষ্ঠী আগ্রহের বিষয়, স্বয়ংক্রিয় শ্রেণীবিভাগে ফলে বৈষম্যমূলক শক্তি স্বার্থের হয়।

ক্লাস্টার বিশ্লেষণটি ১৯৩২ সালে ড্রাইভার এবং ক্রয়েবারের দ্বারা নৃতত্ত্ববিজ্ঞান থেকে উদ্ভূত হয়েছিল এবং১৯৩৮ সালে জোসেফ জুবিনের দ্বারা মনোবিজ্ঞান এবং১৯৩৯ সালে রবার্ট ট্রায়ান এবং বিখ্যাত উপাধি তত্ত্ব শ্রেণীবদ্ধকরণের জন্য ১৯৪৩সালে শুরু হওয়া ক্যাটেল দ্বারা বিখ্যাতভাবে ব্যবহৃত হয়েছিল। সংজ্ঞা

"ক্লাস্টার" ধারণাটি যথাযথভাবে সংজ্ঞায়িত করা যায় না, এটি এতগুলি ক্লাস্টারিং অ্যালগরিদম থাকার কারণগুলির মধ্যে একটি কারণ [ একটি সাধারণ ডিনোমিনেটর রয়েছে: ডেটা অবজেক্টের একটি গ্রুপ। তবে, বিভিন্ন গবেষক বিভিন্ন ক্লাস্টার মডেল নিয়োগ করেন এবং এই ক্লাস্টারের প্রতিটি মডেলের জন্য আবার বিভিন্ন অ্যালগোরিদম দেওয়া যেতে পারে। একটি ক্লাস্টারের ধারণা, বিভিন্ন অ্যালগোরিদম হিসাবে পাওয়া যায়, এর বৈশিষ্ট্যগুলিতে উল্লেখযোগ্যভাবে পরিবর্তিত হয়। এই "ক্লাস্টার মডেলগুলি" বোঝা বিভিন্ন অ্যালগরিদমের মধ্যে পার্থক্য বোঝার মূল বিষয়। সাধারণ ক্লাস্টার মডেলগুলির মধ্যে রয়েছে:

সংযোগের মডেল: উদাহরণস্বরূপ, শ্রেণিবিন্যাস ক্লাস্টারিং দূরত্ব সংযোগের ভিত্তিতে মডেল তৈরি করে। সেন্ট্রয়েড মডেল: উদাহরণস্বরূপ, কে-মানে অ্যালগরিদম প্রতিটি ক্লাস্টারকে একক গড় ভেক্টর দ্বারা প্রতিনিধিত্ব করে। বিতরণ মডেল: ক্লাস্টারগুলি প্রত্যাশা-সর্বাধিককরণ অ্যালগরিদম দ্বারা ব্যবহৃত মাল্টিভারিয়েট সাধারণ বিতরণগুলির মতো পরিসংখ্যান বিতরণ ব্যবহার করে মডেল করা হয়। ঘনত্ব মডেল: উদাহরণস্বরূপ, ডিবিএসসিএএন এবং অপটিক্স ক্লাস্টারগুলিকে ডেটা স্পেসে সংযুক্ত ঘন অঞ্চল হিসাবে সংজ্ঞায়িত করে। সাবস্পেস মডেল: বাইক্লাস্টারিংয়ে (কো-ক্লাস্টারিং বা টু-মোড-ক্লাস্টারিং নামেও পরিচিত), ক্লাস্টারগুলি উভয় ক্লাস্টার সদস্য এবং প্রাসঙ্গিক বৈশিষ্ট্যগুলির সাথে মডেল করা হয়। গ্রুপ মডেল: কিছু অ্যালগরিদম তাদের ফলাফলের জন্য একটি পরিশোধিত মডেল সরবরাহ করে না এবং কেবল গোষ্ঠী সম্পর্কিত তথ্য সরবরাহ করে। গ্রাফ-ভিত্তিক মডেল: একটি চক্র, অর্থাৎ গ্রাফের নোডের একটি উপসেট যেমন সাবসেটের প্রতিটি দুটি নোড একটি প্রান্তের সাথে সংযুক্ত থাকে তবে এটি ক্লাস্টারের একটি নমুনা রূপ হিসাবে বিবেচনা করা যেতে পারে। সম্পূর্ণ সংযোগের প্রয়োজনীয়তার শিথিলকরণ (প্রান্তগুলির একটি ভগ্নাংশটি অনুপস্থিত হতে পারে) হিসাবে এইচসিএস ক্লাস্টারিং অ্যালগরিদম হিসাবে, আধা-ক্লাখ হিসাবে পরিচিত। স্বাক্ষরিত গ্রাফ মডেলগুলি: স্বাক্ষরিত গ্রাফের প্রতিটি পাথের কিনারাগুলিতে চিহ্নগুলির পণ্য থেকে একটি চিহ্ন থাকে। ভারসাম্য তত্ত্বের অনুমানের অধীনে, প্রান্তগুলি সাইন পরিবর্তন করতে পারে এবং দ্বিখণ্ডিত গ্রাফের ফলস্বরূপ। দুর্বল "ক্লাস্টারিবিলিটি অ্যাক্সিয়াম" (কোনও চক্রের ঠিক একটি নেতিবাচক প্রান্ত থাকে না) দু'বারের বেশি ক্লাস্টার, বা কেবলমাত্র ইতিবাচক প্রান্ত সহ উপগ্রাফের ফলাফল দেয় নিউরাল মডেলগুলি: সর্বাধিক পরিচিত অ-নিরীক্ষিত নিউরাল নেটওয়ার্কটি স্ব-সংগঠিত মানচিত্র এবং এই মডেলগুলি সাধারণত উপরোক্ত মডেলগুলির মধ্যে এক বা একাধিকের অনুরূপ হিসাবে চিহ্নিত করা যেতে পারে এবং নিউরাল নেটওয়ার্কগুলি যখন অধ্যক্ষ উপাদান, উপাদান বিশ্লেষণ বা স্বতন্ত্র একটি ফর্ম প্রয়োগ করে তখন সাবস্পেস মডেলগুলিও অন্তর্ভুক্ত থাকতে পারে উপাদান বিশ্লেষণ।Tamanna (আলাপ) ০৬:২৪, ৩০ আগস্ট ২০১৯ (ইউটিসি)Israt Sultana Tamanna