বিষয়বস্তুতে চলুন

গ্রেডিয়েন্ট বুস্টিং

উইকিপিডিয়া, মুক্ত বিশ্বকোষ থেকে

গ্রেডিয়েন্ট বুস্টিং একটি মেশিন লার্নিং কৌশল যা এটি ফাংশন স্পেসভিত্তিক একটি বুস্টিং পদ্ধতি, যেখানে প্রচলিত বুস্টিংয়ের মতো শুধু অবশিষ্ট ত্রুটি নয়, বরং লস ফাংশনের গ্রেডিয়েন্ট ব্যবহার করে মডেল উন্নত করা হয়। এটি দুর্বল পূর্বাভাস মডেলগুলোর (যেগুলো এককভাবে খুব নির্ভুল নয়) একাধিক মডেল মিলিয়ে একটি সমন্বিত মডেল (ensemble) তৈরি করে। এই দুর্বল মডেলগুলি সাধারণত সহজ সিদ্ধান্ত গাছ হয়ে থাকে।[][] যখন দুর্বল শিক্ষার্থী হিসেবে একটি সিদ্ধান্ত গাছ ব্যবহার করা হয়, তখন ফলাফলপ্রাপ্ত অ্যালগরিদমকে গ্রেডিয়েন্ট-বুস্টেড ট্রিস (gradient-boosted trees) বলা হয়; এটি সাধারণত র্যান্ডম ফরেস্ট-এর চেয়ে ভালো কর্মক্ষমতা প্রদর্শন করে।[] অন্যান্য বুস্টিং পদ্ধতির মতো, গ্রেডিয়েন্ট-বুস্টেড ট্রিস মডেলটি ধাপে ধাপে তৈরি করা হয়, কিন্তু এটি একটি ইচ্ছামত ডিফারেনশিয়েভযোগ্য লস ফাংশনের (loss function) অপ্টিমাইজেশন অনুমতি দিয়ে অন্যান্য পদ্ধতিগুলোকে আরও সাধারণ রূপ দেয়।

ইতিহাস

[সম্পাদনা]

গ্রেডিয়েন্ট বুস্টিং-এর ধারণার উৎপত্তি হয়েছিল লিও ব্রেইম্যানের পর্যবেক্ষণ থেকে, যেখানে তিনি দেখান যে বুস্টিংকে একটি উপযুক্ত কস্ট ফাংশনের (cost function) উপর অপ্টিমাইজেশন অ্যালগরিদম হিসেবে ব্যাখ্যা করা যেতে পারে।[] এরপর জেরোম এইচ. ফ্রিডম্যানের মাধ্যমে সুনির্দিষ্ট রিগ্রেশন গ্রেডিয়েন্ট বুস্টিং অ্যালগরিদম তৈরি করা হয়[][] (১৯৯৯ সালে এবং পরে ২০০১ সালে)। একই সময়ে, লিউ ম্যাসন, জোনাথন ব্যাক্সটার, পিটার বার্টলেট এবং মার্কাস ফ্রিন আরও সাধারণ কার্যগত গ্রেডিয়েন্ট বুস্টিং (functional gradient boosting) দৃষ্টিভঙ্গি উপস্থাপন করেন।[][]

পরবর্তীতে উল্লিখিত দুটি গবেষণাপত্রে বুস্টিং অ্যালগরিদমকে ফাংশন স্পেসে ধাপে ধাপে গ্রেডিয়েন্ট ডিসেন্ট প্রয়োগের মাধ্যমে অ্যালগরিদম হিসেবে ব্যাখ্যা করা হয়। অর্থাৎ, এই অ্যালগরিদমগুলি একটি ফাংশন স্পেসের ওপর কস্ট ফাংশনকে অপ্টিমাইজ করে, যেখানে পুনরাবৃত্তির প্রতিটি ধাপে একটি ফাংশন (দুর্বল হাইপোথিসিস) নির্বাচন করা হয় যা নেগেটিভ গ্রেডিয়েন্ট দিকে নির্দেশ করে। বুস্টিং-এর এই ফাংশন স্পেস ভিত্তিক গ্রেডিয়েন্ট দৃষ্টিভঙ্গি পরবর্তীতে রিগ্রেশন এবং ক্লাসিফিকেশন ছাড়াও মেশিন লার্নিং ও পরিসংখ্যানের বিভিন্ন ক্ষেত্রে বুস্টিং অ্যালগরিদমের বিকাশ ঘটিয়েছে।

প্রাসঙ্গিক ব্যাখ্যা

[সম্পাদনা]

(এই অংশটি চেং লি-এর লেখা একটি সহজ ব্যাখ্যা অনুসরণ করে রচিত।[])

অন্যান্য বুস্টিং পদ্ধতির মতোই, গ্রেডিয়েন্ট বুস্টিং-ও দুর্বল "লার্নার"গুলিকে পুনরাবৃত্তির মাধ্যমে একত্রিত করে একটি শক্তিশালী লার্নার তৈরি করে। ধারণাটি সবচেয়ে সহজভাবে বোঝা যায় সর্বনিম্ন-বর্গ রিগ্রেশন এর উদাহরণ দিয়ে। এখানে মডেলটি -কে প্রশিক্ষণ দেওয়া হয় যাতে এটি ইনপুট থেকে সঠিক পূর্বাভাস দিতে পারে। এর জন্য মিন স্কোয়ার্ড এরর (mean squared error) -কে ন্যূনতম করা হয়। এখানে প্রশিক্ষণ সেটের (training set) প্রতিটি ডেটা বিন্দু নির্দেশ করে, প্রশিক্ষণ সেটের মোট আকার এবং আউটপুট ভেরিয়েবল -এর প্রকৃত মান নিম্নরূপে সংজ্ঞায়িত:

· ভবিষ্যদ্বাণীকৃত মান · প্রকৃত মান · নমুনার আকার; অর্থাৎ, -তে থাকা পর্যবেক্ষণের সংখ্যা

যদি অ্যালগরিদমটিতে টি ধাপ থাকে, তবে প্রতিটি -তম ধাপে () ধরা যাক, আমাদের কাছে কিছু অসম্পূর্ণ মডেল আছে (প্রথম দিকের -এর জন্য, এই মডেলটি সম্ভবত সকল -এর মান (অর্থাৎ -এর গড়) হিসেবে ভবিষ্যদ্বাণী করতে পারে)। -কে উন্নত করার জন্য, আমাদের অ্যালগরিদমে একটি নতুন অনুমানক (estimator) যোগ করতে হবে। অর্থাৎ,

বা, একইভাবে বলা যায়,

সুতরাং, গ্রেডিয়েন্ট বুস্টিং -কে অবশিষ্টাংশের (residual) সাথে মানানসই হবে, যেখানে অবশিষ্টাংশ হল । বুস্টিং-এর অন্যান্য রূপগুলোর মতোই, প্রতিটি তার পূর্ববর্তী মডেল -এর ত্রুটিগুলো সংশোধন করার চেষ্টা করে। এই ধারণাটি শুধু বর্গ ত্রুটি নয়, বরং অন্যান্য লস ফাংশন এবং ক্লাসিফিকেশন ও র্যাঙ্কিং সমস্যার জন্য আরও সাধারণ রূপ দেওয়া সম্ভব। এটি লক্ষ্য করলে বোঝা যায় যে, একটি নির্দিষ্ট মডেলের জন্য অবশিষ্টাংশ , মিন স্কোয়ার্ড এরর (MSE) লস ফাংশনের নেগেটিভ গ্রেডিয়েন্টের সমানুপাতিক (যেখানে গ্রেডিয়েন্ট -এর সাপেক্ষে নির্ণয় করা হয়):

সুতরাং, গ্রেডিয়েন্ট বুস্টিং-কে আরও সাধারণ একটি গ্রেডিয়েন্ট ডিসেন্ট অ্যালগরিদম হিসেবে গণ্য করা যেতে পারে, যেখানে শুধু MSE নয়, বরং ভিন্ন কোনো লস ফাংশন এবং তার গ্রেডিয়েন্ট ব্যবহার করে অপ্টিমাইজেশন প্রক্রিয়া চালানো যায়।

অ্যালগরিদম

[সম্পাদনা]

অনেক তত্ত্বাবধানাধীন শিখন সমস্যায় একটি আউটপুট ভেরিয়েবল y এবং ইনপুট ভেরিয়েবলের একটি ভেক্টর x থাকে, যা কিছু সম্ভাব্যতাভিত্তিক বণ্টনের মাধ্যমে পরস্পরের সাথে সম্পর্কিত। লক্ষ্য হল এমন একটি ফাংশন খুঁজে বের করা যা ইনপুট ভেরিয়েবলের মান থেকে আউটপুট ভেরিয়েবলের সর্বোত্তম অনুমান প্রদান করে। এটি করার জন্য কিছু লস ফাংশন সংজ্ঞায়িত করা হয় এবং এর প্রত্যাশিত মান (expectation) ন্যূনতম করা হয়:

গ্রেডিয়েন্ট বুস্টিং পদ্ধতি ধরে নেয় যে y বাস্তব-মানের (real-valued)। এটি -এর একটি অনুমান নির্ভর মান খোঁজে, যা শ্রেণীভুক্ত কিছু বেস (বা দুর্বল) লার্নার ফাংশন -এর টি ফাংশনের একটি ওজনযুক্ত সমষ্টি হিসেবে প্রকাশ পায়:

এখানে হলো -তম ধাপের ওজন। সাধারণত আমাদের কাছে একটি প্রশিক্ষণ সেট (training set) থাকে: , যেখানে x-এর মান এবং সংশ্লিষ্ট y-এর মান জানা আছে। অভিজ্ঞতাভিত্তিক ঝুঁকি ন্যূনতমকরণ (empirical risk minimization) নীতি অনুসারে, এই পদ্ধতি এমন একটি অনুমান খোঁজার চেষ্টা করে যা প্রশিক্ষণ সেটের ওপর লস ফাংশনের গড় মান (অর্থাৎ অভিজ্ঞতাভিত্তিক ঝুঁকি) ন্যূনতম করে। এটি একটি ধ্রুবক ফাংশন দিয়ে শুরু করে এবং ধাপে ধাপে তা গ্রিডি পদ্ধতিতে (greedy fashion) সম্প্রসারিত হয়:

যেখানে এবং একটি বেস লার্নার ফাংশন।

দুর্ভাগ্যবশত, যেকোনো লস ফাংশন L-এর জন্য প্রতিটি ধাপে সর্বোত্তম ফাংশন নির্বাচন করা সাধারণভাবে একটি গণনার দিক থেকে অত্যন্ত জটিল একটি অপ্টিমাইজেশন সমস্যা। তাই আমরা সমস্যার একটি সরলীকৃত সংস্করণে আমাদের পদ্ধতি সীমাবদ্ধ রাখি। মূল ধারণা হল এই ন্যূনতমকরণ সমস্যায় একটি স্টিপেস্ট ডিসেন্ট (steepest descent) ধাপ প্রয়োগ করা, যাকে ফাংশন স্পেসে গ্রেডিয়েন্ট ডিসেন্ট-ও বলা হয়। মূল কথা হল, -এর পুনরাবৃত্তির মাধ্যমে লস ফাংশনের একটি স্থানীয় ন্যূনতম মান খুঁজে বের করা। প্রকৃতপক্ষে, লস ফাংশনের সর্বোচ্চ নিম্নগামী অভিমুখ (local maximum-descent direction) হল নেগেটিভ গ্রেডিয়েন্ট।[] সুতরাং, অল্প পরিমাণ দ্বারা নিম্নলিখিতভাবে অগ্রসর হলে রৈখিক অনুমান (linear approximation) বৈধ থাকে:

যেখানে । ছোট -এর জন্য, এটি নিশ্চিত করে যে

গ্রেডিয়েন্টের ফাংশন রূপের প্রমাণ

নিচের বিষয়টি প্রমাণ করার জন্য, নিচের লক্ষ্য ফাংশনটি বিবেচনা করুন:

স্থির বিন্দু -এর সাপেক্ষে প্রথম ক্রম পর্যন্ত টেলর সম্প্রসারণ (Taylor expansion) করে পাই:

এখন -এর সাপেক্ষে অন্তরীকরণ করলে, দ্বিতীয় পদটির অন্তরীকরণ থেকে শুধু পাওয়া যায়। এটি সর্বোচ্চ ঊর্ধ্বগামী (steepest ascent) দিক নির্দেশ করে। তাই সর্বোচ্চ নিম্নগামী (steepest descent) দিকে অগ্রসর হতে হলে আমাদের বিপরীত (অর্থাৎ নেগেটিভ) দিকে যেতে হবে।

তাছাড়া, আমরা -এর মানও অপ্টিমাইজ করতে পারি, যাতে লস ফাংশনটি ন্যূনতম হয়:

যদি আমরা ধারাবাহিক (continuous) ক্ষেত্রে বিবেচনা করি, অর্থাৎ যদি -এর ওপর সংজ্ঞায়িত সকল অন্তরীকরণযোগ্য ফাংশনের সেট হয়, তাহলে আমরা নিচের সমীকরণ অনুসারে মডেলটি হালনাগাদ করব:

এখানে হল পদক্ষেপের দৈর্ঘ্য (step length), যা নিম্নরূপে সংজ্ঞায়িত: কিন্তু বিচ্ছিন্ন (discrete) ক্ষেত্রে, অর্থাৎ যখন সেটটি সসীম হয়, আমরা L-এর গ্রেডিয়েন্টের সবচেয়ে কাছাকাছি অবস্থানকারী ফাংশন h-কে নির্বাচন করি। এরপর সহগ γ-এর মান উপরিউক্ত সমীকরণগুলোর সাহায্যে লাইন সার্চ (line search) পদ্ধতিতে নির্ণয় করা যায়। মনে রাখতে হবে,

সিউডোকোডে, সাধারণ গ্রেডিয়েন্ট বুস্টিং পদ্ধতিটি নিম্নরূপ:[][]

ইনপুট: প্রশিক্ষণ সেট একটি অন্তরীকরণযোগ্য লস ফাংশন পুনরাবৃত্তির সংখ্যা M

অ্যালগরিদম:

একটি ধ্রুবক মান দিয়ে মডেল শুরু কর:

m = 1 থেকে M পর্যন্ত:

ছদ্ম-অবশিষ্টাংশ (pseudo-residuals) গণনা কর:

একটি বেস লার্নার (বা দুর্বল শিক্ষার্থী, যেমন গাছ) ছদ্ম-অবশিষ্টাংশের সাথে খাপ খাওয়াও (fit); অর্থাৎ প্রশিক্ষণ সেট ব্যবহার করে সেটিকে প্রশিক্ষণ দাও।

গুণক নির্ণয় কর নিচের এক-মাত্রিক অপ্টিমাইজেশন সমস্যা সমাধানের মাধ্যমে:

মডেল হালনাগাদ কর:

আউটপুট

গ্রেডিয়েন্ট ট্রি বুস্টিং

[সম্পাদনা]

গ্রেডিয়েন্ট বুস্টিং সাধারণত নির্দিষ্ট আকারের ডিসিশন ট্রি লার্নিং (বিশেষত CART) বেস লার্নার হিসেবে ব্যবহার করে। এই বিশেষ ক্ষেত্রটির জন্য, ফ্রিডম্যান গ্রেডিয়েন্ট বুস্টিং পদ্ধতিতে একটি পরিবর্তন প্রস্তাব করেন যা প্রতিটি বেস লার্নারের ফিটের গুণমান উন্নত করে।

m-তম ধাপে সাধারণ গ্রেডিয়েন্ট বুস্টিং ছদ্ম-অবশিষ্টাংশের সাথে একটি সিদ্ধান্ত গাছ খাপ খাওয়াবে। ধরি হলো গাছটির পাতার সংখ্যা। গাছটি ইনপুট স্পেসকে টি বিচ্ছিন্ন অঞ্চলে ভাগ করে এবং প্রতিটি অঞ্চলে একটি ধ্রুবক মান পূর্বাভাস দেয়। নির্দেশক নোটেশন (indicator notation) ব্যবহার করে, ইনপুট x-এর জন্য -এর আউটপুট নিম্নরূপে লেখা যেতে পারে:

যেখানে হল অঞ্চলে পূর্বাভাসকৃত মান।[]

তারপর সহগগুলিকে কিছু মান দ্বারা গুণ করা হয়, যা লস ফাংশনটি ন্যূনতম করার জন্য লাইন সার্চ ব্যবহার করে নির্বাচন করা হয়, এবং মডেলটি নিম্নরূপে হালনাগাদ করা হয়:

ফ্রিডম্যান এই অ্যালগরিদমটি পরিবর্তন করার প্রস্তাব দেন যাতে এটি পুরো গাছের জন্য একটি মাত্র ব্যবহার না করে, বরং গাছের প্রতিটি অঞ্চলের জন্য পৃথক পৃথক সর্বোত্তম মান নির্বাচন করে। তিনি পরিবর্তিত এই অ্যালগরিদমটির নাম দেন "TreeBoost"। ট্রি ফিট করার পদ্ধতি থেকে প্রাপ্ত সহগগুলি তখন সরাসরি বাতিল করা যায় এবং মডেল হালনাগাদের নিয়মটি নিম্নরূপ হয়:

যখন লস ফাংশন মিন স্কোয়ার্ড এরর (MSE) হয়, তখন সহগগুলি ট্রি ফিট করার পদ্ধতি থেকে প্রাপ্ত সহগগুলির সাথে মিলে যায়।

গাছের আকার

[সম্পাদনা]

গাছের টার্মিনাল নোডের সংখ্যা একটি প্যারামিটার যা মডেলে ভেরিয়েবলগুলির মধ্যে অনুমোদিত সর্বোচ্চ মিথস্ক্রিয়ার (interaction) মাত্রা নিয়ন্ত্রণ করে। (ডিসিশন স্টাম্প) হলে, ভেরিয়েবলগুলির মধ্যে কোনো মিথস্ক্রিয়া অনুমোদিত নয়। হলে মডেলটি সর্বোচ্চ দুটি ভেরিয়েবলের মধ্যে মিথস্ক্রিয়ার প্রভাব অন্তর্ভুক্ত করতে পারে, ইত্যাদি। হাতে থাকা ডেটাসেটের জন্য -এর মান সামঞ্জস্য করা যেতে পারে।

হাস্টি এট আল.[] মন্তব্য করেন যে সাধারণত বুস্টিং-এর জন্য ভালো কাজ করে এবং এই সীমার মধ্যে -এর পছন্দের ক্ষেত্রে ফলাফলগুলি মোটামুটি অপরিবর্তনশীল। অনেক প্রয়োগের জন্য অপর্যাপ্ত, এবং প্রয়োজন হওয়ার সম্ভাবনা খুব কম।

নিয়মিতকরণ

[সম্পাদনা]

প্রশিক্ষণ সেটের সাথে খুব ঘনিষ্ঠভাবে ফিট করালে মডেলের সাধারণীকরণ ক্ষমতা (অর্থাৎ অদেখা উদাহরণের উপর কর্মক্ষমতা) হ্রাস পেতে পারে। ফিটিং প্রক্রিয়ায় সীমাবদ্ধতা আরোপ করে এই অতিমাত্রায় ফিটিং কমানোর জন্য বেশ কয়েকটি তথাকথিত নিয়মিতকরণ কৌশল ব্যবহার করা হয়।

একটি স্বাভাবিক নিয়মিতকরণ প্যারামিটার হলো গ্রেডিয়েন্ট বুস্টিং পুনরাবৃত্তির সংখ্যা M (অর্থাৎ বেস মডেলের সংখ্যা)। M বাড়ালে প্রশিক্ষণ সেটের ত্রুটি কমে, কিন্তু অতিমাত্রায় ফিটিং-এর ঝুঁকি বাড়ে। M-এর একটি সর্বোত্তম মান প্রায়শই একটি পৃথক বৈধতা ডেটা সেটে পূর্বাভাস ত্রুটি পর্যবেক্ষণ করে নির্বাচন করা হয়।

ট্রি বুস্টিং-এর আরেকটি নিয়মিতকরণ প্যারামিটার হলো গাছের গভীরতা। এই মান যত বেশি হবে, মডেলটির প্রশিক্ষণ ডেটাতে অতিমাত্রায় ফিট করার সম্ভাবনা তত বেশি।

সংকোচন

[সম্পাদনা]

গ্রেডিয়েন্ট বুস্টিং-এর একটি গুরুত্বপূর্ণ অংশ হলো সংকোচনের মাধ্যমে নিয়মিতকরণ, যা একটি পরিবর্তিত হালনাগাদ নিয়ম ব্যবহার করে:

এখানে প্যারামিটার -কে "শিখন হার" (learning rate) বলা হয়।

অভিজ্ঞতালব্ধ ফলাফলে দেখা গেছে যে ছোট শিখন হার (যেমন ) ব্যবহার করলে সংকোচন ছাড়া গ্রেডিয়েন্ট বুস্টিং-এর () তুলনায় মডেলের সাধারণীকরণ ক্ষমতার ক্ষেত্রে উল্লেখযোগ্য উন্নতি হয়।[] তবে, এর বিনিময়ে প্রশিক্ষণ এবং কোয়েরি উভয় সময়েই গণনামূলক সময় বৃদ্ধি পায়: কম শিখন হারের জন্য বেশি পুনরাবৃত্তির প্রয়োজন হয়।

স্টোকাস্টিক গ্রেডিয়েন্ট বুস্টিং

[সম্পাদনা]

গ্রেডিয়েন্ট বুস্টিং প্রবর্তনের অল্প সময়ের মধ্যেই, ফ্রিডম্যান ব্রেইম্যানের বুটস্ট্র্যাপ অ্যাগ্রিগেশন ("ব্যাগিং") পদ্ধতি দ্বারা অনুপ্রাণিত হয়ে অ্যালগরিদমে একটি ছোটখাটো পরিবর্তনের প্রস্তাব করেন।[] বিশেষ করে, তিনি প্রস্তাব করেন যে অ্যালগরিদমের প্রতিটি পুনরাবৃত্তিতে, প্রশিক্ষণ সেট থেকে এলোমেলোভাবে (প্রতিস্থাপন ব্যতীত) নেওয়া একটি উপ-নমুনার উপর বেস লার্নারটিকে ফিট করানো উচিত।[১০] ফ্রিডম্যান এই পরিবর্তনের সাথে গ্রেডিয়েন্ট বুস্টিং-এর নির্ভুলতার ক্ষেত্রে যথেষ্ট উন্নতি লক্ষ্য করেন।

উপ-নমুনার আকার হল প্রশিক্ষণ সেটের আকারের একটি ধ্রুবক ভগ্নাংশ । যখন , অ্যালগরিদমটি সুনির্দিষ্ট (deterministic) এবং উপরে বর্ণিতটির অনুরূপ। -এর ছোট মান অ্যালগরিদমে এলোমেলোভাব আনে এবং এক ধরণের নিয়মিতকরণ হিসেবে কাজ করে অতিমাত্রায় ফিটিং প্রতিরোধে সহায়তা করে। অ্যালগরিদমটি আরও দ্রুত হয়ে ওঠে, কারণ প্রতিটি পুনরাবৃত্তিতে ছোট ডেটাসেটের সাথে রিগ্রেশন ট্রি ফিট করতে হয়। ফ্রিডম্যান[] দেখতে পান যে ছোট ও মাঝারি আকারের প্রশিক্ষণ সেটের জন্য ভালো ফলাফল দেয়। তাই, সাধারণত 0.5 নির্ধারণ করা হয়, অর্থাৎ প্রশিক্ষণ সেটের অর্ধেক অংশ প্রতিটি বেস লার্নার তৈরিতে ব্যবহৃত হয়।[১১]

এছাড়াও, ব্যাগিং-এর মতো, উপ-নমুনায়ন পরবর্তী বেস লার্নার তৈরিতে ব্যবহৃত হয়নি এমন পর্যবেক্ষণগুলির উপর পূর্বাভাস মূল্যায়ন করে পূর্বাভাস কর্মক্ষমতা উন্নতির একটি আউট-অফ-ব্যাগ ত্রুটি (out-of-bag error) সংজ্ঞায়িত করতে সাহায্য করে। আউট-অফ-ব্যাগ অনুমান একটি স্বাধীন বৈধতা ডেটাসেটের প্রয়োজন এড়াতে সহায়তা করে, তবে এটি প্রায়শই প্রকৃত কর্মক্ষমতা উন্নতি এবং সর্বোত্তম পুনরাবৃত্তির সংখ্যা underestimated করে থাকে।[১২][১৩]

পাতায় পর্যবেক্ষণের সংখ্যা

[সম্পাদনা]

গ্রেডিয়েন্ট ট্রি বুস্টিং বাস্তবায়নগুলি প্রায়শই গাছের টার্মিনাল নোডে পর্যবেক্ষণের ন্যূনতম সংখ্যা সীমিত করেও নিয়মিতকরণ ব্যবহার করে। গাছ নির্মাণ প্রক্রিয়ায় এই সীমা আরোপ করা হয় এমন যেকোনো বিভাজন উপেক্ষা করে যা এই সংখ্যার চেয়ে কম প্রশিক্ষণ সেট উদাহরণ ধারণকারী নোড তৈরি করে।

এই সীমা আরোপ করা পাতায় পূর্বাভাসের ভেদাঙ্ক কমাতে সাহায্য করে।

জটিলতার উপর জরিমানা

[সম্পাদনা]

গ্রেডিয়েন্ট বুস্টেড মডেলের জন্য আরেকটি দরকারী নিয়মিতকরণ কৌশল হল এর জটিলতার উপর জরিমানা আরোপ করা।[১৪] গ্রেডিয়েন্ট বুস্টেড ট্রির জন্য, মডেল জটিলতাকে গাছের পাতার সমানুপাতিক সংখ্যা হিসেবে সংজ্ঞায়িত করা যেতে পারে। লস এবং মডেল জটিলতার যৌথ অপ্টিমাইজেশন একটি পোস্ট-প্রুনিং অ্যালগরিদমের সাথে মিলে যায় যা এমন শাখাগুলি সরিয়ে দেয় যা লসকে একটি নির্দিষ্ট সীমার নিচে কমাতে ব্যর্থ হয়।

পাতার মানের উপর জরিমানার মতো অন্যান্য ধরণের নিয়মিতকরণও অতিমাত্রায় ফিটিং এড়াতে ব্যবহার করা যেতে পারে।[১৫]

ব্যবহার

[সম্পাদনা]

গ্রেডিয়েন্ট বুস্টিং র‍্যাঙ্ক শেখার ক্ষেত্রে ব্যবহার করা যেতে পারে। বাণিজ্যিক ওয়েব সার্চ ইঞ্জিন Yahoo[১৬] এবং Yandex[১৭] তাদের মেশিন-লার্নড র‍্যাঙ্কিং ইঞ্জিনে গ্রেডিয়েন্ট বুস্টিং-এর বিভিন্ন সংস্করণ ব্যবহার করে। উচ্চ-শক্তি পদার্থবিজ্ঞানেও ডেটা বিশ্লেষণে গ্রেডিয়েন্ট বুস্টিং ব্যবহৃত হয়। লার্জ হ্যাড্রন কলাইডারে (LHC), গ্রেডিয়েন্ট বুস্টিং ডিপ নিউরাল নেটওয়ার্কের (DNN) বিভিন্ন রূপ হিগস বোসন আবিষ্কারে ব্যবহৃত ডেটাসেটগুলিতে বিশ্লেষণের নন-মেশিন লার্নিং পদ্ধতির ফলাফল পুনরুত্পাদনে সফল হয়েছে।[১৮] গ্রেডিয়েন্ট বুস্টিং ডিসিশন ট্রি পৃথিবী ও ভূতাত্ত্বিক গবেষণায়ও প্রয়োগ করা হয়েছে – যেমন বেলেপাথরের জলাধারের গুণমান মূল্যায়ন।[১৯]

নাম সমূহ

[সম্পাদনা]

পদ্ধতিটি বিভিন্ন নামে পরিচিত। ফ্রিডম্যান তার রিগ্রেশন কৌশলটি প্রবর্তন করেন "গ্রেডিয়েন্ট বুস্টিং মেশিন" (GBM) নামে।[] ম্যাসন, ব্যাক্সটার এট আল. অ্যালগরিদমের সাধারণীকৃত বিমূর্ত শ্রেণিটিকে "ফাংশনাল গ্রেডিয়েন্ট বুস্টিং" বলে অভিহিত করেন।[][] ফ্রিডম্যান এট আল. গ্রেডিয়েন্ট বুস্টেড মডেলের একটি উন্নত সংস্করণ বর্ণনা করেন "মাল্টিপল অ্যাডিটিভ রিগ্রেশন ট্রিস" (MART) নামে;[২০] এলিথ এট আল. এই পদ্ধতিটিকে "বুস্টেড রিগ্রেশন ট্রিস" (BRT) হিসেবে বর্ণনা করেন।[২১]

R-এর জন্য একটি জনপ্রিয় ওপেন-সোর্স বাস্তবায়ন একে "জেনারেলাইজড বুস্টিং মডেল" (Generalized Boosting Model) বলে ডাকে,[১২] তবে এই কাজটি সম্প্রসারিত প্যাকেজগুলি BRT নাম ব্যবহার করে।[২২] আরেকটি নাম হল ট্রিনেট (TreeNet), যা স্যালফোর্ড সিস্টেমের ড্যান স্টেইনবার্গের একটি প্রাথমিক বাণিজ্যিক বাস্তবায়নের নামানুসারে। স্টেইনবার্গ সেই গবেষকদের একজন যারা ট্রি-ভিত্তিক পদ্ধতির ব্যবহারে পথিকৃৎ।[২৩]

ফিচার গুরুত্ব ক্রমায়ন

[সম্পাদনা]

গ্রেডিয়েন্ট বুস্টিং ফিচার গুরুত্ব ক্রমায়নের জন্য ব্যবহার করা যেতে পারে, যা সাধারণত বেস লার্নারদের গুরুত্ব ফাংশন একত্রিত করার উপর ভিত্তি করে তৈরি হয়।[২৪] উদাহরণস্বরূপ, যদি এনট্রপি-ভিত্তিক সিদ্ধান্ত ট্রি ব্যবহার করে একটি গ্রেডিয়েন্ট বুস্টেড ট্রি অ্যালগরিদম তৈরি করা হয়, তাহলে একত্রিত অ্যালগরিদমটি এনট্রপির উপর ভিত্তি করেও ফিচারগুলোর গুরুত্ব ক্রমায়ন করে। তবে এই ক্ষেত্রে গুরুত্বটি সকল বেস লার্নারের উপর গড় হিসেবে নির্ণয় করা হয়।[২৪][]

অসুবিধাসমূহ

[সম্পাদনা]

বুস্টিং পদ্ধতি যদিও সিদ্ধান্ত গাছ বা লিনিয়ার রিগ্রেশনের মতো বেস লার্নারগুলোর নির্ভুলতা বাড়াতে পারে, তবে এর জন্য মূল্য দিতে হয় মডেলটির স্বচ্ছতা ও ব্যাখ্যাযোগ্যতা বিসর্জন দিয়ে।[২৪][২৫]

একটি একক সিদ্ধান্ত ট্রি কীভাবে কোনো সিদ্ধান্তে পৌঁছায়, সেটি অনুসরণ করা সহজ এবং স্বয়ংসম্পূর্ণভাবে ব্যাখ্যা করা যায়—কোন শর্ত পরীক্ষা করে, কোন পথ ধরে শেষ পর্যন্ত কোন ফলে পৌঁছাল, সেটি চোখে দেখা যায়। কিন্তু যখন শত শত বা হাজার হাজার ট্রি এর সমষ্টি নিয়ে কাজ করতে হয়, তখন তাদের সিদ্ধান্তপ্রক্রিয়ার পথ অনুসরণ করা অনেকটাই অসম্ভব হয়ে ওঠে।

তবে শুধু কর্মক্ষমতা নয়, ব্যাখ্যাযোগ্যতাও যদি প্রয়োজন হয়, তাহলে কিছু মডেল সংকোচন কৌশল (model compression techniques) আছে। এগুলোর সাহায্যে একটি জটিল XGBoost মডেলকে এমন একটি "পুনর্জন্মপ্রাপ্ত" (born-again) সিদ্ধান্ত ট্রিতে রূপান্তরিত করা যায়, যা আসল মডেলের প্রায় কাছাকাছি সিদ্ধান্ত নিতে পারে, কিন্তু একটি মাত্র ট্রি হওয়ায় সহজে ব্যাখ্যা করা যায়।[২৬]

আরেকটি বিষয় হলো, গ্রেডিয়েন্ট বুস্টিং বাস্তবায়ন করা তুলনামূলকভাবে কঠিন, কারণ এতে প্রচুর গণনা ও সময়ের প্রয়োজন হয়।

আরও দেখুন

[সম্পাদনা]

তথ্যসূত্র

[সম্পাদনা]
  1. 1 2 3 4 5 6 Hastie, T.; Tibshirani, R.; Friedman, J. H. (২০০৯)। "10. Boosting and Additive Trees"The Elements of Statistical Learning (2nd সংস্করণ)। New York: Springer। পৃ. ৩৩৭–৩৮৪। আইএসবিএন ৯৭৮-০-৩৮৭-৮৪৮৫৭-০। ১০ নভেম্বর ২০০৯ তারিখে মূল থেকে আর্কাইভকৃত।
  2. 1 2 3 4 Friedman, J. H. (মার্চ ১৯৯৯)। "Stochastic Gradient Boosting" (পিডিএফ)। ১ আগস্ট ২০১৪ তারিখে মূল থেকে (পিডিএফ) আর্কাইভকৃত। সংগ্রহের তারিখ ১৩ নভেম্বর ২০১৩
  3. Breiman, L. (জুন ১৯৯৭)। "Arcing The Edge" (পিডিএফ)Technical Report 486। Statistics Department, University of California, Berkeley।
  4. 1 2 3 Friedman, J. H. (ফেব্রুয়ারি ১৯৯৯)। "Greedy Function Approximation: A Gradient Boosting Machine" (পিডিএফ)। ১ নভেম্বর ২০১৯ তারিখে মূল থেকে (পিডিএফ) আর্কাইভকৃত। সংগ্রহের তারিখ ২৭ আগস্ট ২০১৮
  5. 1 2 Mason, L.; Baxter, J.; Bartlett, P. L.; Frean, Marcus (১৯৯৯)। "Boosting Algorithms as Gradient Descent" (পিডিএফ)। S.A. Solla and T.K. Leen and K. Müller (সম্পাদক)। Advances in Neural Information Processing Systems 12। MIT Press। পৃ. ৫১২–৫১৮।
  6. 1 2 Mason, L.; Baxter, J.; Bartlett, P. L.; Frean, Marcus (মে ১৯৯৯)। "Boosting Algorithms as Gradient Descent in Function Space" (পিডিএফ)। ২২ ডিসেম্বর ২০১৮ তারিখে মূল থেকে (পিডিএফ) আর্কাইভকৃত।
  7. Cheng Li। "A Gentle Introduction to Gradient Boosting" (পিডিএফ)
  8. Lambers, Jim (২০১১–২০১২)। "The Method of Steepest Descent" (পিডিএফ)। ১৯ মার্চ ২০২৩ তারিখে মূল থেকে (পিডিএফ) আর্কাইভকৃত। সংগ্রহের তারিখ ২৪ ফেব্রুয়ারি ২০২৬
  9. মন্তব্য: সাধারণ CART গাছের ক্ষেত্রে, গাছগুলি সর্বনিম্ন-বর্গ লস (least-squares loss) ব্যবহার করে ফিট করানো হয়, এবং তাই অঞ্চলের জন্য পার্স করতে ব্যর্থ (সিনট্যাক্স ত্রুটি): {\displaystyle b_{jm}}} সহগটি -এর সকল প্রশিক্ষণ উদাহরণের ওপর আউটপুট ভেরিয়েবলের গড় মানের সমান।
  10. মনে রাখবেন যে এটি ব্যাগিং থেকে ভিন্ন, ব্যাগিং-এ প্রতিস্থাপনসহ নমুনায়ন করা হয় এবং প্রশিক্ষণ সেটের সমান আকারের নমুনা ব্যবহার করা হয়।
  11. Arrabi, Nooshin; Torabi, Mohhamadreza; Fassihi, Afshin; Ghasemi, Fahimeh। "Identification of potential vascular endothelial growth factor receptor inhibitors via tree-based learning modeling and molecular docking simulation"। Chemometrics (ইংরেজি ভাষায়)। (1): ১। ডিওআই:10.1002/cem.3545
  12. 1 2 Ridgeway, Greg (2007). Generalized Boosted Models: A guide to the gbm package.
  13. Learn Gradient Boosting Algorithm for better predictions (with codes in R)
  14. Tianqi Chen. Introduction to Boosted Trees
  15. Arrabi, Nooshin; Torabi, Mohhamadreza; Fassihi, Afshin; Ghasemi, Fahimeh। "Identification of potential vascular endothelial growth factor receptor inhibitors via tree-based learning modeling and molecular docking simulation"। Chemometrics (ইংরেজি ভাষায়)। (1): ১। ডিওআই:10.1002/cem.3545
  16. Cossock, David and Zhang, Tong (2008). Statistical Analysis of Bayes Optimal Subset Ranking ওয়েব্যাক মেশিনে আর্কাইভকৃত ২০১০-০৮-০৭ তারিখে, page 14.
  17. Yandex corporate blog entry about new ranking model "Snezhinsk" ওয়েব্যাক মেশিনে আর্কাইভকৃত ২০১২-০৩-০১ তারিখে (in Russian)
  18. Lalchand, Vidhi (২০২০)। "Extracting more from boosted decision trees: A high energy physics case study"। আরজাইভ:2001.06033 [stat.ML]।
  19. Ma, Longfei; Xiao, Hanmin; Tao, Jingwei; Zheng, Taiyi; Zhang, Haiqin (১ জানুয়ারি ২০২২)। "An intelligent approach for reservoir quality evaluation in tight sandstone reservoir using gradient boosting decision tree algorithm"Open Geosciences (ইংরেজি ভাষায়)। ১৪ (1): ৬২৯–৬৪৫। বিবকোড:2022OGeo...14..354Mডিওআই:10.1515/geo-2022-0354আইএসএসএন 2391-5447
  20. Friedman, Jerome (২০০৩)। "Multiple Additive Regression Trees with Application in Epidemiology"Statistics in Medicine২২ (9): ১৩৬৫–১৩৮১। ডিওআই:10.1002/sim.1501পিএমআইডি 12704603এস২সিআইডি 41965832
  21. Elith, Jane (২০০৮)। "A working guide to boosted regression trees"Journal of Animal Ecology৭৭ (4): ৮০২–৮১৩। বিবকোড:2008JAnEc..77..802Eডিওআই:10.1111/j.1365-2656.2008.01390.xপিএমআইডি 18397250
  22. Elith, Jane। "Boosted Regression Trees for ecological modeling" (পিডিএফ)CRAN। ২৫ জুলাই ২০২০ তারিখে মূল থেকে (পিডিএফ) আর্কাইভকৃত। সংগ্রহের তারিখ ৩১ আগস্ট ২০১৮
  23. "Exclusive: Interview with Dan Steinberg, President of Salford Systems, Data Mining Pioneer"KDnuggets
  24. 1 2 3 Piryonesi, S. Madeh; El-Diraby, Tamer E. (১ মার্চ ২০২০)। "Data Analytics in Asset Management: Cost-Effective Prediction of the Pavement Condition Index"Journal of Infrastructure Systems (ইংরেজি ভাষায়)। ২৬ (1): ০৪০১৯০৩৬। ডিওআই:10.1061/(ASCE)IS.1943-555X.0000512আইএসএসএন 1943-555Xএস২সিআইডি 213782055
  25. Wu, Xindong; Kumar, Vipin; Ross Quinlan, J.; Ghosh, Joydeep; Yang, Qiang; Motoda, Hiroshi; McLachlan, Geoffrey J.; Ng, Angus; Liu, Bing; Yu, Philip S.; Zhou, Zhi-Hua (১ জানুয়ারি ২০০৮)। "Top 10 algorithms in data mining"। Knowledge and Information Systems (ইংরেজি ভাষায়)। ১৪ (1): ১–৩৭। ডিওআই:10.1007/s10115-007-0114-2এইচডিএল:10983/15329আইএসএসএন 0219-3116এস২সিআইডি 2367747
  26. Sagi, Omer; Rokach, Lior (২০২১)। "Approximating XGBoost with an interpretable decision tree."। Information Sciences৫৭২ (2021): ৫২২–৫৪২। ডিওআই:10.1016/j.ins.2021.05.055