শিখন হার
মেশিন লার্নিং ও উপাত্ত খনন |
---|
![]() |
|
মেশিন লার্নিংয়ে শিখন হার(ইংরেজিঃ Learning rate) হলো এমন একটি টিউনিং প্যারামিটার যা নির্ধারণ করে একটি অ্যালগরিদম প্রতিবার কতটা এগোবে ক্ষতি ফাংশনের সর্বনিম্ন বিন্দুর দিকে।[১] এটি নতুন তথ্য পুরানো তথ্যকে কতটা প্রভাবিত করবে তা ঠিক করে, অর্থাৎ মডেল কত দ্রুত "শিখবে"। অ্যাডাপটিভ কন্ট্রোলে একে গেইন বলে।[২]
শিখন হার ঠিক করতে গিয়ে গতি আর ওভারশুটিংয়ের মধ্যে ভারসাম্য রাখতে হয়। গ্রেডিয়েন্ট দিক দেখায়, কিন্তু শিখন হার ধাপের আকার ঠিক করে। বেশি হলে সর্বনিম্ন ছাড়িয়ে যাবে, কম হলে অনেক সময় লাগবে বা ভুল জায়গায় আটকে যাবে।[৩]
শিখন হার প্রশিক্ষণের সময় বদলানো হয় যাতে দ্রুত কনভারজেন্স হয়, দোলন না হয় এবং ভুল স্থানীয় সর্বনিম্নে আটকে না যায়। এটি একটি নির্দিষ্ট সিডিউল বা অ্যাডাপটিভ পদ্ধতি দিয়ে করা হয়।[৪] প্রতিটি প্যারামিটারের জন্য শিখন হার আলাদা হতে পারে, তখন এটি একটি তির্যক ম্যাট্রিক্সের মতো হয়, যা নিউটনের পদ্ধতিতে হেসিয়ান ম্যাট্রিক্সের বিপরীতের আনুমানিক হিসেবে বোঝা যায়।[৫] এটি কোয়াসি-নিউটন পদ্ধতি এবং অন্যান্য অপ্টিমাইজেশন অ্যালগরিদমে অসম্পূর্ণ লাইন সার্চের ধাপের দৈর্ঘ্যের সঙ্গে জড়িত।[৬][৭]
শিখন হার সিডিউল
[সম্পাদনা]শিখন হার শুরুতে ডিফল্ট রাখা যায় বা কৌশল দিয়ে বেছে নেওয়া যায়। শিখন হার সিডিউল শিক্ষার সময় এটিকে বদলায়, সাধারণত এপক বা পুনরাবৃত্তির সঙ্গে।[৮] এটি ক্ষয় আর গতি নামে দুটি জিনিস দিয়ে করা হয়। সাধারণ সিডিউলগুলো হলো সময়-ভিত্তিক, ধাপ-ভিত্তিক আর সূচকীয়।[৪]
ক্ষয় শিক্ষাকে সঠিক জায়গায় স্থির রাখে আর দোলন আটকায়। উচ্চ শিখন হার থাকলে শিক্ষা সর্বনিম্ন বিন্দুর ওপর দিয়ে লাফাতে পারে। এটি একটি হাইপারপ্যারামিটার দিয়ে নিয়ন্ত্রণ করা হয়।
গতি একটি পাহাড়ে গড়ানো বলের মতো। আমরা চাই বলটি সবচেয়ে নিচে (কম ত্রুটির জায়গায়) থামুক। গতি শিক্ষার গতি বাড়ায় যখন ত্রুটির দিক একই থাকে, আর ছোট বাধা পার করে স্থানীয় সর্বনিম্ন এড়ায়। এটিও একটি হাইপারপ্যারামিটার দিয়ে নিয়ন্ত্রিত, যা বলের ভরের মতো। বেশি হলে বল সর্বনিম্ন ছাড়িয়ে যায়, কম হলে কাজ করে না। গতির সূত্র ক্ষয়ের চেয়ে জটিল, কিন্তু Keras-এর মতো লাইব্রেরিতে এটি আগে থেকে থাকে।
সময়-ভিত্তিক লার্নিং সিডিউল পূর্ববর্তী সময়ের পুনরাবৃত্তির শিখন হারের উপর নির্ভর করে শিখন হার পরিবর্তন করে। ক্ষয় ফ্যাক্টরিংয়ের গাণিতিক সূত্রটি হল:
যেখানে হল শিখন হার, হল একটি ক্ষয় প্যারামিটার এবং হল পুনরাবৃত্তি ধাপ।
ধাপ-ভিত্তিক লার্নিং সিডিউল কিছু পূর্বনির্ধারিত ধাপ অনুসারে শিখন হার পরিবর্তন করে। এখানে ক্ষয় প্রয়োগের সূত্রটি নিম্নরূপ:
যেখানে হল পুনরাবৃত্তি -এ শিখন হার, হল প্রাথমিক শিখন হার, হল শিখন হার কতটা পরিবর্তন করা উচিত প্রতিটি ড্রপে (০.৫ অর্ধেক করার সাথে সম্পর্কিত) এবং হল ড্রপ রেট, বা রেট কত ঘন ঘন কমানো উচিত (১০ প্রতি ১০ পুনরাবৃত্তিতে একটি ড্রপের সাথে সম্পর্কিত)। এখানে ফ্লোর ফাংশন () তার ইনপুটের মানকে ১-এর চেয়ে ছোট সব মানের জন্য ০-তে নামিয়ে দেয়।
এক্সপোনেনশিয়াল লার্নিং সিডিউল ধাপ-ভিত্তিকের মতো, তবে ধাপের পরিবর্তে একটি কমে যাওয়া এক্সপোনেনশিয়াল ফাংশন ব্যবহৃত হয়। ক্ষয় ফ্যাক্টরিংয়ের গাণিতিক সূত্রটি হল:
যেখানে হল একটি ক্ষয় প্যারামিটার।
অ্যাডাপটিভ শিখন হার
[সম্পাদনা]শিখন হার সিডিউলের সমস্যা হলো এগুলো হাইপারপ্যারামিটারের উপর নির্ভর করে, যেগুলো প্রতিটি শিক্ষা সেশনের জন্য হাতে বেছে নিতে হয়। এই হাইপারপ্যারামিটারগুলো সমস্যা বা ব্যবহৃত মডেলের উপর ভিত্তি করে অনেকটা পরিবর্তিত হতে পারে। এই সমস্যা সমাধানের জন্য, বিভিন্ন অ্যাডাপটিভ গ্রেডিয়েন্ট ডিসেন্ট অ্যালগরিদম আছে, যেমন অ্যাডাগ্রাড, অ্যাডাডেল্টা, আরএমএসপ্রপ, এবং অ্যাডাম যেগুলো Keras-এর মতো লাইব্রেরিতে আগে থেকে থাকে।[৯]
আরও দেখুন
[সম্পাদনা]তথ্যসূত্র
[সম্পাদনা]- ↑ Murphy, Kevin P. (২০১২)। মেশিন লার্নিং: একটি সম্ভাব্য দৃষ্টিকোণ। কেমব্রিজ: MIT প্রেস। পৃষ্ঠা 247। আইএসবিএন 978-0-262-01802-9।
- ↑ Delyon, Bernard (২০০০)। "কমে যাওয়া গেইন সহ স্টোকাস্টিক অ্যাপ্রক্সিমেশন: কনভারজেন্স এবং অ্যাসিম্পটোটিক তত্ত্ব"। অপ্রকাশিত বক্তৃতা নোট। ইউনিভার্সিটি ডি রেনেস। সাইট সিয়ারX 10.1.1.29.4428
।
- ↑ Buduma, Nikhil; Locascio, Nicholas (২০১৭)। ডিপ লার্নিং-এর মৌলিক বিষয়: পরবর্তী প্রজন্মের মেশিন ইন্টেলিজেন্স অ্যালগরিদম ডিজাইন। ও'রেইলি। পৃষ্ঠা 21। আইএসবিএন 978-1-4919-2558-4।
- ↑ ক খ Patterson, Josh; Gibson, Adam (২০১৭)। "লার্নিং রেট বোঝা"। ডিপ লার্নিং: একজন প্র্যাকটিশনারের দৃষ্টিকোণ। ও'রেইলি। পৃষ্ঠা 258–263। আইএসবিএন 978-1-4919-1425-0।
- ↑ Ruder, Sebastian (২০১৭)। "গ্রেডিয়েন্ট ডিসেন্ট অপ্টিমাইজেশন অ্যালগরিদমের একটি ওভারভিউ"। arXiv:1609.04747
[cs.LG]।
- ↑ Nesterov, Y. (২০০৪)। কনভেক্স অপ্টিমাইজেশনের প্রাথমিক বক্তৃতা: একটি মৌলিক কোর্স। বোস্টন: ক্লুয়ার। পৃষ্ঠা 25। আইএসবিএন 1-4020-7553-7।
- ↑ Dixon, L. C. W. (১৯৭২)। "ধাপের দৈর্ঘ্যের পছন্দ, ভেরিয়েবল মেট্রিক অ্যালগরিদমের পারফরম্যান্সে একটি গুরুত্বপূর্ণ বিষয়"। নন-লিনিয়ার অপ্টিমাইজেশনের জন্য সংখ্যাগত পদ্ধতি। লন্ডন: অ্যাকাডেমিক প্রেস। পৃষ্ঠা 149–170। আইএসবিএন 0-12-455650-7।
- ↑ Smith, Leslie N. (৪ এপ্রিল ২০১৭)। "নিউরাল নেটওয়ার্ক প্রশিক্ষণের জন্য চক্রীয় লার্নিং রেট"। arXiv:1506.01186
[cs.CV]।
- ↑ Brownlee, Jason (২২ জানুয়ারি ২০১৯)। "গভীর শিক্ষা নিউরাল নেটওয়ার্ক প্রশিক্ষণের সময় লার্নিং রেট কীভাবে কনফিগার করবেন"। মেশিন লার্নিং মাস্টারি। সংগ্রহের তারিখ ৪ জানুয়ারি ২০২১।
আরও পড়ার জন্য
[সম্পাদনা]- Géron, Aurélien (২০১৭)। "গ্রেডিয়েন্ট ডিসেন্ট"। স্কিকিট-লার্ন এবং টেনসরফ্লো দিয়ে হ্যান্ডস-অন মেশিন লার্নিং। ও'রেইলি। পৃষ্ঠা 113–124। আইএসবিএন 978-1-4919-6229-9।
- Plagianakos, V. P.; Magoulas, G. D.; Vrahatis, M. N. (২০০১)। "স্টোকাস্টিক গ্রেডিয়েন্ট ডিসেন্টে লার্নিং রেট অ্যাডাপটেশন"। কনভেক্স বিশ্লেষণ এবং গ্লোবাল অপ্টিমাইজেশনে অগ্রগতি। ক্লুয়ার। পৃষ্ঠা 433–444। আইএসবিএন 0-7923-6942-4।
বহিঃসংযোগ
[সম্পাদনা]- de Freitas, Nando (১২ ফেব্রুয়ারি ২০১৫)। "অপ্টিমাইজেশন"। ডিপ লার্নিং লেকচার ৬। অক্সফোর্ড বিশ্ববিদ্যালয় – ইউটিউব-এর মাধ্যমে।