বিষয়বস্তুতে চলুন

শিখন হার

উইকিপিডিয়া, মুক্ত বিশ্বকোষ থেকে

মেশিন লার্নিংয়ে শিখন হার(ইংরেজিঃ Learning rate) হলো এমন একটি টিউনিং প্যারামিটার যা নির্ধারণ করে একটি অ্যালগরিদম প্রতিবার কতটা এগোবে ক্ষতি ফাংশনের সর্বনিম্ন বিন্দুর দিকে।[] এটি নতুন তথ্য পুরানো তথ্যকে কতটা প্রভাবিত করবে তা ঠিক করে, অর্থাৎ মডেল কত দ্রুত "শিখবে"। অ্যাডাপটিভ কন্ট্রোলে একে গেইন বলে।[]

শিখন হার ঠিক করতে গিয়ে গতি আর ওভারশুটিংয়ের মধ্যে ভারসাম্য রাখতে হয়। গ্রেডিয়েন্ট দিক দেখায়, কিন্তু শিখন হার ধাপের আকার ঠিক করে। বেশি হলে সর্বনিম্ন ছাড়িয়ে যাবে, কম হলে অনেক সময় লাগবে বা ভুল জায়গায় আটকে যাবে।[]

শিখন হার প্রশিক্ষণের সময় বদলানো হয় যাতে দ্রুত কনভারজেন্স হয়, দোলন না হয় এবং ভুল স্থানীয় সর্বনিম্নে আটকে না যায়। এটি একটি নির্দিষ্ট সিডিউল বা অ্যাডাপটিভ পদ্ধতি দিয়ে করা হয়।[] প্রতিটি প্যারামিটারের জন্য শিখন হার আলাদা হতে পারে, তখন এটি একটি তির্যক ম্যাট্রিক্সের মতো হয়, যা নিউটনের পদ্ধতিতে হেসিয়ান ম্যাট্রিক্সের বিপরীতের আনুমানিক হিসেবে বোঝা যায়।[] এটি কোয়াসি-নিউটন পদ্ধতি এবং অন্যান্য অপ্টিমাইজেশন অ্যালগরিদমে অসম্পূর্ণ লাইন সার্চের ধাপের দৈর্ঘ্যের সঙ্গে জড়িত।[][]

শিখন হার সিডিউল

[সম্পাদনা]

শিখন হার শুরুতে ডিফল্ট রাখা যায় বা কৌশল দিয়ে বেছে নেওয়া যায়। শিখন হার সিডিউল শিক্ষার সময় এটিকে বদলায়, সাধারণত এপক বা পুনরাবৃত্তির সঙ্গে।[] এটি ক্ষয় আর গতি নামে দুটি জিনিস দিয়ে করা হয়। সাধারণ সিডিউলগুলো হলো সময়-ভিত্তিক, ধাপ-ভিত্তিক আর সূচকীয়[]

ক্ষয় শিক্ষাকে সঠিক জায়গায় স্থির রাখে আর দোলন আটকায়। উচ্চ শিখন হার থাকলে শিক্ষা সর্বনিম্ন বিন্দুর ওপর দিয়ে লাফাতে পারে। এটি একটি হাইপারপ্যারামিটার দিয়ে নিয়ন্ত্রণ করা হয়।

গতি একটি পাহাড়ে গড়ানো বলের মতো। আমরা চাই বলটি সবচেয়ে নিচে (কম ত্রুটির জায়গায়) থামুক। গতি শিক্ষার গতি বাড়ায় যখন ত্রুটির দিক একই থাকে, আর ছোট বাধা পার করে স্থানীয় সর্বনিম্ন এড়ায়। এটিও একটি হাইপারপ্যারামিটার দিয়ে নিয়ন্ত্রিত, যা বলের ভরের মতো। বেশি হলে বল সর্বনিম্ন ছাড়িয়ে যায়, কম হলে কাজ করে না। গতির সূত্র ক্ষয়ের চেয়ে জটিল, কিন্তু Keras-এর মতো লাইব্রেরিতে এটি আগে থেকে থাকে।

সময়-ভিত্তিক লার্নিং সিডিউল পূর্ববর্তী সময়ের পুনরাবৃত্তির শিখন হারের উপর নির্ভর করে শিখন হার পরিবর্তন করে। ক্ষয় ফ্যাক্টরিংয়ের গাণিতিক সূত্রটি হল:

যেখানে হল শিখন হার, হল একটি ক্ষয় প্যারামিটার এবং হল পুনরাবৃত্তি ধাপ।

ধাপ-ভিত্তিক লার্নিং সিডিউল কিছু পূর্বনির্ধারিত ধাপ অনুসারে শিখন হার পরিবর্তন করে। এখানে ক্ষয় প্রয়োগের সূত্রটি নিম্নরূপ:

যেখানে হল পুনরাবৃত্তি -এ শিখন হার, হল প্রাথমিক শিখন হার, হল শিখন হার কতটা পরিবর্তন করা উচিত প্রতিটি ড্রপে (০.৫ অর্ধেক করার সাথে সম্পর্কিত) এবং হল ড্রপ রেট, বা রেট কত ঘন ঘন কমানো উচিত (১০ প্রতি ১০ পুনরাবৃত্তিতে একটি ড্রপের সাথে সম্পর্কিত)। এখানে ফ্লোর ফাংশন () তার ইনপুটের মানকে ১-এর চেয়ে ছোট সব মানের জন্য ০-তে নামিয়ে দেয়।

এক্সপোনেনশিয়াল লার্নিং সিডিউল ধাপ-ভিত্তিকের মতো, তবে ধাপের পরিবর্তে একটি কমে যাওয়া এক্সপোনেনশিয়াল ফাংশন ব্যবহৃত হয়। ক্ষয় ফ্যাক্টরিংয়ের গাণিতিক সূত্রটি হল:

যেখানে হল একটি ক্ষয় প্যারামিটার।

অ্যাডাপটিভ শিখন হার

[সম্পাদনা]

শিখন হার সিডিউলের সমস্যা হলো এগুলো হাইপারপ্যারামিটারের উপর নির্ভর করে, যেগুলো প্রতিটি শিক্ষা সেশনের জন্য হাতে বেছে নিতে হয়। এই হাইপারপ্যারামিটারগুলো সমস্যা বা ব্যবহৃত মডেলের উপর ভিত্তি করে অনেকটা পরিবর্তিত হতে পারে। এই সমস্যা সমাধানের জন্য, বিভিন্ন অ্যাডাপটিভ গ্রেডিয়েন্ট ডিসেন্ট অ্যালগরিদম আছে, যেমন অ্যাডাগ্রাড, অ্যাডাডেল্টা, আরএমএসপ্রপ, এবং অ্যাডাম যেগুলো Keras-এর মতো লাইব্রেরিতে আগে থেকে থাকে।[]

আরও দেখুন

[সম্পাদনা]

তথ্যসূত্র

[সম্পাদনা]
  1. Murphy, Kevin P. (২০১২)। মেশিন লার্নিং: একটি সম্ভাব্য দৃষ্টিকোণ। কেমব্রিজ: MIT প্রেস। পৃষ্ঠা 247। আইএসবিএন 978-0-262-01802-9 
  2. Delyon, Bernard (২০০০)। "কমে যাওয়া গেইন সহ স্টোকাস্টিক অ্যাপ্রক্সিমেশন: কনভারজেন্স এবং অ্যাসিম্পটোটিক তত্ত্ব"। অপ্রকাশিত বক্তৃতা নোট। ইউনিভার্সিটি ডি রেনেস। সাইট সিয়ারX 10.1.1.29.4428অবাধে প্রবেশযোগ্য 
  3. Buduma, Nikhil; Locascio, Nicholas (২০১৭)। ডিপ লার্নিং-এর মৌলিক বিষয়: পরবর্তী প্রজন্মের মেশিন ইন্টেলিজেন্স অ্যালগরিদম ডিজাইন। ও'রেইলি। পৃষ্ঠা 21। আইএসবিএন 978-1-4919-2558-4 
  4. Patterson, Josh; Gibson, Adam (২০১৭)। "লার্নিং রেট বোঝা"। ডিপ লার্নিং: একজন প্র্যাকটিশনারের দৃষ্টিকোণ। ও'রেইলি। পৃষ্ঠা 258–263। আইএসবিএন 978-1-4919-1425-0 
  5. Ruder, Sebastian (২০১৭)। "গ্রেডিয়েন্ট ডিসেন্ট অপ্টিমাইজেশন অ্যালগরিদমের একটি ওভারভিউ"। arXiv:1609.04747অবাধে প্রবেশযোগ্য [cs.LG]। 
  6. Nesterov, Y. (২০০৪)। কনভেক্স অপ্টিমাইজেশনের প্রাথমিক বক্তৃতা: একটি মৌলিক কোর্স। বোস্টন: ক্লুয়ার। পৃষ্ঠা 25। আইএসবিএন 1-4020-7553-7 
  7. Dixon, L. C. W. (১৯৭২)। "ধাপের দৈর্ঘ্যের পছন্দ, ভেরিয়েবল মেট্রিক অ্যালগরিদমের পারফরম্যান্সে একটি গুরুত্বপূর্ণ বিষয়"। নন-লিনিয়ার অপ্টিমাইজেশনের জন্য সংখ্যাগত পদ্ধতি। লন্ডন: অ্যাকাডেমিক প্রেস। পৃষ্ঠা 149–170। আইএসবিএন 0-12-455650-7 
  8. Smith, Leslie N. (৪ এপ্রিল ২০১৭)। "নিউরাল নেটওয়ার্ক প্রশিক্ষণের জন্য চক্রীয় লার্নিং রেট"। arXiv:1506.01186অবাধে প্রবেশযোগ্য [cs.CV]। 
  9. Brownlee, Jason (২২ জানুয়ারি ২০১৯)। "গভীর শিক্ষা নিউরাল নেটওয়ার্ক প্রশিক্ষণের সময় লার্নিং রেট কীভাবে কনফিগার করবেন"মেশিন লার্নিং মাস্টারি। সংগ্রহের তারিখ ৪ জানুয়ারি ২০২১ 

আরও পড়ার জন্য

[সম্পাদনা]

বহিঃসংযোগ

[সম্পাদনা]
  • de Freitas, Nando (১২ ফেব্রুয়ারি ২০১৫)। "অপ্টিমাইজেশন"ডিপ লার্নিং লেকচার ৬। অক্সফোর্ড বিশ্ববিদ্যালয় – ইউটিউব-এর মাধ্যমে।