রিইনফোর্সমেন্ট লার্নিং

উইকিপিডিয়া, মুক্ত বিশ্বকোষ থেকে
পরিভ্রমণে ঝাঁপ দিন অনুসন্ধানে ঝাঁপ দিন

রিইনফোর্সমেন্ট লার্নিং (আরএল) হল মেশিন লার্নিংয়ের একটি শাখা, যেখানে কোনো পরিবেশে কোন পদক্ষেপ নেবার মাধ্যমে সেখানকার অবস্থার সর্বোত্তম উন্নতি করা হয়। রিইনফোর্সমেন্ট লার্নিং হল তিনটি মৌলিক শিক্ষণ একটি উদাহরণ। অপর দুইটি লার্নিং হল তত্ত্বাবধয়ায়নে শিক্ষণ ও অতত্ত্বাবধায়নে শিক্ষণ।

এটি তত্ত্বাবধায়নে শিক্ষণ থেকে আলাদা। কেননা সেখানে ইনপুট ও আউটপুটে পাওয়া বিষয় উপস্থাপনের দিকে জোর দেওয়া হয় না। এছাড়া সেখামে প্রায় আন্দাজকৃত বিষয়কে পুরোপুরিভাবে সঠিক হতে হয় না। অপরদিকে এখানে অনুসন্ধান (চার্টহীন এলাকা) ও ব্যবহারের (বর্তমান জ্ঞান) দিকে গুরুত্ব দেওয়া হয়।[১]

এই পরিবেশের গঠন প্রক্রিয়া সাধিত হয় মারকভ সিদ্ধান্ত প্রক্রিয়ার (এমডিপি) মাধ্যমে। অনেক রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম ব্যবহার করে থাকে ডায়নামিক প্রোগ্রামিং পদ্ধতি।[২] প্রাচীন ডায়নামিক প্রোগ্রামিং পদ্ধতি ও রিইনফোর্সমেন্ট লার্নিংয়ের পার্থক্য হল রিইনফোর্সমেন্ট লার্নিং এমডিপির মূল গাণিতিক মডেল ভিত্তি করে চলে না ও এটি চলে বৃহৎ এমডিপির ভিত্তিতে যেখানে আসল পদ্ধতি জানা সম্ভব নয়।

সূচনা[সম্পাদনা]

রিইনফোর্সমেন্ট লার্নিংয়ের একটি সাধারণ দৃশ্য, একজন ব্যক্তি একটি পরিবেশের ওপর ভিত্তি করে একটি সিদ্ধান্ত গ্রহণ করেন যা পরবর্তীতে তার ওপর ভালো কিছু হয়ে ফিরে আসে।

সাধারণত্বের জন্য রিইনফোর্সমেন্ট লার্নিংয়ে অন্যান্য শাখা যেমন, ক্রীড়াতত্ত্ব, নিয়ন্ত্রণ তত্ত্ব, ক্রিয়া গবেষণা, অনুকরণীয় আন্দাজক্তণ, অনেক প্রতিনিধি প্রক্রিয়া, দল বুদ্ধিমত্তা, পরিসংখ্যান ও জেনেটিক অ্যালগরিদম পড়ানো হয়। ক্রিয়া গবেষণা ও নিয়ন্ত্রণ তত্ত্বে রিইনফোর্সমেন্ট লার্নিংকে "অনুমিত গতিশীল প্রোগ্রামিং" বা "নিউরো ডায়নামিক প্রোগ্রামিং" বলা হয়। রিইনফোর্সমেন্ট লার্নিংয়ের মূল বিষয়গুলো আনুমানিক নিয়ন্ত্রণ তত্ত্বেও আলোচনা করা হয়, যা অনুমিত বিষয়ের ফলাফল, আলোচনা ও গবেষণা, উৎপাদন ব্যবস্থা সংক্রান্ত অ্যালগরিদমের দিকে আলোকপাত করে থাকে, শিক্ষণ ও আন্দাজকরণের দিকে দেয় কম গুরুত্ব; মূলত এটি অর্থনীতি ও ক্রীড়াতত্ত্বের পরিবেশে গাণিতিক মডেলের অনুপস্থিতিতে কাজ করে থাকে। সীমাবদ্ধ প্রক্রিয়ায় কীভাবে সাম্যতা অর্জন সম্ভব সেটা ব্যাখ্যা করতেও রিইনফোর্সমেন্ট লার্নিং ব্যবহার করা যেতে পারে।

মৌলিক রিইনফোর্সমেন্ট লার্নিংকে মারকভ সিদ্ধান্ত প্রক্রিয়ার ভিত্তিতে সাজানো হয়েছে:

  • একগুচ্ছ পরিবেশ ও প্রতিনিধির অবস্থা, S;
  • প্রতিনিধির একগুচ্ছ ক্রিয়া A;
  • এটি হল কোন অবস্থা , অন্য অবস্থা , কোনো ক্রিয়া এর মাধ্যমে রূপান্তরিত হবার পর পাওয়া সম্ভাবনা
  • হল প্রাথমিক উপায়ন, যা থেকে ক্রিয়ায় মাধ্যমে পাওয়া যায়
  • নীতিগুলো বর্ণনা করবে প্রতিনিধি তার দেখার ভিত্তিতে

এই নীতিগুলি সম্ভাবনার সূত্র দ্বারা নিয়ন্ত্রিত। এই পর্যবেক্ষণগুলো মূল স্কেলার, প্রাথমিক উপায়ন শেষ রূপান্তরের সাথে সম্পর্কযুক্ত। অজ্রক ক্ষেত্রে প্রতিনিধিকে বর্তমান পরিবেশের অবস্থা পর্যবেক্ষণ (পুরোপুরি পর্যবেক্ষণ) করতে দেওয়া হয়। যটি এটা না করা হয়, তবে প্রতিনিধির পর্যবেক্ষণ পুরোপুরিভাবে শুদ্ধ হবে না। কখনো কখনো ক্রিয়ার বিষয় পর্যবক্ষকের নিকট উপস্থাপন করা হয় না। (পুরোপুরিভাবে সাম্যতার ক্ষেত্রে কখনো ছাড় দেওয়া হয় না। উদাহরণস্বরূপ, প্রতিনিধির দেখা মান ৩ ও রূপান্তরিত অবস্থার মান ৪ হলে এই রূপান্তরকে গোণা হবে না।)

রিইনফোর্সমেন্ট লার্নিং এজেন্ট বিচ্ছিন্ন সময়েএ পরিবেশ নিয়ে কাজ করে। প্রত্যেক t সময়ে, প্রতিনিধি পর্যবেক্ষণ করেন যাতে উপায়ন অন্তর্ভুক্ত করা হয়। এরপর এটি ক্রিয়া বাছাই করে সহজলভ্য ক্রিয়া থেকে, যাজে পরিবেশে পাঠানো হয়। এরপর, পরিবেশ নতুন অবস্থা ও উপায়ন এ গমন করে যার সাথে নির্ণয় করা "রূপান্তর" এর সম্পর্ক বিদ্যমান। রিইনফোর্সমেন্ট লার্নিংয়ের লক্ষ হল যতটা পারা যায় উপায়ন সংগ্রহ করা। প্রতিনিধি কোন প্রক্রিয়ায় (সম্ভবত দৈবচয়নে) পরিবেশে কোন সিদ্ধান্ত গ্রহণ করতে পারে।

যখন কোন প্রতিনিধির কাজকে অনুমানের ভিত্তিতে কাজ করা কোন প্রতিনিধির কাজের সাথে তুলনা করা হয়, তখন চোখে পড়ে ক্রীড়াতত্ত্বের "খেদ"। অনুমানের ভিত্তিতে কাজ করতে হলে প্রতিনিধিকে এর কাজের ধারা (সর্বোচ্চ ভবিষ্যৎ আয়) সম্পর্কে জ্ঞানলাভ করতে হবে, যদিও প্রাথমিক উপায়নের ক্ষেত্রে এ মান কাজে নাও আসতে পারে।

এভাবে, দীর্ঘমেয়াদী ও স্বল্পমেয়াদী কাজের ক্ষেত্রে সমস্যা সমাধানের জন্য রিইনফোর্সমেন্ট লার্নিং কাজে আসতে পারে। এটি বিভিন্ন প্রক্রিয়া যেমন রোবট নিয়ন্ত্রণ, সিঁড়ি তালিকা, টেলিকমিউনিকেশন, ব্যাকগ্যামন, চেকার্স[৩] ও গোয়ের (আলফা গো) ক্ষেত্রে ব্যবহৃত হতে পারে।

দুইটি উপাদান রিইনফোর্সমেন্ট লার্নিংকে শক্তিশালী করে তালে: অনুমান ফলাফলের মাধ্যমে নমুনার ব্যবহার ও বৃহৎ পরিবেশের ভিত্তিতে কোনো আন্দাজকৃর ফাংশনের ব্যবহার। এই দুইটি উপাদানকে ভিত্তি করে নিম্নোক্ত অবস্থার বৃহৎ পরিবেশে রিইনফোর্সমেন্ট লার্নিং ব্যবহৃত হতে পারে:

  • জানা পরিবেশের মডেল যেখানে বিশ্লেষণী সমাধান পাওয়া না;
  • কেবল পরিবেশের অনুকারী মডেল বিদ্যমান (অনুকরণভিত্তিক আন্দাজকরণ);[৪]
  • কোনো পরিবেশে সেটি সম্পর্কে জানার ক্ষেত্রে তথ্য সংগ্রহের একমাত্র মাধ্যম হিসেবে।

এই সমস্যার দুইটি পরিকল্পিত সমস্যা হিসেবে বিবেচিত কেননা, এখানে কিছু জিনিস পাওয়া যায়। অপরদিকে শেষেরটি মূল শিক্ষণ সমস্যা হিসেবে পরিগণিত হয়। যাই হোক, রেইনফোর্সমেন্ট লার্নিং দুটো সমস্যাকে মেশিন লার্নিং সমস্যায় পরিণত করে।

অনুসন্ধান[সম্পাদনা]

অনুসন্ধান ও শোষণের সমস্যা বার্নেটাস ও কাটেহাকিস ১৯৯৭ সালে মাল্টি আর্মড ব্যান্ডিট সমস্যার মাধ্যমে নিয়ন্ত্রিত অবস্থার এমডিপিতে আলোচনা করেছেন।[৫]

রিইনফোর্সমেন্ট লার্নিংয়ে দৃঢ়তম শোষণ পদ্ধতি জানতে হয়। দৈবচয়িত ক্রিয়া আনুমানিক সম্ভাবক্না ছাড়া কাজ করলে তার ফলাফল ভালো হয় না। ছোট নির্দিষ্ট মারকভ সিদ্ধান্ত প্রক্রিয়া তুলনামূলকভাবে সহজে বোঝা যায় যাই হোক, অ্যালগরিদম কম থাকার কারণে বিভিন্ন পরিবেশের জন্য (অথবা বিভিন্ন সমস্তার অসীম অবস্থার জন্য) সরল শোষণ প্রক্রিয়া সবচেয়ে উপযোগী।

এই ধরনের পদ্ধতি হল -গ্রিডি, যেখানে হল এমন বিষয় যা অনুসন্ধান ও শোষণের পরিমাণ নিয়ন্ত্রণ করে। সম্ভাবনা , এর মাধ্যমে শোষণ বাছাই করা হয় এবং প্রতিনিধি এমন ক্রিয়া বাছাই করে যাতে সবচেয়ে দীর্ঘস্থায়ী ক্রিয়া বিদ্যমান (অন্য ক্রিয়ার থেকে এটিকে যখন তখন থামতে পারে না)। আবার, সম্ভাবনা এর ভিত্তিতে শোষ্ণ বাছাই করা হয় ও ক্রিয়া বাছাই হয় পুরোপুরিভাবে দৈবচয়িতভাবে। হল সাধারণত একটি স্থির বিষয়, এটি তালিকার ভিত্তিতে পরিবর্তন করা যেতে পারে (প্রতিনিধিকে কম অন্বেষণ করার জন্য) অথবা হিউরিস্টিকসের ভিত্তিতে আত্মীকরণ করা যেতে পারে।[৬]

কন্ট্রোল লার্নিংয়ের অ্যালগরিদম[সম্পাদনা]

শোষণের বিষয়কেবালাদা রেখে যদি কোন অবস্থা পর্যবেক্ষণ করা হয় (পরে তথ্য পাওয়া যায়), তবে সমস্যাটি পূর্ব অভিজ্ঞতা বিবেচনা করে ভালো পদক্ষেপ বাছাই করে থাকে।

অনুমানকরণের শর্ত[সম্পাদনা]

নীতি[সম্পাদনা]

প্রতিনিধির পদক্ষেপ বা ক্রিয়া বাছাউ ম্যাপে "নীতি" হিসেবে অভিহিত করা হয়:

এই নীতি ম্যাপ পদক্ষেপ গ্রহণের সম্ভাবনা action প্রদান করে, যখন অবস্থা [৭]:৬১ এখানে অসম্ভবায়িত নীতিও বিদ্যমান।

অবস্থা মানীয় ফাংশন[সম্পাদনা]

মান ফাংশন কে "প্রত্যাশী আগমন" বলে অভিহিত করা যখন শুরুর অবস্থা , যেমন , এবং সঠিকভাবে নীতি মেনে চলে। এরপর, এর মাধ্যমে মান ফাংশন নির্দিষ্ট অবস্থায় এটি "কত ভাল" তা নির্ণয় করে।[৭]:৬০

যখন সাধারণ চলক আগমন বোঝায় এবং একে ভবিষ্যত হ্রাসকৃত উপায়ন বলে অভিহিত করা হয়।[স্পষ্টকরণ প্রয়োজন]

এখামে হল উপায়ন , ধাপের মান যেখানে হ্রাসকৃত।[স্পষ্টকরণ প্রয়োজন].

অ্যালগরিদমকে সর্বোচ্চ প্রত্যাশিত আগমন পাওয়ার পদ্ধতি বের করতে হবে। এমডিপির তত্ত্ব অনুসারে এটা জানা যায় যে, সাধারণ অবস্থায় হ্রাস না ঘটলে অনুসন্ধান একটি গুচ্ছে থেমে যায় যার সাথে "স্থির" নীতির সম্পর্ক বিদ্যমান। একটি পদ্ধতি স্থির হিসেবে অভিহিত হবে যদি এটি পর্যবেক্ষণের পর্যবেক্ষণকৃত শেষ অবস্থার ওপর ভিত্তি করে চলে। এই অনুসন্ধান নির্ণয় করা যায় এমন স্থির নীতির ওপর চলতে পারে। নির্ণয় করা যায় এমন স্থিত নীতি সঠিকভানে বর্তমান অবস্থার ভিত্তিতে পদক্ষেপ গ্রহণ করে থাকে। যদি এমন পদ্ধতি একগুচ্ছ পদক্ষেপ চিত্রায়নের মাধ্যমে পাওয়া যায়, তখন এই পদ্ধতিগুলো এই চিত্রায়ন থেকে আলাদা করা যায় যেখানে সাধারণ অবস্থা অক্ষুণ্ণ থাকে।

রূঢ় বল[সম্পাদনা]

রূঢ় বল মূলত দুইটি পদ্ধতির ওপর ভিত্তি করে চলে থাকে:

  • প্রত্যেক সম্ভাব্য নীতি নমুনা একে অনুসরণ করে এসে থাকে
  • এমন পদ্ধতি বাছাই করতে হবে যেখানে সর্বোচ্চ প্রত্যাশিত আগমন পাওয়া যায়।

এই ধরনের একটি সমস্যার নীতির সংখ্যা অনেক এমনকি অসংখ্যও হতে পারে। আরেকটি বিষয় গল, আগমনের পার্থক্য অনেক বেশি হতে পারে। এটির প্রয়োজন অনেক নমুনা যার দরুন প্রত্যেক নীতির আগমন যাচাই করা যায়।

এই ধরনের সমস্যার উন্নয়ন হতে পারে কাঠামোকে ভিত্তি করে যদি আমরা কিছু কাঠামো বিবেচনা করি ও নমুনাকে নীতির ওপর ভিত্তি করে অনুমিত ফলাফলের ওপর প্রভাব বিস্তার করতে দেই। এটি অর্জনের দুটি মূল পদ্ধতি হল মান ফাংশন আন্দাজকরণ ও সরাসরি নীতি অনুসন্ধান।

মান ফাংশন[সম্পাদনা]

মান ফাংশিন কিছু নীতির ওপর ভিত্তি করে একটি নীতি বাছাই করে থাকে (সাধারণত বর্তমান চলমান নীতি ও অনুমিত বাইরের নীতির মধ্যে) যেখানে আগমনের প্রতি গুরুত্ব দেওয়া হয়।

এই প্রক্রিয়া এমডিপির তত্ত্বেও ওপর ভিত্তি করে চলে থাকে, যেখানে পূর্বের অবস্থার থেকে শক্তিশালী অবস্থার ওপর ভিত্তিতে অনুমানকরণ চলে থাকে। একটি পদ্ধতিকে অনুমিত বলা যাবে যদি এটি অর্জন করে সর্বোচ্চ অনুমিত আগমন যেকোন প্রাথমিক অবস্থার জন্য (উদাহরণস্বরূপ, প্রারম্ভিক বিপণন এই সংজ্ঞার কোন প্রভাব ফেলে না। আবার, একটি অনুমিত নীতি সবসময় স্থির নীতির মাঝে পাওয়া যাবে।

সাধারণ অবস্থায় আন্দাজকরণের ক্ষেত্রে নীতির মানকে ধরে

এখানে হল এমন আগমন যার সাথে যুক্ত যা পাওয়া যায় প্রাথমিক অবস্থা থেকে। এখানে, কে এর সম্ভাব্য সর্বোচ্চ মান ধরা হয় ও এখানে পরিবর্তিত হতে পারে,

এই মানগুলো অর্জনকারী একটি নীতিকে পুরোপুরিভাবে প্রত্যেক অবস্থার জন্য "অনুমিত নীতি" হয়। পুরোপুরিভাবে, এই ধারার ওপর ভিত্তি করে ধরলে কোনো অনুমিত নীতি প্রত্যাশিত আগমন , যখন , যখন হল একটি অবস্থা যা দৈবচয়নের মাধ্যমে থেকে পাওয়া যায় ও [স্পষ্টকরণ প্রয়োজন] হল বিপণন, এর ওপর করেও তাকে অনুমিত নীতি বলে অভিহিত করা যায়।

যদিও অবস্থাভিত্তিক মান অনুমানের ভিত্তিতে বের করা হলেও এটি পদক্ষেপ মানের ক্ষেত্রেও গুরুত্বপূর্ণ ভূমিকা পালন করে। প্রদত্ত অবস্থা , পদক্ষেপ নীতি , জোড় মান যখন তা এর অধীন, এর মাধ্যমে বলা যায়,

যেখানে হল দৈবচয়ন আগমন যা প্রথমে নেওয়া পদক্ষেপ এর সাথে যুক্ত (যা অবস্থা ও তারপর এর ওপর ভিত্তি করে নেওয়া হয়েছিল)।

এমডিপির তত্ত্বে বলা হয়েছে যে, যদি অনুমিত নীতি হয় তবে আমাদের অনুমানের ভিত্তিতে (অনুমিত পদক্ষেপের মাধ্যমে) কাজ করতে হবে ও থেকে পদক্ষেপ গ্রহণ করতে হবে যখন প্রত্যেক অবস্থার সর্বোচ্চ মান । এই ধরনের অনুমিত নীতির () পদক্ষেপ মান ফাংশনকে "অনুমিত পদক্ষেপ মান-ফাংশন" বলা হয় এবং একে দিতে বোঝানো হয়। আসলে, অনুমিত পদক্ষেপ মান ফাংশন কীভাবে পদক্ষেপ নিতে হবে সে সম্পর্কে জ্ঞানদান করে থাকে।

এমডিপির পুরো জ্ঞান বিবেচনা করলে, পদক্ষেপ মান ফাংশন বের করার দুই পদ্ধতি হল মান পুনরাবৃত্তি ও নীতি পুনরাবৃত্তি। দুটি অ্যালগরিদমই () ধারার ফাংশন বের করে থাকে যা এর সাথে একসাথে মিলিত হয়। এই ধরনের ফাংশন বের করার মাধ্যমে গোটা অবস্থায় আগমনের পরিমাণ বের করা যায়, যা সব ব্যবস্থার জন্য প্রযোজ্য না হলেও ক্ষুদ্র (নির্দিষ্ট) এমডিপির জন্য প্রযোজ্য। রিইনফোর্সমেন্ট লার্নিং পদ্ধতিতে, প্রত্যাশাব্বের করা হয় নমুনা থেকে পাওয়া মান গড় করার মাধ্যমে ও এখানে অনুমিত ফাংশন পদ্ধতি ব্যবহার করা হয় যার দরুন বৃহৎ অবস্থার মান ফাংশনের সাথে তা তাল মিলিয়ে চলতে পারে।

মন্টি কার্লো পদ্ধতি[সম্পাদনা]

মন্টি কার্লো পদ্ধতি এমন অ্যালগরিদমে ব্যবহার করা যাব্ব, যেখানে নকল পুনরাবৃত্তীয় নীতির ওপর চলে। নীতির পুনরাবৃত্তির দুটি ধাপ বিদ্যমান, নীতি মূল্যায়ন ও নীতি উন্নয়ন।

পদক্ষেপ মূল্যায়ন নীতিতে মন্টি কার্লো পদ্ধতি কাজে লাগে। এই পদক্ষেপে, প্রদত্ত স্থির, নির্ণেয় নীতি , ফাংশন মান বের করার লক্ষ্য (অথবা এদের মাঝে একটি ভাল অনুমান ) সব অবস্থা পদক্ষেপ জোড় এর সাথে। সহজভাবে মনে করা যায় যে, এমডিপি নির্দিষ্ট যা পদক্ষেপ মানের জন্য পর্যপ্ত জায়গা রাখতে পারে যার মাধ্যমে এটি সংরক্ষণ করা যায় যেখানে সমস্যাগুলো পর্বভিত্তিক হয় ও একটি পর্বের একটি আরেকটি নতুনের সূচনা ঘটে যা আসে দৈবচয়নের ভিত্তিতে। এরপর, প্রদত্ত অবস্থা পদক্ষেপের অনুমিত মান বের করা যায় নমুনার মানের গড়ের মাধ্যমে যা আসে একটি সময়ের থেকে। প্রদত্ত পর্যাপ্ত সময় থেকে পদ্ধতিতে যথাযথ অনুমিত মান আসে পদক্ষেপ মান ফাংশনf থেকে। এর মাধ্যমে নীতি পর্যালোচনা ধাপের বর্ণনা শেষ হয়।

নীতি উন্নয়ন ধাপে পরবর্তী নীতি পাওয়া যায় "রূঢ়" নীতি বের করার মাধ্যমে যা এর সাথে সম্পর্কিত: প্রদত্ত অবস্থা , এ নতুন নীতি একটি পদক্ষেপ নিয়ে আসে যা এর মান বৃদ্ধি করে। বাস্তবিক অর্থে, নিষ্ক্রিয় পর্যালোচনা নিষ্ক্রিয় রাখতে পারে সর্বোচ্চ পদক্ষেপ নির্ণয় করা পদ্ধতিকে যখন এর তা প্রয়োজন হয়।

এই প্রক্রিয়ার সমস্যাগুলো হল:

  • এই পদ্ধতি একটি অর্ধ অনুমিত নীতি পর্যালোচনার ক্ষেত্রে অনেক সময় ব্যয় করতে পারে।
  • এটি অদক্ষভাবে নমুনা ব্যবহার করে যার দরুন সমাধানের একটি বিশাল পথ বিকশিত হয় যা কেবল "একটি" অবস্থা পদক্ষেপ জোড় নিয়ে কাজ করে।I
  • যখন এই বিশাল পথে আগমনের মানের বড় পার্থক্য দেখা যায়, তখন একই বিন্দুতে মিলিত হবার ঘটনা দীর্ঘায়িত হয়।
  • এটি শুধু পর্বভিত্তিক সমস্যা নিয়ে কাজ করে;
  • এটি ছোট, নির্দিষ্ট এমডিপি নিয়ে কাজ করে।

অস্থায়ী পার্থক্য পদ্ধতি[সম্পাদনা]

প্রথম সমস্যা কিছু বা সব অবস্থায় পদ্ধতিকে নীতি পরিবর্তন করার অনুমতি প্রদানের মাধ্যমে সমাধান করা যায়। এক্ষেত্রে মানগুলোর স্থায়ী হবার পূর্বে কাজ করা হয়। এটি খুবই সমস্যার বিষয় কেননা এটি একই বিন্দুতে মিলিত হওয়া প্রতিরোধ করতে পারে। বর্তমানে অধিকাংশ অ্যালগরিদম সাধারণ নীতি পুনরাবৃত্তি করার মাধ্যমে কাজ করে থাকে। অনেক "অভিনেতা সমালোচক" পদ্ধতি এই শ্রেণীর আওতাভুক্ত।

এর দ্বিতীয় ইস্যুটি আবক্র পথকে যেকোন অবস্থা-পদক্ষেপ জোড়ে অবদান রাখার অনুমতি প্রদানের মাধ্যমে সঠিক করা যেতে পারে। এটি তৃতীয় সমস্যার কয়েকটি ক্ষেত্রে সাহায্য কর‍তে পারে। এটি ভালো সমাধানে অবদান রাখতে পারে যখন আগমনের ক্ষেত্রে অনেক পার্থক্য দেখা যায় যখন তা সাটনের "অস্থায়ী পার্থক্য" (টিডি) এর মাঝে পড়ে, যা পুনরাবৃত্ত বেলম্যান সমীকরণের ভিত্তিতে গড়ে উঠেছে।[৮][৯] টিডি পদ্ধতির মান নির্ণয় বাড়তে পারে যখন রূপান্তর শেষ হবার পর স্মৃতির পরিবর্তন ঘটে ও রূপান্তরকে বিবেচনা না করা হয় অথবা দলে পরিণত হতে পারে (যখন দলবদ্ধভাবে রূপান্তর করা হয় এবং অনুমান করা হয় দলের ভিত্তিতে)। দলবদ্ধ পদ্ধতি যেমব ন্যূনতম বর্গ অস্থায়ী পার্থক্য পদ্ধতি,[১০] তুলনামূলক ভালোভাবে নমুনার তথ্য ব্যবহার করতে পারে। অপরদিকে বেড়ে ওঠা পদ্ধতি হল একমাত্র পছন্দ হয়ে দাঁড়ায় যখন দল প্রক্রিয়া বিশাল গাণিতিক প্রক্রিয়া ও স্মৃতির জটিলতার দরুন অচল হয়ে দাঁড়ায়। কিছু পদ্ধতি এই দুইটি পথের সমন্বয়ে চলে থাকে। অস্থায়ী পার্থক্যকে ভিত্তি করে চলা পদ্ধতি চতুর্থ ইস্যুরও সমাধান করতে সক্ষম হয়।

পঞ্চম ইস্যুর ক্ষেত্রে "ফাংশন অনুমিত পদ্ধতি" ব্যবহার করা হয়। "রৈখিক ফাংশন" চিত্রায়নের মাধ্যমে যাত্রা শুরু করে যা প্রত্যেক অবস্থা-পদক্ষেপ জোড়ার জন্য একটি নির্দিষ্ট মাত্রার ভেক্টর। এরপর অবস্থা পদক্ষেপ জোড়ার পদক্ষেপ মান পাওয়া যায় রৈখিকভাবে যুক্ত উপদান ও কিছু "ওজন" এর মাধ্যমে :

এই অ্যালগরিদম সাম্যাবস্থায় আনে। এটি একেকটি অবস্থা পদক্ষেপ জোড়ার মান বিবেচনা না করে এই কাজ করে থাকে। অবৈষয়িক পরিসংখ্যান থেকে পাওয়া সিদ্ধান্ত থেকে পদ্ধতি অনুসন্ধান করা যেতে পারে যাদের তাদের নিজেদের অভ্যন্তরীণ অবস্থা গঠনে কাজে লেগে থাকতে দেখা যেতে পারে।

মানের পুনরাবৃত্তি গোড়া থেকেও ব্যবহৃত হতে পারে। এক্ষেত্রে কিউ-শিক্ষণ অ্যালগরিদমকে এর অনেক চলকের দিকে গুরুত্ব দিয়ে কাজ করা হয়।[১১]

এই পদক্ষেপ-মান ব্যবহারের সমস্যা হল এক্ষেত্রে তাদের পুরোপুরিভাবে যথাযথ অনুমান লাগতে পারে প্রতিদ্বন্দ্বী পদক্ষেপ মানের ক্ষেত্রে যার মান নের করা কষ্টসাধ্য হতে পারে যখন আগমনের মান বেশি হয়ে থাকে। এই সমস্যা অস্থায়ী পার্থক্য পদ্ধতির কিছু প্রয়োগের মাধ্যমে মেটানো যায়। এই কথিত সামঞ্জস্যপূর্ণ ফাংশন অনুমান প্রক্রিয়ার মাধ্যকে সাধারণত্ব ও দক্ষতার সাথে আপোসে যেতে হয়। এই পদ্ধতির আরেকটা সমস্যা হল টিডি পুনরাবৃত্ত বেলম্যান সমীকরণের ওপর নির্ভর করে থাকে। অধিকাংশ টিডি পদ্ধতিতে কথিত বিষয় আসে যা বারবার মন্টি কার্লো পদ্ধতিতে হস্তক্ষেপ করে যা বেলম্যান সমীকরণ নির্ভরশীল নয় এবং মৌলিক টিডি পদ্ধতিগুলো মূলত বেলম্যান সমীকরণকে ভিত্তি করে চলে। এটি এই ইস্যু সমাধানে গুরুত্বপূর্ণ ভূমিকা রাখতে পারে।

সরাসরি নীতি অনুসন্ধান[সম্পাদনা]

একটি বিকল্প পদ্ধতি হল নীতির মাঝে বা এর কিছু অংশে সরাসরি অনুসন্ধান চালানো, এত দরুন সমস্যা সম্ভাবনার সূত্র দ্বারা নিয়ন্ত্রিত ঘটনায় পরিণত হয়। এই প্রক্রিয়ার দুইটি পদ্ধতি হল: গ্রাডিয়ান্টভিত্তিক পদ্ধতি ও গ্রাডিয়ান্টহীন পদ্ধতি।

গ্রাডিয়ান্ট ভিত্তিক পদ্ধতি (নীতি গ্রাডিয়ান্ট পদ্ধতি) যাত্রা শুরু করে নির্দিষ্ট মাত্রা (বিষয়) জায়গায় নীতি চিত্রায়নের মাধ্যমে: প্রদত্ত বিষয়ের ভেক্টর , মনে করি নির্দেয়াস করে এর সাথে নীতির সম্পর্ক। তাহলে ফলাফল ফাংশন দাঁড়ায়,

ধীর অবস্থায় প্যারামিটার ভেক্টর এর সাহায্যে ব্যবকলন করা যেতে পারে। যদি এর গ্রাডিয়ান্ট জানা যায়, তবে কেউ গ্রাডিয়ান্টের ঊর্ধ্বগতি দেখতে পারবে। যদি গ্রাডিয়ান্টের বিশ্লেষিত অভিব্যক্তি পাওয়া না যায়, তবে একটি এলোমেলো অনুমান পাওয়া যেতে পারে। এই ধরনের অনুমান বিভিন্ন ভাবে তৈরি করা যেতে পারে। যেমন, উইলিয়ামের রিইনফোর্স পদ্ধতি[১২] (এটি অনুকার ভিত্তিক অনুমানের ক্ষেত্রে একই রকম অনুপাত প্রক্রিয়া নামে পরিচিত)।[১৩] নীতি অনুসন্ধান পদ্ধতি রোবোটিক্সের ক্ষেত্রে ব্যবহার করা যেতে পারে।[১৪] অনেক নীতি অনুসন্ধান পদ্ধতি স্থানীয় দর্শনে আটকে পড়তে পারে কেননা, এটি স্থানীয় অনুসন্ধানের ভিত্তিতে চলে।

পদ্ধতির অধিকাংশই গ্রাডিয়ান্ট তথ্যের ওপর ভিত্তি করে চলে না। এদের মাঝে অনুকারী কোমলায়ন, বিপরীত এন্ট্রপি পদ্ধতি বা বৈপ্লবিক গণনার পদ্ধতিগুলোর নাম করা যায়। অনেক গ্রাডিয়ান্টহীন পদ্ধতি পর্যবেক্ষণে পার্থক্যের নজির দেখা যায় না।

প্রদত্ত এলোমেলো তথ্যের ক্ষেত্রে নীতি অনুসন্ধান পদ্ধতি একই বিন্দুতে মিলিত হতে পারে। উদাহরণস্বরূপ, এর নজির পর্বভিত্তিক সমস্যায়l দেখা যেতে পারে যখন সমাধানের পথ বিশাল ও এক আগমনের সাথে আরেক আগমনের পার্থক্য অনেক বেশি। মান-ফাংশন ভিত্তিক পদ্ধতিগুলো অস্থায়ী পার্থক্যকে ভিত্তি করে চলে যা এক্ষেত্রে গুরুত্বপূর্ণ ভূমিকা রাখতে পারে। ইদানীং এসব ক্ষেত্রে সমাধানের জন্য "অভিনেতা–সমালোচক পদ্ধতি" ব্যবহার করতে বলা হয়। এই পদ্ধতি এক্ষেত্রে ভালোভাবে সমস্যার সমাধান করতে সক্ষম হয়েছে।[১৫]

তত্ত্ব[সম্পাদনা]

অ্যালগরিদম অসীম ও সসীম ব্যবহার ভালোভাবে বোঝা যায়। অনুসন্ধান ইস্যুর অ্যালগরিদম যাতে প্রমাণিত ভাল অনলাইন পারফরমেন্স বিদ্যমান তা জানা যায়।

বিশাল এমডিপিগুলোতে দক্ষ অনুসন্ধান মূলত সম্ভব হয় না (ব্যান্ডিত সমস্যা এ বিষয়ে ব্যতিক্রম)।[স্পষ্টকরণ প্রয়োজন] যদিও সসীম সময়ের ফলাগল অনেক অ্যালগরিদমেত সাথে যুক্ত থাকলেও তারা দৃঢ়ভাবে যুক্ত থাকবে না এমন প্রত্যাশা করা হয় এবং এজন্য অনেক কাজের দরকার হয় যার দরুন সহজে এর সুফল কুফল বুঝতে কষ্ট হয়,।

বর্ধিষ্ণু অ্যালগরিদমের ক্ষেত্রে অসীমে একই বিন্দুতে মিলিত হবার বিষয় দাঁড় করানো হয়। অস্থায়ী পার্থক্য ভিত্তিক অ্যালগরিদনে এই একই বিন্দুতে মিলিত হবার ক্ষেত্রে অনেক শর্ত লাহে যা পূর্বে খুব সহজেই অর্জিত হত (উদাহরণস্বরূপ, মধ্যস্থতাকারী মসৃণ ফাংশন অনুমান ব্যবহার করা হলে)।

গবেষণা[সম্পাদনা]

এর গবেষণা ক্ষেত্রের অন্তর্ভুক্ত হল

  • আত্মীকৃত পদ্ধতি যা অল্প (বা শূন্য) বিষয় নিয়ে অনেক শর্তের অধীনে কাজ করে থাকে
  • বিশাল এমডিপিতে অনুসন্ধান সমস্যার পরিচিতি
  • বৃহদাকারের গবেষণামূলজ অভিব্যক্তি
  • আংশিক তথ্যের অধীনে শেখা ও কাজ করা (উদাহরণস্বরূপ প্রত্যাশিত অবস্থা উপস্থাপন)
  • পরিমিত ও প্রাচীন রিইনফোর্সমেন্ট লার্নিং
  • বিদ্যমান মান ফাংশনের উন্নতি ও নীতি অনুসন্ধান পদ্ধতি
  • যেসব অ্যালগরিদম বিশাল বা চলমান পদক্ষেপ স্থান নিয়ে কাজ করে
  • স্থানান্তর শিক্ষণ
  • আজীবন শিক্ষণ
  • দক্ষ নমুনা ভিত্তিক পরিকল্পনা (যেমন, মন্টি কার্লো অনুসন্ধান ভিত্তিক)।
  • সফটওয়্যার প্রকল্পে ভুল নির্ণয়[১৬]

একাধিক প্রতিনিধিভিত্তিক বা বিন্যস্ত রিইনফোর্সমেন্ট লার্নিং হল বর্ধিষ্ণু বিষয়। এর প্রয়োগও বাড়ছে।[১৭]

  • অভিনেতা–সমালোচক রিইনফোর্সমেন্ট লার্নিং

রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যেমন টিডি লার্নিং নিয়ে মস্তিষ্কে ডোপামিন-ভিত্তিক শিক্ষণ বিষয়ে গবেষণা করা হচ্ছে। এই মডেলে সাবস্টানশিয়া নিগ্রা থেলে বাসাল গ্যাংলিয়া থেকে ডোপামিনভিত্তিক অভিক্ষেপ অনুমান ভুলে অবদান রাখে। রিইনফোর্সমেন্ট লার্নিং মানব দক্ষণা শিক্ষণের মডেল হিসেবে ব্যবহৃত হচ্ছে, এটি বিশেষত দক্ষতা অর্জনের অন্তর্নিহিত ও প্রকাশিত শিক্ষণের ক্ষেত্রে অবদান রাখে (এটি সম্পর্কিত প্রকাশনা ১৯৯৫–১৯৯৬) এ প্রথম প্রকাশিত হয়)।[১৮]

রিইনফোর্সমেন্ট লার্নিংয়ের অ্যালগরিদমের মাঝে তুলনা[সম্পাদনা]

অ্যালগরিদম বর্ণনা মডেল নীতি পদক্ষেপ স্থান অবস্থা স্থান পরিচালক
মন্টি কার্লো সবসময় মন্টি কার্লোতে গমন মডেলহীন নীতিবহির্ভূত বিচ্ছিন্ন বিচ্ছিন্ন নমুনা দ্বারা
কিউ শিক্ষণ অবস্থা–পদক্ষেপ–

উপায়ন–অবস্থা

মডেলহীন নীতিবহির্ভূত বিচ্ছিন্ন বিচ্ছিন্ন কিউ-মান
সারসা অবস্থা–পদক্ষেপ–

উপায়ন–অবস্থা–পদক্ষেপ

মডেলহীন নীতির অধীনে বিচ্ছিন্ন বিচ্ছিন্ন কিউ-মান
কিউ শিক্ষণ ল্যাম্বডা যোগ্য খসড়ায় অবস্থা–পদক্ষেপ–

উপায়ন–অবস্থা

মডেলহীন নীতি বহির্ভূত বিচ্ছিন্ন বিচ্ছিন্ন কিউ-মান
সারসা ল্যাম্বডা যোগ্য খসড়ায় অবস্থা–পদক্ষেপ–

উপায়ন–অবস্থা–পদক্ষেপ

মডেলহীন নীতির অধীন বিচ্ছিন্ন বিচ্ছিন্ন কিউ-মান
ডি কিউ এন গভীর কিউ নেটওয়ার্ক মডেলহীন নীতিবহির্ভূত বিচ্ছিন্ন চলমান কিউ-মান
ডিডিপিজি গভীর নির্ণেয় নীতি গ্রাডিয়ান্ট মডেলহীন নীতিবহির্ভূত চলমান চলমান কিউ-মান
এ৩সি অমিল উন্নত অভিনেতা সমালোচক অ্যালগরিদম মডেলহীন নীতির অধীন চলমান চলমান উন্নত
এনএএফ সাধারণ উন্নত ফাংশনের সাহায্যে কিউ লার্নিং মডেলহীন নীতিবহির্ভূত চলমান চলমান উন্নত
টিআরপিও বিশ্বস্ত অঞ্চল নীতি আন্দাজকরণ মডেলহীন নীতির অধীন চলমান চলমান উন্নত
পিপিও অনুমিত নীতি আন্দাজকরণ মডেলহীন নীতির অধীন চলমান চলমান উন্নত
টিডি৩ জোড়া বিলম্বিত গভীর নির্ণেয় নীতি গ্রাডিয়ান্ট মডেলহীন নীতি বহির্ভূত চলমান চলমান কিউ-মান
এসএসি কোমল অভিনেতা–সমালোচক মডেলহীন নীতিবহির্ভূত চলমান চলমান উন্নত

গভীর রিইনফোর্সমেন্ট লার্নিং[সম্পাদনা]

এই পদ্ধতিতে রিইনফোর্সমেন্ট লার্নিংকে বাড়ানো হয় হয় এক্ষেত্রে গভীর নিউরাল নেটওয়ার্কের সাহায্য নেওয়া হয় এবং এখানে স্পষ্টভাবে অবস্থার সাজানো জায়গার সাহায্য ছাড়া কাজ করা হয়।[১৯] গুগল ডিপমাইন্ডের সাহায্যে আটারি খেলে শিক্ষণ গভীর রিইনফোর্সমেন্ট লার্নিং বা প্রান্ত থেকে প্রান্ত রিইনফোর্সমেন্ট লার্নিংয়ের প্রতি আগ্রহ বৃদ্ধি করেছে।[২০]

বিপরীত রিইনফোর্সমেন্ট লার্নিং[সম্পাদনা]

বিপরীত রিইনফোর্সমেন্ট লার্নিংয়ে (আইআরএল) কোনো উপায়ন ফাংশান দেওয়া হয় না। এর পরিবর্তে, এক দক্ষ ব্যক্তির পর্যবেক্ষণ থেকে পাওয়া বৈশিষ্ট্য থেকে উপায়ন ফাংশন চালানো হয়। এই চিন্তা পর্যবেক্ষণকৃত বৈশিষ্ট্যের অনুকারী, যেগুলো অনুমিত হয় বা অনুমানের কাছাকাছি থাকে।[২১]

নবিশ শিক্ষণ[সম্পাদনা]

নবিশ শিক্ষণে একজন দক্ষ ব্যক্তি লক্ষ্য বৈশিষ্ট্য সম্পর্কে আলোচনা করেন। এই পদ্ধতিতে পর্যবেক্ষণের মাধ্যমে নীতি পুনরুদ্ধারে চেষ্টা করা হয়।

তথ্যসূত্র[সম্পাদনা]

  1. Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (১৯৯৬)। "Reinforcement Learning: A Survey"Journal of Artificial Intelligence Research4: 237–285। arXiv:cs/9605103অবাধে প্রবেশযোগ্যdoi:10.1613/jair.301। ২০০১-১১-২০ তারিখে মূল থেকে আর্কাইভ করা। 
  2. van Otterlo, M.; Wiering, M. (২০১২)। Reinforcement learning and markov decision processesReinforcement Learning। Adaptation, Learning, and Optimization। 12। পৃষ্ঠা 3–42। doi:10.1007/978-3-642-27645-3_1আইএসবিএন 978-3-642-27644-6 
  3. Sutton Barto, Chapter 11।
  4. Gosavi, Abhijit (২০০৩)। Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement। Operations Research/Computer Science Interfaces Series। Springer। আইএসবিএন 978-1-4020-7454-7 
  5. Burnetas, Apostolos N.; Katehakis, Michael N. (১৯৯৭), "Optimal adaptive policies for Markov Decision Processes", Mathematics of Operations Research, 22: 222––255 
  6. Tokic, Michel; Palm, Günther (২০১১), "Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax" (PDF), KI 2011: Advances in Artificial Intelligence, Lecture Notes in Computer Science, 7006, Springer, পৃষ্ঠা 335–346, আইএসবিএন 978-3-642-24455-1 
  7. Reinforcement learning: An introduction (PDF)। ১২ জুলাই ২০১৭ তারিখে মূল (PDF) থেকে আর্কাইভ করা। সংগ্রহের তারিখ ৩১ আগস্ট ২০১৯ 
  8. Sutton, Richard S. (১৯৮৪)। Temporal Credit Assignment in Reinforcement Learning (গবেষণাপত্র)। University of Massachusetts, Amherst, MA। 
  9. Sutton ও Barto 1998, §6. Temporal-Difference Learning
  10. Bradtke, Steven J.; Barto, Andrew G. (১৯৯৬)। "Learning to predict by the method of temporal differences"। Machine Learning22: 33–57। CiteSeerX 10.1.1.143.857অবাধে প্রবেশযোগ্যdoi:10.1023/A:1018056104778 
  11. Watkins, Christopher J.C.H. (১৯৮৯)। Learning from Delayed Rewards (PDF) (গবেষণাপত্র)। King’s College, Cambridge, UK। 
  12. Williams, Ronald J. (১৯৮৭)। "A class of gradient-estimating algorithms for reinforcement learning in neural networks"। Proceedings of the IEEE First International Conference on Neural NetworksCiteSeerX 10.1.1.129.8871অবাধে প্রবেশযোগ্য 
  13. Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (২০০৩)। "Reinforcement Learning for Humanoid Robotics" (PDF)IEEE-RAS International Conference on Humanoid Robots 
  14. Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (২০১৩)। A Survey on Policy Search for Robotics। Foundations and Trends in Robotics। 2। NOW Publishers। পৃষ্ঠা 1–142। hdl:10044/1/12051 
  15. Juliani, Arthur (২০১৬-১২-১৭)। "Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)"Medium। সংগ্রহের তারিখ ২০১৮-০২-২২ 
  16. "On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment"cie.acm.org (ইংরেজি ভাষায়)। সংগ্রহের তারিখ ২০১৮-১১-২৭ 
  17. "Reinforcement Learning / Successes of Reinforcement Learning"umichrl.pbworks.com। সংগ্রহের তারিখ ২০১৭-০৮-০৬ 
  18. "সংরক্ষণাগারভুক্ত অনুলিপি"। ২০১৭-০৪-২৬ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০১৯-০৮-৩১ 
  19. Francois-Lavet, Vincent; ও অন্যান্য (২০১৮)। "An Introduction to Deep Reinforcement Learning"Foundations and Trends in Machine Learning11 (3–4): 219–354। arXiv:1811.12560অবাধে প্রবেশযোগ্যdoi:10.1561/2200000071 
  20. Mnih, Volodymyr; ও অন্যান্য (২০১৫)। "Human-level control through deep reinforcement learning"। Nature518 (7540): 529–533। doi:10.1038/nature14236PMID 25719670বিবকোড:2015Natur.518..529M 
  21. Ng, A. Y.; Russell, S. J. (২০০০)। "Algorithms for Inverse Reinforcement Learning" (PDF)Proceeding ICML '00 Proceedings of the Seventeenth International Conference on Machine Learning। পৃষ্ঠা 663–670। আইএসবিএন 1-55860-707-2 

আরো পড়ুন[সম্পাদনা]

বহিঃসংযোগ[সম্পাদনা]