বিষয়বস্তুতে চলুন

বলবর্ধনমূলক শিখন: সংশোধিত সংস্করণের মধ্যে পার্থক্য

উইকিপিডিয়া, মুক্ত বিশ্বকোষ থেকে
বিষয়বস্তু বিয়োগ হয়েছে বিষয়বস্তু যোগ হয়েছে
ট্যাগ: মোবাইল সম্পাদনা মোবাইল ওয়েব সম্পাদনা
ট্যাগ: মোবাইল সম্পাদনা মোবাইল ওয়েব সম্পাদনা
২১০ নং লাইন: ২১০ নং লাইন:
| মন্টি কার্লো || সবসময় মন্টি কার্লোতে গমন || মডেলহীন || নীতিবহির্ভূত || বিচ্ছিন্ন || বিচ্ছিন্ন || নমুনা দ্বারা
| মন্টি কার্লো || সবসময় মন্টি কার্লোতে গমন || মডেলহীন || নীতিবহির্ভূত || বিচ্ছিন্ন || বিচ্ছিন্ন || নমুনা দ্বারা
|-
|-
| কিউ-শিক্ষণ || অবস্থা–পদক্ষেপ–
| কিউ শিক্ষণ || অবস্থা–পদক্ষেপ–
উপায়ন–অবস্থা || মডেলহীন || নীতিবহির্ভূত || বিচ্ছিন্ন || বিচ্ছিন্ন || কিউ-মান
উপায়ন–অবস্থা || মডেলহীন || নীতিবহির্ভূত || বিচ্ছিন্ন || বিচ্ছিন্ন || কিউ-মান
|-
|-
২১৯ নং লাইন: ২১৯ নং লাইন:
উপায়ন–অবস্থা|| মডেলহীন || নীতি বহির্ভূত || বিচ্ছিন্ন || বিচ্ছিন্ন || কিউ-মান
উপায়ন–অবস্থা|| মডেলহীন || নীতি বহির্ভূত || বিচ্ছিন্ন || বিচ্ছিন্ন || কিউ-মান
|-
|-
| সারসা-ল্যাম্বডা || যোগ্য খসড়ায় অবস্থা–পদক্ষেপ–
| সারসা ল্যাম্বডা || যোগ্য খসড়ায় অবস্থা–পদক্ষেপ–
উপায়ন–অবস্থা–পদক্ষেপ || মডেলহীন || নীতির অধীন || বিচ্ছিন্ন || বিচ্ছিন্ন || কিউ-মান
উপায়ন–অবস্থা–পদক্ষেপ || মডেলহীন || নীতির অধীন || বিচ্ছিন্ন || বিচ্ছিন্ন || কিউ-মান
|-
|-
২৩৫ নং লাইন: ২৩৫ নং লাইন:
|-
|-
|টিডি৩
|টিডি৩
|জোড়া বিলম্বিত গভীত নির্ণেয় নীতি গ্রাডিয়ান্ট
|| জোড়া বিলম্বিত গভীত নির্ণেয় নীতি গ্রাডিয়ান্ট
|মডেলহীন
|| মডেলহীন
|নীতি বহির্ভূত
|| নীতি বহির্ভূত
|চলমান
|| চলমান
|চলমান
|| চলমান
|কিউ-মান
|| কিউ-মান
|-
|-
|এসএসি
||এসএসি
|কোমল অভিনেতা–সমালোচক
|| কোমল অভিনেতা–সমালোচক
|মডেলহীন
|| মডেলহীন
|নীতিবহির্ভূত
|| নীতিবহির্ভূত
|চলমান
|| চলমান
|চলমান
|| চলমান
|সুবিধা
|| সুবিধা
|}
|}


২৬০ নং লাইন: ২৬০ নং লাইন:
নবিস শিক্ষণে একজন দক্ষ ব্যক্তি লক্ষ্য বৈশিষ্ট্য
নবিস শিক্ষণে একজন দক্ষ ব্যক্তি লক্ষ্য বৈশিষ্ট্য
সম্পর্কে আলোচনা করেন। এই পদ্ধতিতে পর্যবেক্ষণের মাধ্যমে নীতি পুনরুদ্ধারে চেষ্টা করা হয়।
সম্পর্কে আলোচনা করেন। এই পদ্ধতিতে পর্যবেক্ষণের মাধ্যমে নীতি পুনরুদ্ধারে চেষ্টা করা হয়।

== তথ্যসূত্র ==
{{Reflist|30em}}

== আরো পড়ুন ==
* {{cite journal|last1 = Auer|first1 = Peter|last2 = Jaksch|first2 = Thomas|authorlink2 = Thomas Jaksch|last3 = Ortner|first3 = Ronald|authorlink3 = Ronald Ortner|year = 2010|title = Near-optimal regret bounds for reinforcement learning|url = http://jmlr.csail.mit.edu/papers/v11/jaksch10a.html|journal = Journal of Machine Learning Research|volume = 11|pages = 1563–1600|ref = harv|authorlink1 = Peter Auer}}
* {{cite book|url = http://www.dcsc.tudelft.nl/rlbook/|title = Reinforcement Learning and Dynamic Programming using Function Approximators|last1 = Busoniu|first1 = Lucian|last2 = Babuska|first2 = Robert|last3 = De Schutter|first3 = Bart|last4 = Ernst|first4 = Damien|publisher = Taylor & Francis CRC Press|year = 2010|isbn = 978-1-4398-2108-4|pages =|ref = harv|authorlink1 = Lucian Busoniu|authorlink2 = Robert Babuska|authorlink3 = Bart De Schutter|authorlink4 = Damien Ernst}}
* {{cite journal
| doi = 10.1561/2200000071
| last1 = François-Lavet | first1 = Vincent
| last2 = Henderson | first2 = Peter
| last3 = Islam | first3 = Riashat
| last4 = Bellemare | first4 = Marc G.
| last5 = Pineau | first5 = Joelle
| title = An Introduction to Deep Reinforcement Learning
| journal = Foundations and Trends in Machine Learning
| volume = 11
| issue = 3–4 | pages = 219–354
| year = 2018
| url = https://www.nowpublishers.com/article/Details/MAL-071
| ref = harv| arxiv = 1811.12560 }}
* {{cite book
| last = Powell | first = Warren
| title = Approximate dynamic programming: solving the curses of dimensionality
| year = 2007
| publisher = Wiley-Interscience
| isbn = 978-0-470-17155-4
| url = http://www.castlelab.princeton.edu/adp.htm
| ref = harv}}
* {{cite book|url = http://incompleteideas.net/sutton/book/the-book.html|title = Reinforcement Learning: An Introduction|last1 = Sutton|first1 = Richard S.|last2 = Barto|first2 = Andrew G.|publisher = MIT Press|year = 1998|isbn = 978-0-262-19398-6|pages =|ref = harv|authorlink1 = Richard S. Sutton|authorlink2 = Andrew Barto}}
* {{cite journal
| doi = 10.1007/BF00115009
| last = Sutton | first = Richard S. | authorlink = Richard S. Sutton
| title = Learning to predict by the method of temporal differences
| journal = Machine Learning
| volume = 3
| pages = 9–44
| year = 1988
| url = http://incompleteideas.net/sutton/publications.html#TD_paper
| ref = harv}}
* {{cite conference|last1 = Szita|first1 = Istvan|last2 = Szepesvari|first2 = Csaba|authorlink2 = Csaba Szepesvari|year = 2010|title = Model-based Reinforcement Learning with Nearly Tight Exploration Complexity Bounds|url = http://www.icml2010.org/papers/546.pdf|publisher = Omnipress|pages = 1031–1038|ref = harv|authorlink1 = Istvan Szita|booktitle = ICML 2010|deadurl = yes|archiveurl = https://web.archive.org/web/20100714095438/http://www.icml2010.org/papers/546.pdf|archivedate = 2010-07-14|df = }}

== External links ==
* [http://www-anw.cs.umass.edu/rlr/ Reinforcement Learning Repository]
* [http://spaces.facsci.ualberta.ca/rlai/ Reinforcement Learning and Artificial Intelligence] (RLAI, Rich Sutton's lab at the [[University of Alberta]])
* [https://deeplearning4j.org/deepreinforcementlearning A Beginner's Guide to Deep Reinforcement Learning]
* [http://www-all.cs.umass.edu/ Autonomous Learning Laboratory] (ALL, Andrew Barto's lab at the [[University of Massachusetts Amherst]])
* [http://www.cogsci.rpi.edu/~rsun/hybrid-rl.html Hybrid reinforcement learning]
* [http://www.dcsc.tudelft.nl/~robotics/media.html Real-world reinforcement learning experiments] at [[Delft University of Technology]]
* [https://www.youtube.com/watch?v=RtxI449ZjSc&feature=relmfu Stanford University Andrew Ng Lecture on Reinforcement Learning]
* [https://mpatacchiola.github.io/blog/2016/12/09/dissecting-reinforcement-learning.html Dissecting Reinforcement Learning] Series of blog post on RL with Python code

{{Computer science}}

[[Category:Markov models]]
[[Category:Machine learning algorithms]]
[[Category:Belief revision]]

১১:০৪, ৩১ আগস্ট ২০১৯ তারিখে সংশোধিত সংস্করণ

রিইনফোর্সমেন্ট লার্নিং (RL) হল মেশিন লার্নিংয়ের একটি শাখা, যেখানে কোনো পরিবেবেশে কোন পদক্ষেপ নেবার মাধ্যমে সেখানকার অবস্থার সর্বোত্তম উন্নতি করা সম্ভব হয়। রিইনফোর্সমেন্ট লার্নিং জল তিনিটি মৌলিক লার্নিং একটি উদাহরণ। অপর দুইটি লার্নিং হলে তত্ত্বাবধয়ায়নে লার্নিং ও অতত্ত্বাবধায়নে লার্নিং।

এটি তত্ত্বাবধায়নে লার্নিং থেকে আলাদা। কেননা সেখানে ইনপুট ও আউটপুটে পাওয়া বিষয় উপস্থাপনের দিকে জোড় দেওয়া হয় না। এছাড়া সেখামে প্রায় আন্দাজকৃত বিষয়কে পুরোপুরিভাবে সঠিক হতে হয় না। অপরদিকে এখানে অনুসন্ধান (চার্টহীন এলাকা) ও ব্যবহারের (বর্তমান জ্ঞান) দিকে গুরুত্ব দেওয়া হয়।[১]

এই পরিবেশের গঠম প্রক্রিয়া সাধিত হয় মারকভ সিদ্ধান্ত প্রক্রিয়ার (এমডিপি) মাধ্যমে। অনেক রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম ব্যবহার করে থাকে ডায়নামিক প্রোগ্রামিং পদ্ধতি।[২] প্রাচীন ডায়নামিক প্রোগ্রামিং পদ্ধতি ও রিইনফোর্সমেন্ট লার্নিংয়ের পার্থক্য হল রিইনফোর্সমেন্ট লার্নিং এমডিপির মূল গাণিতিক মডেল ভিত্তি করে চলে না ও এটি চলে বৃহৎ এমডিপির ভিত্তিতে যেখানে আসল পদ্ধতি জানা সম্ভব নয়।টেমপ্লেট:Toclimit

সূচনা

রিইনফোর্সমেন্ট লার্নিংয়ের একটি সাধারণ দৃশ্য, একজন ব্যক্তি একটি পরিবেশের ওপর ভিত্তি করে একটি সিদ্ধান্ত গ্রহণ করেন যা পরবর্তীতে তার ওপর ভালো কিছু হয়ে ফিরে আসে।

সাধারণত্বের জন্য রিইনফোর্সমেন্ট লার্নিং অন্যান্য শাখা যেমন, ক্রীড়াতত্ত্ব, নিয়ন্ত্রণ তত্ত্ব, ক্রিয়া গবেষণা, অনুকরণীয় আন্দাজক্তণ, অনেক প্রতিনিধি প্রক্রিয়া, দল বুদ্ধিমত্তা, পরিসংখতান ও জেনেটিক অ্যালগরিদমে পড়ানো হয়। ক্রিয়া গবেষণা ও নিয়ন্ত্রণ তত্ত্বে রিইনফোর্সমেন্ট লার্নিংকে "অনুমিত গতিশীল প্রোগ্রামিং" বা নিউরো ডায়নামিক প্রোগ্রামিং বলা হয়। রিইনফোর্সমেন্ট লার্নিংয়ের মূল বিষয়গুলো আনুমানিক নিয়ন্ত্রণ তত্ত্বেও আলোচনা করা হয়, যা অনুমিত বিষয়ের ফলাফল, আলোচনা ও গবেষণা, উৎপাদন ব্যবস্থা সংক্রান্ত অ্যালগরিদমের দিকে আলোকপাত করে থাকে, শিক্ষণ ও আন্দাজকরণের দিকে দেয় কম গুরুত্ব; মূলত এটি অর্থনীতি ও ক্রীড়াতত্ত্বের পরিবেশে গাণিতিক মডেলের অনুপস্থিতিতে কাজ করে থাকে। সীমাবদ্ধ প্রক্রিয়ায় কীভাবে সাম্যতা অর্জন সম্ভভ সেটা ব্যাখ্যা করতেও রিইনফোর্সমেন্ট লার্নিং ব্যবহার করা যেতে পারে।

মৌলিক রিইনফোর্সমেন্ট লার্নিংকে মারকভ সিদ্ধান্ত প্রক্রিয়ার ভিত্তিতে সাজানো হয়েছে:

  • একগুচ্ছ পরিবেশ ও প্রতিনিধির অবস্থা, S;
  • প্রতিনিধির একগুচ্ছ ক্রিয়া A;
  • এটি হল কোন অবস্থা অন্য অবস্থা কোনো ক্রিয়া এর মাধ্যমে রূপান্তরিত হবার পর পাওয়া সম্ভাবনা
  • হল প্রাথমিক উপায়ন, যা থেকে ক্রিয়ায় মাধ্যমে পাওয়া যায়
  • নীতিগুলো বর্ণনা করবে প্রতিনিধি তার দেখার ভিত্তিতে

এই নীতিগুলি সম্ভাবনার সূত্র দ্বারা নিয়ন্ত্রিত। এই পর্যবেক্ষণগুলো মূলর স্কেলার, প্রাথমিক উপায়ন শেষ রূপান্তরের সাথে সম্পর্কযুক্ত। অজ্রক ক্ষেত্রে প্রতিনিধিকে বর্তমান পরিবেশের অবস্থা পর্যবেক্ষণ (পুরোপুরি পর্যবেক্ষণ) করতে দেওয়া হয়। যটি এটা না করা হয়, তবে প্রতিনিধির পর্যবেক্ষণ পুরোপুরিভাবে শুদ্ধ হবে না। কখনো কখনো ক্রিয়ার বিষয় পর্যবক্ষকের নিকট উপস্থাপন করা হয় না। (পুরোপুরিভাবে সাম্যতার ক্ষেত্রে কখনো ছাড় দেওয়া হয় না। উদাহরণস্বরূপ, প্রতিনিধির দেখা মান ৩ ও রূপান্তরিত অবস্থার মান ৪ হলে এই রূপান্তরকে গোণা হবে না।)

রিইনফোর্সমেন্ট লার্নিং এজেন্ট বিচ্ছিন্ন সময়েএ পরিবেশ নিয়ে কাজ করে। প্রত্যেক t সময়ে, প্রতিনিধি পর্যবেক্ষণ করেন যাতে উপায়ন অন্তর্ভুক্ত করা হয়। এরপর এটি ক্রিয়া বাছাই করে সহজলভ্য ক্রিয়া থেকে, যাজে পরিবেশে পাঠানো হয়। এরপর, পরিবেশ নতুন অবস্থা ও উপায়ন এ গমন করে যার সাথে নির্ণয় করা "রূপান্তর" এর সম্পর্ক বিদ্যমান। রিইনফোর্সমেন্ট লার্নিংয়ের লক্ষ হল যতটা পারা যায় উপায়ন সংগ্রহ করা। প্রতিনিধি কোন প্রক্রিয়ায় (সম্ভবত দৈবচয়নে) পরিবেশে কোন সিদ্ধান্ত গ্রহণ করতে পারে।

যখন কোন প্রতিনিধির কাজকে অনুমানের ভিত্তিতে কাজ করা কোন প্রতিনিধির কাজের সাথে তুলনা করা হয়, তখন চোখে পড়ে ক্রীড়াতত্ত্বের "খেদ"। অনুমানের ভিত্তিতে কাজ করতে হলে প্রতিনিধিকে এর কাজের ধারা (সর্বোচ্চ ভবিষ্যৎ আয়) সম্পর্কে জ্ঞানলাভ করতে হবে, যদিও প্রাথমিক উপায়নের ক্ষেত্রে এ মান কাজে নাও আসতে পারে।

এভাবে, দীর্ঘমেয়াদী ও স্বল্পমেয়াদী কাজের ক্ষেত্রে সমস্যা সমাধানের জন্য রিইনফোর্সমেন্ট লার্নিং কাজে আসতে পারে। এটি বিভিন্ন প্রক্রিয়া যেমন রোবট নিয়ন্ত্রণ, সিঁড়ি তালিকা, টেলিকমিউনিকেশন, ব্যাকগ্যামন, চেকার্স[৩] ও গোয়ের (আলফা গো) ক্ষেত্রে ব্যবহৃত হতে পারে।

দুইটি উপাদান রিইনফোর্সমেন্ট লার্নিংকে শক্তিশালী করে তালে: অনুমান ফলাফলের মাধ্যমে নমুনার ব্যবহার ও বৃহৎ পরিবেশের ভিত্তিতে কোনো আন্দাজকৃর ফাংশনের ব্যবহার। এই দুইটি উপাদানকে ভিত্তি করে নিম্নোক্ত অবস্থার বৃহৎ পরিবেশে রিইনফোর্সমেন্ট লার্নিং ব্যবহৃত হতে পারে:

  • জানা পরিবেশেএর মডেল যেখানে বিশ্লেষণী সমাধান পাওয়া না;
  • কেবল পরিবেশের অনুকারী মডেল বিদ্যমান (অনুকরণভিত্তিক আন্দাজকরণ);[৪]
  • কোনো পরিবেশে সেটি সম্পর্কে জানার ক্ষেত্রে তথ্য সংগ্রহের একমাত্র মাধ্যম হিসেবে।

এই সমস্যার দুইটি পরিকল্পিত সমস্যা হিসেবে বিবেচিত কেননা, এখানে কিছু জিনিস পাওয়া যায়। অপরদিকে শেষেরটি মূল শিক্ষণ সমস্যা হিসেবে পরিগণিত হয়। যাই হোক, রেইনফোর্সমেন্ট লার্নিং দুটো সমস্যাকে মেশিন লার্নিং সমস্যায় পরিণত করে।

অনুসন্ধান

অনুসন্ধান ও শোষণের সমস্যা বার্নেটাস ও কাটেহাকিস ১৯৯৭ সালে মাল্টি আর্মড ব্যান্ডিট সমস্যার মাধ্যমে নিয়ন্ত্রিত অবস্থার এমডিপিতে আলোচনা করেছেন।[৫]

রিইনফোর্সমেন্ট লার্নিংয়ে দৃঢ়তম শোষণ পদ্ধতি জানতে হয়। দৈবচয়িত ক্রিয়া আনুমানিক সম্ভাবক্না ছাড়া কাজ করলে তার ফলাফল ভালো হয় না। ছোট নির্দিষ্ট মারকভ সিদ্ধান্ত প্রক্রিয়া তুলনামূলকভাবে সহজে বোঝা যায় যাই হোক, অ্যালগরিদম কম থাকার কারণে বিভিন্ন পরিবেশের জন্য (অথবা বিভিন্ন সমস্তার অসীম অবস্থার জন্য) সরল শোষণ প্রক্রিয়া সবচেয়ে উপযোগী।

এই ধরনের পদ্ধতি হল -গ্রিডি, যেখানে হল এমন বিষয় যা অনুসন্ধান ও শোষণের পরিমাণ নিয়ন্ত্রণ করে। সম্ভাবনা , এর মাধ্যমে শোষণ বাছাই করা হয় এবং প্রতিনিধি এমন ক্রিয়া বাছাই করে যাতে সবচেয়ে দীর্ঘস্থায়ী ক্রিয়া বিদ্যমান (অন্য ক্রিয়ার থেকে এটিকে যখন তখন থামতে পারে না)। আবার, সম্ভাবনা এর ভিত্তিতে শোষ্ণ বাছাই করা হয় ও ক্রিয়া বাছাই হয় পুরোপুরিভাবে দৈবচয়িতভাবে। হল সাধারণত একটি স্থির বিষয়, এটি তালিকার ভিত্তিতে পরিবর্তন করা যেতে পারে (প্রতিনিধিকে কম অন্বেষণ করার জন্য) অথবা হিউরিস্টিকসের ভিত্তিতে আত্মীকরণ করা যেতে পারে।[৬]

কন্ট্রোল লার্নিংয়ের অ্যালগরিদম

শোষণের বিষয়কেবালাদা রেখে যদি কোন অবস্থা পর্যবেক্ষণ করা হয় (পরে তথ্য পাওয়া যায়), তবে সমস্যাটি পূর্ব অভিজ্ঞতা বিবেচনা করে ভালো পদক্ষেপ বাছাই করে থাকে।

অনুমানকরণের শর্ত

নীতি

প্রতিনিধির পদক্ষেপ বা ক্রিয়া বাছাউ ম্যাপে "নীতি" হিসেবে অভিহিত করা হয়:

এই নীতি ম্যাপ পদক্ষেপ গ্রহণের সম্ভাবনা action প্রদান করে, যখন অবস্থা [৭]:৬১ এখানে অসম্ভবায়িত নীতিও বিদ্যমান।

অবস্থা মানীয় ফাংশন

মান ফাংশন কে "প্রত্যাশী আগমন" বলে অভিহিত করা যখন শুরুর অবস্থা , যেমন , এবং সঠিকভাবে নীতি মেনে চলে। এরপর, এর মাধ্যমে মান ফাংশন নির্দিষ্ট অবস্থায় এটি "কত ভাল" তা নির্ণয় করে।[৭]:৬০

যখন সাধারণ চলক আগমন বোঝায় এবং একে ভবিষ্যত হ্রাসকৃত উপায়ন বলে অভিহিত করা হয়।[স্পষ্টকরণ প্রয়োজন]

এখামে হল উপায়ন , ধাপের যেখানে মান হ্রাসকৃত।[স্পষ্টকরণ প্রয়োজন].

অ্যালগরিদমকে সর্বোচ্চ প্রত্যাশিত আগমন পাওয়ার পদ্ধতি বের করতে হবে। এমডিপির তত্ত্ব অনুসারে এটা জানা যায় যে, সাধারণ অবস্থাত হ্রাস না ঘটলে অনুসন্ধান একটি গুচ্ছে থেমে যায় যার সাথে "স্থির" নীতির সম্পর্ক বিদ্যমান। একটি পদ্ধতি স্থির হিসেবে অভিহিত হবে যদি এটি পর্যবেক্ষণের পর্যবেক্ষণকৃত শেষ অবস্থার ওপর ভিত্তি করে চলে। এই অনুসন্ধান নির্ণয় করা যায় এমন স্থির নীতির ওপর চলতে পারে। নির্ণয় করা যায় এমন স্থিত নীতি সঠিকভানে বর্তমান অবস্থার ভিত্তিতে পদক্ষেপ গ্রহণ করে থাকে। যদি এমন পদ্ধতি একগুচ্ছ পদক্ষেপ চিত্রায়নের মাধ্যমে পাওয়া যায়, তখন এই পদ্ধতিগুলো এই চিত্রায়ন থেকে আলাদা করা যায় যেখানে সাধারণ অবস্থা অক্ষুণ্ণ থাকে।

রূঢ় বল

রূঢ় বল মূলত দুইটি পদ্ধতির ওপর ভিত্তি করে চলে থাকে:

  • প্রত্যেক সম্ভাব্য নীতি নমুনা একে অনুসরণ করে এসে থাকে
  • এমন পদ্ধতি বাছাই করতে হবে যেখানে সর্বোচ্চ প্রত্যাশিত আগমন পাওয়া যায়।

এই ধরনের একটি সমস্যের নীতির সংখ্যা অনেক এমনকি অসংখ্যও হতে পারে। আরেকটি বিষয় গল, আগমনের পার্থক্য অনেক বেশি হতে পারে। এটির প্রয়োজন অনেক নমুনা যার দরুন প্রত্যেক নীতির আগমন যাচাই করা যায়।

এই ধরনের সমস্যার উন্নয়ন হতে পারে কাঠামোকে ভিত্তি করে যদি আমরা কিছু কাঠামো বিবেচনা করি ও নমুনাকে নীতির ওপর ভিত্তি করে অনুমিত ফলাফলের ওপর প্রভাব বিস্তার করতে দেই। এটি অর্জনের দুটি মূল পদ্ধতি হল মান ফাংশন আন্দাজকরণ ও সরাসরি নীতি অনুসন্ধান।

মান ফাংশন

মান ফাংশিন কিছু নীতির ওপর ভিত্তি করে একটি নীতি বাছাই করে থাকে (সাধারণত বর্তমান চলমান নীতি ও অনুমিত বাইরের নীতির মধ্যে) যেখানে আগমনের প্রতি গুরুতেম্ব দেওয়া হয়।

এই প্রক্রিয়া এমডিপির তত্ত্বেও ওপর ভিত্তি করে চলে থাকে, যেখানে পূর্বের অবস্থার থেকে শক্তিশালী অবস্থার ওপর ভিত্তিতে অনুমানকরণ চলে থাকে। একটি পদ্ধতিকে অনুমিত বলা যাবে যদি এটি অর্জন করে সর্বোচ্চ অনুমিত আগমন যেকোন প্রাথমিক অবস্থার জন্য (উদাহরণস্বরূপ, প্রারম্ভিক বিপণন এই সংজ্ঞার কোন প্রভাব ফেলে না। আবার, একটি অনুমিত নীতি সবসময় স্থির নীতির মাঝে পাওয়া যাবে।

সাধারণ অবস্থায় আন্দাজকরণের ক্ষেত্রে নীতির মানকে ধরে

এখানে হল এমন আগমন যার সাথে যুক্ত যা পাওয়া যায় প্রাথমিক অবস্থা থেকে। এখানে, কে এর সম্ভাব্য সর্বোচ্চ মান ধরা হয় ও এখানে পরিবর্তিত হতে পারে,

এই মানগুলো অর্জনকারী একটি নীতিকে পুরোপুরিভাবে প্রত্যেক অবস্থার জন্য "অনুমিত নীতি" হয়। পুরোপুরিভাবে, এই ধারার ওপর ভিত্তি করে ধরলে কোনো অনুমিত নীতি প্রত্যাশিত আগমন , যখন , যখন হল একটি অবস্থা যা দৈবচয়নের মাধ্যমে থেকে পাওয়া যায় ও [স্পষ্টকরণ প্রয়োজন] হল বিপণন, এর ওপর করেও তাকে অনুমিত নীতি বলে অভিহিত করা যায়।

যদিও অবস্থাভিত্তিক মান অনুমানের ভিত্তিতে বের করা হলেও এটি পদক্ষেপ মানের ক্ষেত্রেও গুরুত্বপূর্ণ ভূমিকা পালন করে। প্রদত্ত অবস্থা , পদক্ষেপ নীতি , জোড় মান যখন তা এর অধীন, এর মাধ্যমে বলা যায়,

যেখানে হল দৈবচয়ন আগমন যা প্রথমে নেওয়া পদক্ষেপ এর সাথে যুক্ত (যা অবস্থা ও তারপর following এর ওপর ভিত্তি করে নেওয়া হয়েছিল)।

এমডিপির তত্ত্বে বলা হয়েছে যে, যদি অনুমিত নীতি হয় তবে আমাদের অনুমানের ভিত্তিতে (অনুমিত পদক্ষেপের মাধ্যমে) কাজ করতে হবে ও থেকে পদক্ষেপ গ্রহণ করতে হবে যখন প্রত্যেক অবস্থার সর্বোচ্চ মান, এই ধরনের অনুমিত নীতির () পদক্ষেপ মান ফাংশনকে "অনুমিত পদক্ষেপ মান-ফাংশন" বলা হয় এবং একে দিতে বোঝানে হয়। আসলে, অনুমিত পদক্ষেপ মান ফাংশন কীভাবে পদক্ষেপ নিতে হবে সে সম্পর্কে জ্ঞানদান করে থাকে।

এমডিপির পুরো জ্ঞান বিবেচনা করলে, পদক্ষেপ মান ফাংশন বের করার দুই পদ্ধতি হল মান পুনরাবৃত্তি ও নীতি পুনরাবৃত্তি। দুটি অ্যালগরিদমই () ধারার ফাংশন বের করে থাকে যা এর সাথে একসাথে মিলিত হয়। এই ধরনের ফাংশন বের করার মাধ্যমে গোটা অবস্থায় আগমনের পরিমাণ বের করা যায়, যা সব ব্যবস্থার জন্য প্রযোজ্য না হলেও ক্ষুদ্র (নির্দিষ্ট) এমডিপির জন্য প্রযোজ্য। রিইনফোর্সমেন্ট লার্নিং পদ্ধতিতে, প্রত্যাশাব্বের করা হয় নমুনা থেকে পাওয়া মান গড় করার মাধ্যমে ও এখানে অনুমিত ফাংশন পদ্ধতি ব্যবহার করা হয় যার দরুন বৃহৎ অবস্থার মান ফাংশনের সাথে তা তাল মিলিয়ে চলতে পারে।

মন্টি কার্লো পদ্ধতি

মন্টি কার্লো পদ্ধতি এমন অ্যালগরিদমে ব্যবহার করা যাব্ব, যেখানে নকল পুনরাবৃত্তীয় নীতির ওপর চলে। নীতির পুনরাবৃত্তির দুটি ধাপ বিদ্যমান, নীতি মূল্যায়ন ও নীতি উন্নয়ন।

পদক্ষেপ মূল্যায়ন নীতিতে মন্টি কার্লো পদ্ধতি কাজে লাগে। এই পদক্ষেপে, প্রদত্ত স্থির, নির্ণেয় নীতি , ফাংশন মান বের করার লক্ষ্য (অথবা এদের মাঝে একটি ভাল অনুমান ) সব অবস্থা পদক্ষেপ জোড় এর সাথে। সহজভাবে মনে করা যায় যে, এমডিপি নির্দিষ্ট যা পদক্ষেপ মানের জন্য পর্যপ্ত জায়গা রাখতে পারে যার মাধ্যমে এটি সংরক্ষণ করা যায় যেখানে সমস্যাগুলো পর্বভিত্তিক হয় ও একটি পর্বের একটি আরেকটি নতুনের সূচনা ঘটে যা আসে দৈবচয়নের ভিত্তিতে। এরপর, প্রদত্ত অবস্থা পদক্ষেপের অনুমিত মান বের করা যায় নমুনার মানের গড়ের মাধ্যমে যা আসে একটি সময়ের থেকে। প্রদত্ত পর্যাপ্ত সময় থেকে পদ্ধতিতে যথাযথ অনুমিত মান আসে পদক্ষেপ মান ফাংশনf থেকে। এর মাধ্যমে নীতি পর্যালোচনা ধাপের বর্ণনা শেষ হয়।

নীতি উন্নয়ন ধাপে পরবর্তী নীতি পাওয়া যায় "রূঢ়" নীতি বের করার মাধ্যমে যা এর সাথে সম্পর্কিত: প্রদত্ত অবস্থা , এ নতুন নীতি একটি পদক্ষেপ নিয়ে আসে যা এর মান বৃদ্ধি করে। বাস্তবিক অর্থে, নিষ্ক্রিয় পর্যালোচনা নিষ্ক্রিয় রাখতে পারে সর্বোচ্চ পদক্ষেপ নির্ণয় করা পদ্ধতিকে যখন এর তা প্রয়োজন হয়।

এই প্রক্রিয়ার সমস্যাগুলো হল:

  • এই পদ্ধতি একটি অর্ধ অনুমিত নীতি পর্যালোচনার ক্ষেত্রে অনেক সময় ব্যয় করতে পারে।
  • এটি অদক্ষভাবে নমুনা ব্যবহার করে যার দরুন সমাধানের একটি বিশাল পথ বিকশিত হয় যা কেবল "একটি" অবস্থা পদক্ষেপ জোড় নিয়ে কাজ করে।I
  • যখন এই বিশাল পথে আগমনের মানের বড় পার্থক্য দেখা যায়, তখন একই বিন্দুতে মিলিত হবার ঘটনা দীর্ঘায়িত হয়।
  • এটি শুধু পর্বভিত্তিক সমস্যা নিয়ে কাজ করে;
  • এটি ছোট, নির্দিষ্ট এমডিপি নিয়ে কাজ করে।

অস্থায়ী পার্থক্য পদ্ধতি

প্রথম সমস্যা কিছু বা সব অবস্থায় পদ্ধতিকে নীতি পরিবর্তন করার অনুমতি প্রদানের মাধ্যমে সমাধান করা যায়। এক্ষেত্রে মানগুলোর স্থায়ী হবার পূর্বে কাজ করা হয়। এটি খুবই সমস্যার বিষয় কেননা এটি একই বিন্দুতে মিলিত হওয়া প্রতিরোধ করতে পারে। বর্তমানে অধিকাংশ অ্যালগরিদম সাধারণ নীতি পুনরাবৃত্তি করার মাধ্যমে কাজ করে থাকে। অনেক "অভিনেতা সমালোচক" পদ্ধতি এই শ্রেণীর আওতাভুক্ত।

এর দ্বিতীয় ইস্যুটি আবক্র পথকে যেকোন অবস্থা-পদক্ষেপ জোড়ে অবদান রাখার অনুমতি প্রদানের মাধ্যমে সঠিক করা যেতে পারে। এটি তৃতীয় সমস্যার কয়েকটি ক্ষেত্রে সাহায্য কর‍তে পারে। এটি ভালো সমাধানে অবদান রাখতে পারে যখন আগমনের ক্ষেত্রে অনেক পার্থক্য দেখা যায় যখন তা সাটনের "অস্থায়ী পার্থক্য" (টিডি) এর মাঝে পড়ে, যা পুনরাবৃত্ত বেলম্যান সমীকরণের ভিত্তিতে গড়ে উঠেছে।[৮][৯] টিডি পদ্ধতির মান নির্ণয় বাড়তে পারে যখন রূপান্তর শেষ হবার পর স্মৃতির পরিবর্তন ঘটে ও রূপান্তরকে বিবেচনা না করা হয় অথবা দলে পরিণত হতে পারে (যখন দলবদ্ধভাবে রূপান্তর করা হয় এবং অনুমান করা হয় দলের ভিত্তিতে)। দলবদ্ধ পদ্ধতি যেমব ন্যূনতম বর্গ অস্থায়ী পার্থক্য পদ্ধতি,[১০] তুলনামূলক ভালোভাবে নমুনার তথ্য ব্যবহার করতে পারে। অপরদিকে বেড়ে ওঠা পদ্ধতি হল একমাত্র পছন্দ হয়ে দাঁড়ায় যখন দল প্রক্রিয়া বিশাল গাণিতিক প্রক্রিয়া ও স্মৃতির জটিলতার দরুন অচল হয়ে দাঁড়ায়। কিছু পদ্ধতি এই দুইটি পথের সমন্বয়ে চলে থাকে। অস্থায়ী পার্থক্যকে ভিত্তি করে চলা পদ্ধতি চতুর্থ ইস্যুরও সমাধান করতে সক্ষম হয়।

পঞ্চম ইস্যুর ক্ষেত্রে "ফাংশন অনুমিত পদ্ধতি" ব্যবহার করা হয়। "রৈখিক ফাংশন" চিত্রায়নের মাধ্যমে যাত্রা শুরু করে যা প্রত্যেক অবস্থা-পদক্ষেপ জোড়ার জন্য একটি নির্দিষ্ট মাত্রার ভেক্টর। এরপর অবস্থা পদক্ষেপ জোড়ার পদক্ষেপ মান পাওয়া যায় রৈখিকভাবে যুক্ত উপদান ও কিছু "ওজন" এর মাধ্যমে :

এই অ্যালগরিদম সাম্যাবস্থায় আনে। এটি একেকটি অবস্থা পদক্ষেপ জোড়ার মান বিবেচনা না করে এই কাজ করে থাকে। অবৈষয়িক পরিসংখ্যান থেকে পাওয়া সিদ্ধান্ত থেকে পদ্ধতি অনুসন্ধান করা যেতে পারে যাদের তাদের নিজেদের অভ্যন্তরীণ অবস্থা গঠনে কাজে লেগে থাকতে দেখা যেতে পারে।

মানের পুনরাবৃত্তি গোড়া থেকেও ব্যবহৃত হতে পারে। এক্ষেত্রে কিউ-শিক্ষণ অ্যালগরিদমকে এর অনেক চলকের দিকে গুরুত্ব দিয়ে কাজ করা হয়।[১১]

এই পদক্ষেপ-মান ব্যবহারের সমস্যা হল এক্ষেত্রে তাদের পুরোপুরিভাবে যথাযথ অনুমান লাগতে পারে প্রতিদ্বন্দ্বী পদক্ষেপ মানের ক্ষেত্রে যার মান নের করা কষ্টসাধ্য হতে পারে যখন আগমনের মান বেশি হয়ে থাকে। এই সমস্যা অস্থায়ী পার্থক্য পদ্ধতির কিছু প্রয়োগের মাধ্যমে মেটানো যায়। এই কথিত সামঞ্জস্যপূর্ণ ফাংশন অনুমান প্রক্রিয়ার মাধ্যকে সাধারণত্ব ও দক্ষতার সাথে আপোসে যেতে হয়। এই পদ্ধতির আরেকটা সমস্যা হল টিডি পুনরাবৃত্ত বেলম্যান সমীকরণের ওপর নির্ভর করে থাকে। অধিকাংশ টিডি পদ্ধতিতে কথিত বিষয় আসে যা বারবার মন্টি কার্লো পদ্ধতিতে হস্তক্ষেপ করে যা বেলম্যান সমীকরণ নির্ভরশীল নক্য এবং মৌলিক টিডি পদ্ধতিগুলো মূলত বেলম্যান সমীকরণকে ভিত্তি করে চলে। এটি এই ইস্যু সমাধানে গুরুত্বপূর্ণ ভূমিকা রাখতে পারে।

সরাসরি নীতি অনুসন্ধান

একটি বিকল্প পদ্ধতি হল নীতির মাঝে বা এর কিছু অংশে সরাসরি অনুসন্ধান চালানো, এত দরুন সমস্যা সম্ভাবনার সূত্র দ্বারা নিয়ন্ত্রিত ঘটনায় পরিণত হয়। এই প্রক্রিয়ার দুইটি পদ্ধতি হল: গ্রাডিয়ান্টভিত্তিক পদ্ধতি ও গ্রাডিয়ান্টহীন পদ্ধতি।

গ্রাডিয়ান্ট ভিত্তিক পদ্ধতি (নীতি গ্রাডিয়ান্ট পদ্ধতি) যাত্রা শুরু করে নির্দিষ্ট মাত্রা (বিষয়) জায়গায় নীতি চিত্রায়নের মাধ্যমে: প্রদত্ত বিষয়ের ভেক্টর , মনে করি নির্দেয়াস করে এর সাথে নীতির সম্পর্ক। তাহলে ফলাফল ফাংশন দাঁড়ায়,

ধূর অবস্থায় প্যারামিটার ভেক্টর এর সাহায্যে ব্যবকলন করা যেতে পারে। যদি এর গ্রাডিয়ান্ট জানা যায়, তবে কেউ গ্রাডিয়ান্টের ঊর্ধ্বগতি দেখতে পারবে। যদি গ্রাডিয়ান্টের বিশ্লেষিত অভিব্যক্তি পাওয়া না যায়, তবে একটি এলোমেলো অনুমান পাওয়া যেতে পারে। এই ধরনের অনুমান বিভিন্ন ভাবে তৈরি করা যেতে পারে। যেমন, উইলিয়ামের রিইনফোর্স পদ্ধতি[১২] (এটি অনুকার ভিত্তিক অনুমানের ক্ষেত্রে একই রকম অনুপাত প্রক্রিয়া নামে পরিচিত)।[১৩] নীতি অনুসন্ধান পদ্ধতি রোবোটিক্সের ক্ষেত্রে ব্যবহার করা যেতে পারে।[১৪] অনেক নীতি অনুসন্ধান পদ্ধতি স্থানীয় দর্শনে আটকে পড়তে পারে কেননা, এটি স্থানীয় অনুসন্ধানের ভিত্তিতে চলে।

পদ্ধতির অধিকাংশই গ্রাডিয়ান্ট তথ্যের ওপর ভিত্তি করে চলে না। এদের মাঝে অনুকারী কোমলায়ন, বিপরীত এন্ট্রপি পদ্ধতি বা বৈপ্লবিক গণনার পদ্ধতিগুলোর নাম করা যায়। অনেক গ্রাডিয়ান্টহীন পদ্ধতি পর্যবেক্ষণে পার্থক্যের নজির দেখা যায় না।

প্রদত্ত এলোমেলো তথ্যের ক্ষেত্রে নীতি অনুসন্ধান পদ্ধতি একই বিন্দুতে মিলিত হতে পারে। উদাহরণস্বরূপ, এর নজির পর্বভিত্তিক সমস্যায়l দেখা যেতে পারে যখন সমাধানের পথ বিশাল ও এক আগমনের সাথে আরেক আগমনের পার্থক্য অনেক বেশি। মান-ফাংশন ভিত্তিক পদ্ধতিগুলো অস্থায়ী পার্থক্যকে ভিত্তি করে চলে যা এক্ষেত্রে গুরুত্বপূর্ণ ভূমিকা রাখতে পারে। ইদানীং এসব ক্ষেত্রে সমাধানের জন্য "অভিনেতা–সমালোচক পদ্ধতি" ব্যবহার করতে বলা হয়। এই পদ্ধতি এক্ষেত্রে ভালোভাবে সমস্যার সমাধান করতে সক্ষম হয়েছে।[১৫]

তত্ত্ব

অ্যালগরিদম অসীম ও সসীম ব্যবহার ভালোভাবে বোঝা যায়। অনুসন্ধান ইস্যুর অ্যালগরিদম যাতে প্রমাণিত ভাল অনলাইন পারফরমেন্স বিদ্যমান তা জানা যায়।

বিশাল এমডিপিগুলোতে দক্ষ অনুসন্ধান মূলত সম্ভব হয় না (ব্যান্ডিত সমস্যা এ বিষয়ে ব্যতিক্রম)।[স্পষ্টকরণ প্রয়োজন] যদিও সসীম সময়ের ফলাগল অনেক অ্যালগরিদমেত সাথে যুক্ত থাকলেও তারা দৃঢ়ভাবে যুক্ত থাকবে না এমন প্রত্যাশা করা হয় এবং এজন্য অনেক কাজের দরকার হয় যার দরুন সহজে এর সুফল কুফল বুঝতে কষ্ট হয়,।

বর্ধিষ্ণু অ্যালগরিদমের ক্ষেত্রে অসীমে একই বিন্দুতে মিলিত হবার বিষয় দাঁড় করানো হয়। অস্থায়ী পার্থক্য ভিত্তিক অ্যালগরিদনে এই একই বিন্দুতে মিলিত হবার ক্ষেত্রে অনেক শর্ত লাহে যা পূর্বে খুব সহজেই অর্জিত হত (উদাহরণস্বরূপ, মধ্যস্থতাকারী মসৃণ ফাংশন অনুমান ব্যবহার করা হলে)।

গবেষণা

এর গবেষণা ক্ষেত্রের অন্তর্ভুক্ত হল

  • আত্মীকৃত পদ্ধতি যা অল্প (বা শূন্য) বিষিয় নিয়ে অনেক শর্তের অধীনে কাজ করর থাকে p
  • বিশাল এমডিপিতে অনুসন্ধান সমস্যার পরিচিতি
  • বৃহদাকারের গবেষণামূলজ অভিব্যক্তি
  • আংশিক তথ্যের অধীনে শেখা ও কাজ করা (উদাহরণস্বরূপ প্রত্যাশিত অবস্থা উপস্থাপন)
  • পরিমিত ও প্রাচীন রিইনফোর্সমেন্ট লার্নিং
  • বিদ্যমান মান ফাংশনের উন্নতি ও নীতি অনুসন্ধান পদ্ধতি
  • যেসব অ্যালগরিদম বিশাল বা চলমান পদক্ষেপ স্থান নিয়ে কাজ করে
  • স্থানান্তর শিক্ষণ
  • আজীবন শিক্ষণ
  • দক্ষ নমুনা ভিত্তিক পরিকল্পনা (যেমন, মন্টি কার্লো অনুসন্ধান ভিত্তিক)।
  • সফটওয়্যার প্রকল্পে ভুল নির্ণয়[১৬]

একাধিক প্রতিনিধিভিত্তিক বা বিন্যস্ত রিইনফোর্সমেন্ট লার্নিং হল বর্ধিষ্ণু বিষয়। এর প্রয়োগও বাড়ছে।[১৭]

  • অভিনেতা–সমালোচক রিইনফোর্সমেন্ট লার্নিং

রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যেমন টিডি লার্নিং নিয়ে মস্তিষ্কে ডোপামিন-ভিত্তিক শিক্ষণ বিষয়ে গবেষণা করা হচ্ছে। এই মডেলে সাবস্টানশিয়া নিগ্রা থেলে বাসাল গ্যাংলিয়া থেকে ডোপামিনভিত্তিক অভিক্ষেপ অনুমান ভুলে অবদান রাখে। রিইনফোর্সমেন্ট লার্নিং মানব দক্ষণা শিক্ষণের মডেল হিসেবে ব্যবহৃত হচ্ছে, এটি বিশেষত দক্ষতা অর্জনের অন্তর্নিহিত ও প্রকাশিত শিক্ষণেত ক্ষেত্রে অবদান রাখে (এটি সম্পর্কিত প্রকাশনা ১৯৯৫–১৯৯৬) এ প্রথম প্রকাশিত হয়)।[১৮]

রিইনফোর্সমেন্ট লার্নিংয়ের অ্যালগরিদমের মাঝে তুলনা

অ্যালগরিদম বর্ণনা মডেল নীতি পদক্ষেপ স্থান অবস্থা স্থান পরিচালক
মন্টি কার্লো সবসময় মন্টি কার্লোতে গমন মডেলহীন নীতিবহির্ভূত বিচ্ছিন্ন বিচ্ছিন্ন নমুনা দ্বারা
কিউ শিক্ষণ অবস্থা–পদক্ষেপ–

উপায়ন–অবস্থা || মডেলহীন || নীতিবহির্ভূত || বিচ্ছিন্ন || বিচ্ছিন্ন || কিউ-মান

সারসা অবস্থা–পদক্ষেপ–

উপায়ন–অবস্থা–পদক্ষেপ || মডেলহীন || নীতির অধীনে || বিচ্ছিন্ন || বিচ্ছিন্ন || কিউ-মান

কিউ শিক্ষণ ল্যাম্বডা যোগ্য খসড়ায় অবস্থা–পদক্ষেপ–

উপায়ন–অবস্থা|| মডেলহীন || নীতি বহির্ভূত || বিচ্ছিন্ন || বিচ্ছিন্ন || কিউ-মান

সারসা ল্যাম্বডা যোগ্য খসড়ায় অবস্থা–পদক্ষেপ–

উপায়ন–অবস্থা–পদক্ষেপ || মডেলহীন || নীতির অধীন || বিচ্ছিন্ন || বিচ্ছিন্ন || কিউ-মান

ডি কিউ এন গভীর কিউ নেটওয়ার্ক মডেলহীন নীতিবহির্ভূত বিচ্ছিন্ন চলমান কিউ-মান
ডিডিপিজি গভীর নির্ণেয় নীতি গ্রাডিয়ান্ট মডেলহীন নীতিবহির্ভূত চলমান চলমান কিউ-মান
এ৩সি অমিল উন্নত অভিনেতা সমালোচক অ্যালগরিদম মডেলহীন নীতির অধীন চলমান চলমান সুবিধা
এনএএফ সাধারণ উন্নত ফাংশনের সাহায্যে কিউ লার্নিং মডেলহীন নীতিবহির্ভূত চলমান চলমান সুবিধা
টিআরপিও বিশ্বস্ত অঞ্চল নীতি আন্দাজকরণ মডেলহীন নীতির অধীন চলমান চলমান সুবিধা
পিপিও অনুমিত নীতি আন্দাজকরণ মডেলহীন নীতির অধীন চলমান চলমান সুবিধা
টিডি৩ জোড়া বিলম্বিত গভীত নির্ণেয় নীতি গ্রাডিয়ান্ট মডেলহীন নীতি বহির্ভূত চলমান চলমান কিউ-মান
এসএসি কোমল অভিনেতা–সমালোচক মডেলহীন নীতিবহির্ভূত চলমান চলমান সুবিধা

গভীর রিইনফোর্সমেন্ট লার্নিং

এই পদ্ধতিতে রিইনফোর্সমেন্ট লার্নিংকে বাড়ানো হয় হয় এক্ষেত্রে গভীর নিউরাল নেটওয়ার্কের সাহায্য নেওয়া হয় এবং এখানে স্পষ্টভাবে অবস্থার সাজানো জায়গার সাহায্য ছাড়া কাজ করা হয়।[১৯] গুগল ডিপমাইন্ডের সাহায্যে আটারি খেলে শিক্ষণ গভীর রিইনফোর্সমেন্ট লার্নিং বা প্রান্ত থেকে প্রান্ত রিইনফোর্সমেন্ট লার্নিংয়ের প্রতি আগ্রহ বৃদ্ধি করেছে।[২০]

বিপরীত রিইনফোর্সমেন্ট লার্নিং

বিপরীত রিইনফোর্সমেন্ট লার্নিংয়ে (আইআরএল) কোনো উপায়ন ফাংশান দেওয়া হয় না। এর পরিবর্তে, এক দক্ষ ব্যক্তির পর্যবেক্ষণ থেকে পাওয়া বৈশিষ্ট্য থেকে উপায়ন ফাংশন চালানো হয়। এই চিন্তা পর্যবেক্ষণকৃত বৈশিষ্ট্যের অনুকারী, যেগুলো অনুমিত হয় বা অনুমানের কাছাকাছি থাকে।[২১]

নবিশ শিক্ষণ

নবিস শিক্ষণে একজন দক্ষ ব্যক্তি লক্ষ্য বৈশিষ্ট্য সম্পর্কে আলোচনা করেন। এই পদ্ধতিতে পর্যবেক্ষণের মাধ্যমে নীতি পুনরুদ্ধারে চেষ্টা করা হয়।

তথ্যসূত্র

  1. Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (১৯৯৬)। "Reinforcement Learning: A Survey"Journal of Artificial Intelligence Research4: 237–285। arXiv:cs/9605103অবাধে প্রবেশযোগ্যডিওআই:10.1613/jair.301। ২০০১-১১-২০ তারিখে মূল থেকে আর্কাইভ করা। 
  2. van Otterlo, M.; Wiering, M. (২০১২)। Reinforcement learning and markov decision processesReinforcement Learning। Adaptation, Learning, and Optimization। 12। পৃষ্ঠা 3–42। আইএসবিএন 978-3-642-27644-6ডিওআই:10.1007/978-3-642-27645-3_1 
  3. Sutton Barto, Chapter 11।
  4. Gosavi, Abhijit (২০০৩)। Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement। Operations Research/Computer Science Interfaces Series। Springer। আইএসবিএন 978-1-4020-7454-7 
  5. Burnetas, Apostolos N.; Katehakis, Michael N. (১৯৯৭), "Optimal adaptive policies for Markov Decision Processes", Mathematics of Operations Research, 22: 222––255 
  6. Tokic, Michel; Palm, Günther (২০১১), "Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax" (পিডিএফ), KI 2011: Advances in Artificial Intelligence, Lecture Notes in Computer Science, 7006, Springer, পৃষ্ঠা 335–346, আইএসবিএন 978-3-642-24455-1 
  7. Reinforcement learning: An introduction (পিডিএফ) 
  8. Sutton, Richard S. (১৯৮৪)। Temporal Credit Assignment in Reinforcement Learning (গবেষণাপত্র)। University of Massachusetts, Amherst, MA। 
  9. Sutton ও Barto 1998, §6. Temporal-Difference Learning
  10. Bradtke, Steven J.; Barto, Andrew G. (১৯৯৬)। "Learning to predict by the method of temporal differences"। Machine Learning22: 33–57। ডিওআই:10.1023/A:1018056104778সাইট সিয়ারX 10.1.1.143.857অবাধে প্রবেশযোগ্য 
  11. Watkins, Christopher J.C.H. (১৯৮৯)। Learning from Delayed Rewards (পিডিএফ) (গবেষণাপত্র)। King’s College, Cambridge, UK। 
  12. Williams, Ronald J. (১৯৮৭)। "A class of gradient-estimating algorithms for reinforcement learning in neural networks"। Proceedings of the IEEE First International Conference on Neural Networksসাইট সিয়ারX 10.1.1.129.8871অবাধে প্রবেশযোগ্য 
  13. Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (২০০৩)। "Reinforcement Learning for Humanoid Robotics" (পিডিএফ)IEEE-RAS International Conference on Humanoid Robots 
  14. Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (২০১৩)। A Survey on Policy Search for Robotics। Foundations and Trends in Robotics। 2। NOW Publishers। পৃষ্ঠা 1–142। hdl:10044/1/12051 
  15. Juliani, Arthur (২০১৬-১২-১৭)। "Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)"Medium। সংগ্রহের তারিখ ২০১৮-০২-২২ 
  16. "On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment"cie.acm.org (ইংরেজি ভাষায়)। সংগ্রহের তারিখ ২০১৮-১১-২৭ 
  17. "Reinforcement Learning / Successes of Reinforcement Learning"umichrl.pbworks.com। সংগ্রহের তারিখ ২০১৭-০৮-০৬ 
  18. [১] ওয়েব্যাক মেশিনে আর্কাইভকৃত ২০১৭-০৪-২৬ তারিখে
  19. Francois-Lavet, Vincent; ও অন্যান্য (২০১৮)। "An Introduction to Deep Reinforcement Learning"Foundations and Trends in Machine Learning11 (3–4): 219–354। arXiv:1811.12560অবাধে প্রবেশযোগ্যডিওআই:10.1561/2200000071 
  20. Mnih, Volodymyr; ও অন্যান্য (২০১৫)। "Human-level control through deep reinforcement learning"। Nature518 (7540): 529–533। ডিওআই:10.1038/nature14236পিএমআইডি 25719670বিবকোড:2015Natur.518..529M 
  21. Ng, A. Y.; Russell, S. J. (২০০০)। "Algorithms for Inverse Reinforcement Learning" (পিডিএফ)Proceeding ICML '00 Proceedings of the Seventeenth International Conference on Machine Learning। পৃষ্ঠা 663–670। আইএসবিএন 1-55860-707-2 

আরো পড়ুন

External links