রিজ রিগ্রেশন
রিজ রিগ্রেশন (যা আন্দ্রে তিখোনভ-এর নামানুসারে তিখোনভ রেগুলারাইজেশন নামেও পরিচিত) হলো বহু-নির্ভরণ মডেলের সহগসমূহ প্রাক্কলন করার এমন একটি পদ্ধতি, যেখানে চলকসমূহ উচ্চমাত্রায় সহসম্পর্কিত থাকে।[১] এটি অর্থনীতিমিতি, রসায়ন এবং প্রকৌশলসহ বিভিন্ন ক্ষেত্রে ব্যবহৃত হয়েছে।[২] এটি অসংজ্ঞায়িত সমস্যা নিয়মিতকরণের (regularization) একটি পদ্ধতি।[ক] এটি রৈখিক নির্ভরণের ক্ষেত্রে বহু-সহসম্বন্ধতা (multicollinearity) সমস্যা প্রশমিত করতে বিশেষভাবে কার্যকর, যা সাধারণত বিপুল সংখ্যক পরামিতি সংবলিত মডেলে দেখা যায়।[৩] সাধারণভাবে, এই পদ্ধতিটি একটি সহনীয় মাত্রার ঝোঁকের (bias) বিনিময়ে পরামিতি প্রাক্কলন সমস্যায় উন্নত দক্ষতা (efficiency) প্রদান করে (দেখুন ঝোঁক-ভেদাঙ্ক বিনিময়)।[৪]
১৯৭০ সালে হোয়ার্ল এবং ক্যানার্ড তাদের Technometrics গবেষণাপত্র "রিজ রিগ্রেশন: নন-অর্থোগোনাল সমস্যাগুলোর পক্ষপাতদুষ্ট প্রাক্কলন" এবং "রিজ রিগ্রেশন: নন-অর্থোগোনাল সমস্যাগুলোর প্রয়োগ"-এ এই তত্ত্বটি প্রথম প্রবর্তন করেন।[৫][৬][১]
রৈখিক নির্ভরণ মডেলে যখন কিছু বহু-সহসম্বন্ধযুক্ত (উচ্চমাত্রায় সহসম্পর্কিত) স্বাধীন চলক থাকে, তখন নূন্যতম বর্গ প্রাক্কলকগুলোর (least square estimators) নির্ভুলতাহীনতার একটি সম্ভাব্য সমাধান হিসেবে রিজ রিগ্রেশন তৈরি করা হয়েছিল। এটি একটি রিজ রিগ্রেশন প্রাক্কলক (RR) তৈরি করার মাধ্যমে করা হয়। এটি রিজ পরামিতিগুলোর আরও সুনির্দিষ্ট প্রাক্কলন প্রদান করে, কারণ এর ভেদাঙ্ক এবং গড় বর্গ প্রাক্কলক প্রায়শই পূর্বে প্রাপ্ত নূন্যতম বর্গ প্রাক্কলকগুলোর তুলনায় ছোট হয়।[৭][২]
সংক্ষিপ্ত বর্ণনা
[সম্পাদনা]সাধারণ নূন্যতম বর্গ পদ্ধতিতে
এর সমাধানের ক্ষেত্রে একটি প্রায়-সিঙ্গুলার (near-singular) মোমেন্ট ম্যাট্রিক্স -এর সমস্যা নিরসনে এর প্রধান কর্ণের (diagonals) উপাদানগুলোর সাথে ধনাত্মক মান যোগ করা হয়, যার ফলে এর কন্ডিশন নম্বর হ্রাস পায়। সাধারণ নূন্যতম বর্গ প্রাক্কলকের (estimator) তুলনায় সাধারণ রিজ প্রাক্কলকের হরে একটি অতিরিক্ত পদ থাকে: এখানে হলো নির্ভরিত চলক (regressand) বা রেসপন্স ভেক্টর, হলো ডিজাইন ম্যাট্রিক্স, হলো অভেদ ম্যাট্রিক্স, এবং রিজ (বা তিখোনভ) নিয়মিতকরণ পরামিতি হলো সেই ধ্রুবক যা মোমেন্ট ম্যাট্রিক্সের প্রধান কর্ণের মানগুলোকে স্থানান্তরিত করে।[৮] এটি দেখানো যেতে পারে যে, এই প্রাক্কলকটি শর্ত সাপেক্ষে নূন্যতম বর্গ সমস্যার সমাধান, যাকে একটি ল্যাগ্রাঞ্জ মিনিনাইজেশন (Lagrangian minimization) হিসেবে প্রকাশ করা যেতে পারে:
যা থেকে বোঝা যায় যে হলো মূলত এই শর্তের একটি ল্যাগ্রাঞ্জ গুণক (Lagrange multiplier)।[৯] প্রকৃতপক্ষে, এবং -এর মধ্যে একটি এক-টু-এক (one-to-one) সম্পর্ক রয়েছে এবং যেহেতু বাস্তবে আমরা -এর মান জানি না, তাই আমরা গবেষণামূলকভাবে (heuristically) নির্ধারণ করি অথবা অতিরিক্ত ডেটা-ফিটিং কৌশলের মাধ্যমে এটি খুঁজে বের করি; নিচের তিখোনভ পরামিতি নির্ধারণ অংশটি দেখুন।
উল্লেখ্য যে, যখন হয়, তখন শর্তটি শেষ পর্যন্ত অ-বাধ্যতামূলক (non-binding) হয়ে যায় এবং রিজ প্রাক্কলকটি নূন্যতম-মান (minimum-norm) সম্বলিত সাধারণ নূন্যতম বর্গ প্রাক্কলকের দিকে ধাবিত হয়, যাকে এখানে হিসেবে চিহ্নিত করা হয়েছে:
এখানে দ্বারা -এর সুডোইনভার্স (pseudoinverse) বোঝানো হয়েছে।
তিখোনভ পরামিতি নির্ধারণ
[সম্পাদনা]আদর্শ নিয়মিতকরণ পরামিতি $\lambda$ সাধারণত অজানা থাকে এবং বাস্তবে এটি প্রাক্কলন করার প্রয়োজন হয়। সাধারণত, তিখোনভ নিয়মিতকরণ পরামিতি $\lambda$-এর জন্য উপাত্ত-ভিত্তিক (data-driven) নির্বাচন হয় ক্রস-ভ্যালিডেশন অথবা একটি প্লাগ-ইন পদ্ধতির মাধ্যমে সম্পন্ন করা হয়, যা নিচে বর্ণনা করা হলো।
সাধারণীকৃত ক্রস-ভ্যালিডেশন প্রাক্কলক
[সম্পাদনা]$\lambda$ নির্বাচনের একটি সাধারণ উপাত্ত-ভিত্তিক পদ্ধতি হলো ক্রস-ভ্যালিডেশন লস (cross-validation loss) বা এর সাধারণীকৃত রূপের ক্ষুদ্রতম মান (minimizer) খুঁজে বের করা। উদাহরণস্বরূপ, গ্রেস ওয়াহবা প্রমাণ করেছেন যে, সাধারণীকৃত ক্রস-ভ্যালিডেশন (Generalized cross-validation)-এর ক্ষেত্রে আদর্শ পরামিতি নিচের সমীকরণটিকে ক্ষুদ্রতম করে[১০][১১]:
এখানে $\operatorname{RSS}$ হলো অবশিষ্ট বর্গের সমষ্টি এবং $\tau$ হলো কার্যকর স্বাধীনতার মাত্রা।
প্লাগ-ইন প্রাক্কলক
[সম্পাদনা]ধরা যাক, $\mathbf{X}$ একটি $n\times p$ ম্যাট্রিক্স এবং $\Omega:=(\mathbf{X}^\top\mathbf{X}/n)^+$ ম্যাট্রিক্সটি সংজ্ঞায়িত করি। এরপর, তিখোনভ নিয়মিতকরণ পরামিতির জন্য নিচের নির্বাচনটি বিবেচনা করি:
এখানে $\varsigma^2$ হলো নয়েজ (noise) $\boldsymbol\varepsilon=\mathbf{Y}-\mathbf{X}\boldsymbol\beta$-এর ভেদাঙ্ক, অর্থাৎ $\mathrm{Var}(\boldsymbol\varepsilon)=\varsigma^2 \mathbf I$। এটি দেখানো সম্ভব[১২] যে, রিজ প্রাক্কলক $\hat{\boldsymbol\beta}_{\lambda^*}$-এর প্রত্যাশিত ইন-স্যাম্পল ঝুঁকি (expected in-sample risk), নূন্যতম-মান বিশিষ্ট নূন্যতম বর্গ প্রাক্কলক $\hat{\boldsymbol\beta}_0=\mathbf{X}^+\mathbf{Y}$-এর তুলনায় কম। আরও সুনির্দিষ্টভাবে বললে:
এখানে প্রত্যাশা (expectations) নির্ণয়ের ক্ষেত্রে $\mathbf{X}$-কে স্থির ধরা হয়েছে এবং $\mathbf {Y}'$ হলো 'টেস্ট রেসপন্স' উপাত্ত, যা $\mathbf {Y}$ থেকে স্বাধীন (এবং ফলস্বরূপ এটি $\hat{\boldsymbol\beta}_0$ ও $\hat{\boldsymbol\beta}_{\lambda^*}$ প্রাক্কলকগুলো থেকেও স্বাধীন)।
অবশ্যই, বাস্তবে $\lambda^*$-এর সূত্রটি ব্যবহারের সময় অজানা পরামিতি $\boldsymbol\beta$ এবং $\varsigma^2$-এর পরিবর্তে তাদের পরিসংখ্যানিক প্রাক্কলকগুলো বসানো (plug-in) হয়। যখন $n>p$ হয়, তখন এই পরামিতিগুলোর জন্য সবচেয়ে স্বাভাবিক প্রাক্কলকগুলো হলো সাধারণ নূন্যতম বর্গ প্রাক্কলক:
$\lambda^*$-এর সূত্রে অজানা $\boldsymbol\beta, \varsigma^2$-এর পরিবর্তে সংশ্লিষ্ট $\hat{\boldsymbol\beta}, \hat{\varsigma}^2$ বসিয়ে আদর্শ $\lambda^*$-এর জন্য তথাকথিত 'প্লাগ-ইন প্রাক্কলক' $\widehat\lambda^*$ পাওয়া যায়।
তিখোনভ নিয়মিতকরণ পরামিতির উপাত্ত-ভিত্তিক নির্বাচনের বিকল্প পদ্ধতিগুলোর মধ্যে রয়েছে ডিসক্রিপেন্সি প্রিন্সিপাল (discrepancy principle), এল-কার্ভ পদ্ধতি (L-curve method) এবং রেস্ট্রিক্টেড ম্যাক্সিমাম লাইকলিহুড (restricted maximum likelihood)।
ইতিহাস
[সম্পাদনা]তিখোনভ নিয়মিতকরণ বিভিন্ন প্রেক্ষাপটে স্বাধীনভাবে উদ্ভাবিত হয়েছিল। আন্দ্রে তিখোনভ[১৩][১৪][১৫][১৬][১৭] এবং ডেভিড এল. ফিলিপসের[১৮] গবেষণায় ইন্টিগ্রাল সমীকরণে (সমাকলন সমীকরণ) প্রয়োগের মাধ্যমে এটি ব্যাপকভাবে পরিচিতি লাভ করে। কোনো কোনো লেখক একে তিখোনভ-ফিলিপস নিয়মিতকরণ হিসেবেও অভিহিত করেন।
এর সসীম-মাত্রিক (finite-dimensional) ক্ষেত্রটি আর্থার ই. হোয়ার্ল ব্যাখ্যা করেছিলেন, যিনি একটি পরিসংখ্যানিক পদ্ধতি গ্রহণ করেছিলেন,[১৯] এবং ম্যানুস ফস্টারও এটি ব্যাখ্যা করেছিলেন, যিনি এই পদ্ধতিটিকে একটি উইনার-কলমোগোরভ (ক্রিগিং) ফিল্টার হিসেবে বর্ণনা করেছিলেন।[২০] হোয়ার্লের অনুসরণে পরিসংখ্যানিক সাহিত্যে এটি রিজ রিগ্রেশন নামে পরিচিত,[২১] যার নামকরণ করা হয়েছে রিজ অ্যানালাইসিস (শৈলশিরা বিশ্লেষণ) থেকে (এখানে "রিজ" বা শৈলশিরা বলতে সীমাবদ্ধ সর্বোচ্চ মান থেকে প্রাপ্ত পথকে বোঝায়)।[২২]
রৈখিক সমীকরণের জন্য তিখোনভ নিয়মিতকরণ
[সম্পাদনা]মনে করুন একটি পরিচিত বাস্তব ম্যাট্রিক্স এবং ভেক্টর -এর জন্য আমরা এমন একটি ভেক্টর খুঁজে পেতে চাই যাতে এখানে এবং বিভিন্ন আকারের হতে পারে এবং এমনকি বর্গাকার ম্যাট্রিক্স নাও হতে পারে।
এর সাধারণ সমাধান পদ্ধতি হলো সাধারণ নূন্যতম বর্গ রৈখিক নির্ভরণ। তবে যদি কোনো সমীকরণটিকে সিদ্ধ না করে অথবা যদি একাধিক সমীকরণটি সিদ্ধ করে—অর্থাৎ সমাধানটি অনন্য না হয়—তবে সমস্যাটিকে অসংজ্ঞায়িত (ill-posed) বলা হয়। এমন ক্ষেত্রে সাধারণ নূন্যতম বর্গ প্রাক্কলন একটি অতি-নির্ধারিত (overdetermined) অথবা অধিকাংশ ক্ষেত্রে একটি অনু-নির্ধারিত (underdetermined) সমীকরণ ব্যবস্থার দিকে পরিচালিত করে। বাস্তব জগতের অধিকাংশ প্রপঞ্চ (phenomena) সম্মুখ দিকে (যেখানে , -কে -তে ম্যাপ করে) লো-পাস ফিল্টারের মতো কাজ করে। তাই বিপরীত সমস্যাটি (inverse-problem) সমাধানের সময় ইনভার্স ম্যাপিং একটি হাই-পাস ফিল্টার হিসেবে কাজ করে, যার ফলে নয়েজ (noise) বর্ধিত হওয়ার একটি অবাঞ্ছিত প্রবণতা তৈরি হয় (আইগেন-মান বা সিঙ্গুলার মানগুলো রিভার্স ম্যাপিংয়ে সবচেয়ে বড় হয়, যেখানে সেগুলো ফরোয়ার্ড ম্যাপিংয়ে সবচেয়ে ছোট ছিল)। উপরন্তু, সাধারণ নূন্যতম বর্গ পদ্ধতি -এর পুনর্গঠিত সংস্করণের প্রতিটি উপাদানকে পরোক্ষভাবে বাতিল করে দেয় যা -এর নাল-স্পেসে (null-space) থাকে, অথচ এখানে -এর জন্য একটি মডেলকে 'প্রাইয়র' (prior) হিসেবে ব্যবহার করার সুযোগ ছিল।
সাধারণ নূন্যতম বর্গ পদ্ধতি অবশিষ্টের বর্গের সমষ্টিকে নূন্যতম করার চেষ্টা করে, যা সংক্ষেপে এভাবে লেখা যায়: এখানে হলো ইউক্লিডীয় নর্ম।
কাঙ্ক্ষিত বৈশিষ্ট্যযুক্ত একটি নির্দিষ্ট সমাধানকে প্রাধান্য দেওয়ার জন্য, এই নূন্যতমকরণ প্রক্রিয়ায় একটি নিয়মিতকরণ পদ (regularization term) অন্তর্ভুক্ত করা যেতে পারে: এখানে এবং , যেখানে হলো একটি উপযুক্তভাবে নির্বাচিত তিখোনভ ম্যাট্রিক্স। অনেক ক্ষেত্রে এই ম্যাট্রিক্সটিকে একটি অভেদ ম্যাট্রিক্সের স্কেলার গুণিতক হিসেবে বেছে নেওয়া হয় (), যা অপেক্ষাকৃত ছোট নর্ম বিশিষ্ট সমাধানগুলোকে প্রাধান্য দেয়; এটি L2 নিয়মিতকরণ নামে পরিচিত।[২৩] অন্যান্য ক্ষেত্রে, যদি মূল ভেক্টরটি প্রধানত অবিচ্ছিন্ন (continuous) বলে মনে করা হয়, তবে মসৃণতা (smoothness) বজায় রাখার জন্য হাই-পাস অপারেটর (যেমন একটি ব্যবকলন অপারেটর বা একটি ওয়েটেড ফুরিয়ার অপারেটর) ব্যবহার করা যেতে পারে।
এই নিয়মিতকরণ সমস্যাটির কন্ডিশনিং (conditioning) উন্নত করে, যার ফলে সরাসরি সংখ্যাসূচক সমাধান সম্ভব হয়। একে পরিবর্ধিত ম্যাট্রিক্স এবং সম্বলিত একটি সাধারণ নূন্যতম বর্গ সমস্যা হিসেবে বিবেচনা করলে এর সমাধান হয়: নিয়মিতকরণের প্রভাব ম্যাট্রিক্সের স্কেলের মাধ্যমে পরিবর্তন করা যেতে পারে। হলে এটি নিয়মিতকরণবিহীন নূন্যতম বর্গ সমাধানে পরিণত হয় (যদি (ATA)−1-এর অস্তিত্ব থাকে)। উল্লেখ্য যে, জটিল ম্যাট্রিক্স -এর ক্ষেত্রে প্রথা অনুযায়ী ট্রান্সপোজ -এর পরিবর্তে হার্মিটিয়ান ট্রান্সপোজ ব্যবহার করতে হবে।
রৈখিক নির্ভরণ ছাড়াও আরও অনেক ক্ষেত্রে L2 নিয়মিতকরণ ব্যবহৃত হয়, যেমন লজিস্টিক রিগ্রেশন বা সাপোর্ট ভেক্টর মেশিনের সাহায্যে শ্রেণিবিন্যাস (classification),[২৪] এবং ম্যাট্রিক্স ফ্যাক্টরাইজেশন।[২৫]
বিদ্যমান ফিট ফলাফলে প্রয়োগ
[সম্পাদনা]যেহেতু তিখোনভ নিয়মিতকরণ অপ্টিমাইজেশন সমস্যায় অবজেক্টিভ ফাংশনের সাথে কেবল একটি দ্বিঘাত পদ (quadratic term) যোগ করে, তাই নিয়মিতকরণবিহীন অপ্টিমাইজেশন সম্পন্ন হওয়ার পরেও এটি করা সম্ভব। উদাহরণস্বরূপ, যদি সহ উপরের সমস্যাটি থেকে সমাধান পাওয়া যায়, তবে -এর উপস্থিতিতে সমাধানটিকে এভাবে প্রকাশ করা যেতে পারে: এখানে "নিয়মিতকরণ ম্যাট্রিক্স" ।
যদি পরামিতি ফিট করার সময় প্রাক্কলিত পরামিতি অনিশ্চয়তার একটি কোভ্যারিয়েন্স ম্যাট্রিক্স (সহ-ভেদাঙ্ক ম্যাট্রিক্স) থাকে, তবে নিয়মিতকরণ ম্যাট্রিক্সটি হবে এবং নিয়মিতকরণকৃত ফলাফলের একটি নতুন কোভ্যারিয়েন্স হবে
যেকোনো লাইকলিহুড ফিটের (likelihood fits) ক্ষেত্রে এটি বৈধ, যতক্ষণ পর্যন্ত লাইকলিহুড ফাংশনের দ্বিঘাত অনুমানটি (quadratic approximation) কার্যকর থাকে। এর অর্থ হলো, যতক্ষণ নিয়মিতকরণবিহীন ফলাফল থেকে বিচ্যুতি কম থাকে, কোভ্যারিয়েন্স ম্যাট্রিক্সসহ বেস্ট-ফিট পয়েন্ট হিসেবে উপস্থাপিত যেকোনো ফলাফলকে নিয়মিতকরণ করা সম্ভব। এর জন্য অন্তর্নিহিত লাইকলিহুড ফাংশন সম্পর্কে বিস্তারিত জ্ঞানের প্রয়োজন নেই।[২৬]
সাধারণীকৃত তিখোনভ নিয়মিতকরণ
[সম্পাদনা]এবং উপাত্তের ত্রুটির (data error) সাধারণ বহুবৈচিত্র্যময় স্বাভাবিক বিন্যাসের (multivariate normal distributions) ক্ষেত্রে চলকগুলোর রূপান্তর ঘটিয়ে উপরের পদ্ধতিতে ফিরিয়ে আনা সম্ভব। সমতুল্যভাবে, এমন একটি খোঁজা যেতে পারে যা নিচের সমীকরণটিকে ক্ষুদ্রতম করে: এখানে আমরা ব্যবহার করেছি ওয়েটেড নর্ম স্কয়ার বোঝাতে (এটি মাহালানোবিস দূরত্বের সাথে তুলনীয়)। বায়েসীয় ব্যাখ্যায় (Bayesian interpretation) হলো -এর ইনভার্স কোভ্যারিয়েন্স ম্যাট্রিক্স, হলো -এর প্রত্যাশিত মান, এবং হলো -এর ইনভার্স কোভ্যারিয়েন্স ম্যাট্রিক্স।
এখানে তিখোনভ ম্যাট্রিক্সটি স্পষ্টভাবে অন্তর্ভুক্ত করা হয়নি কারণ সংশ্লিষ্ট নিয়মিতকরণ পদ , এবং ধরে উপরের সমীকরণের রূপে চলে আসে। সাধারণ নিয়মিতকরণের ক্ষেত্রে যেখানে , তিখোনভ ম্যাট্রিক্সটি কোলেস্কি ফ্যাক্টরাইজেশন -এ দেখা যায় এবং একে একটি হোয়াইটেনিং ফিল্টার হিসেবে বিবেচনা করা হয়।
এই সাধারণীকৃত সমস্যার একটি আদর্শ সমাধান রয়েছে যা এই সূত্রের সাহায্যে স্পষ্টভাবে লেখা যায়:
লাভরেন্তিয়েভ নিয়মিতকরণ
[সম্পাদনা]কিছু ক্ষেত্রে মিখাইল লাভরেন্তিয়েভ-এর প্রস্তাব অনুযায়ী ট্রান্সপোজ -এর ব্যবহার এড়ানো সম্ভব।[২৭] উদাহরণস্বরূপ, যদি একটি প্রতিসম ধনাত্মক নির্দিষ্ট (symmetric positive definite) ম্যাট্রিক্স হয়, অর্থাৎ , তবে এর বিপরীত ম্যাট্রিক্স -ও তাই হবে। এর ফলে সাধারণীকৃত তিখোনভ নিয়মিতকরণে ভারযুক্ত নর্ম বর্গ (weighted norm squared) নির্ধারণে এটি ব্যবহার করা যেতে পারে, যা নিচের সমীকরণটিকে নূন্যতম করার দিকে পরিচালিত করে: অথবা, একটি ধ্রুবক পদ পর্যন্ত সমতুল্যভাবে, পার্স করতে ব্যর্থ (সিনট্যাক্স ত্রুটি): {\displaystyle \mathbf x^\mathsf{T} \left(A+Q\right) \mathbf x - 2 \mathbf x^\mathsf{T} \left(\mathbf b + Q \mathbf x_0\right)।}
এই নূন্যতমকরণ সমস্যার একটি আদর্শ সমাধান রয়েছে যা এই সূত্রের সাহায্যে স্পষ্টভাবে লেখা যায়: যা মূলত সাধারণীকৃত তিখোনভ সমস্যারই সমাধান যেখানে ।
প্রযোজ্য ক্ষেত্রে লাভরেন্তিয়েভ নিয়মিতকরণ মূল তিখোনভ নিয়মিতকরণের চেয়ে সুবিধাজনক, কারণ তিখোনভ ম্যাট্রিক্স -এর তুলনায় লাভরেন্তিয়েভ ম্যাট্রিক্স -এর কন্ডিশনিং উন্নত হতে পারে (অর্থাৎ, এর কন্ডিশন নম্বর ছোট হতে পারে)।
হিলবার্ট স্পেসে নিয়মিতকরণ
[সম্পাদনা]সাধারণত বিচ্ছিন্ন রৈখিক অসংজ্ঞায়িত (discrete linear ill-conditioned) সমস্যাগুলো সমাকলন সমীকরণের বিচ্ছিন্নকরণ (discretization) থেকে উদ্ভূত হয়; তাই মূল অসীম-মাত্রিক প্রেক্ষাপটেও তিখোনভ নিয়মিতকরণ প্রণয়ন করা সম্ভব। উপরের আলোচনায় আমরা -কে হিলবার্ট স্পেসের একটি কম্প্যাক্ট অপারেটর হিসেবে এবং ও -কে -এর ডোমেইন ও রেঞ্জের উপাদান হিসেবে বিবেচনা করতে পারি। সেক্ষেত্রে অপারেটরটি একটি সেলফ-অ্যাডজয়েন্ট (self-adjoint) সীমাবদ্ধ বিপরীতযোগ্য অপারেটর হিসেবে কাজ করে।
সিঙ্গুলার-ভ্যালু ডিকম্পজিশন এবং উইনার ফিল্টারের সাথে সম্পর্ক
[সম্পাদনা]হলে, সিঙ্গুলার-ভ্যালু ডিকম্পজিশন (SVD) ব্যবহার করে এই নূন্যতম বর্গ সমাধানটিকে একটি বিশেষ উপায়ে বিশ্লেষণ করা যেতে পারে। সিঙ্গুলার-ভ্যালু ডিকম্পজিশন অনুযায়ী: যেখানে হলো সিঙ্গুলার মানসমূহ। তিখোনভ নিয়মিতকরণকৃত সমাধানটিকে এভাবে প্রকাশ করা যেতে পারে: এখানে -এর কর্ণ বরাবর মানগুলো হলো: এবং অন্য সব স্থানে মান শূন্য। এটি নিয়মিতকরণকৃত সমস্যার কন্ডিশন নম্বরের ওপর তিখোনভ পরামিতির প্রভাব প্রদর্শন করে। সাধারণীকৃত ক্ষেত্রের জন্য, সাধারণীকৃত সিঙ্গুলার-ভ্যালু ডিকম্পজিশন ব্যবহার করে একই ধরনের একটি উপস্থাপনা তৈরি করা যেতে পারে।[২৮]
অবশেষে, এর সাথে উইনার ফিল্টারের একটি সম্পর্ক রয়েছে: এখানে উইনার ওয়েট (Wiener weights) হলো এবং হলো -এর র্যাঙ্ক।
সম্ভাবনাভিত্তিক সূত্রের সাথে সম্পর্ক
[সম্পাদনা]একটি বিপরীত সমস্যার সম্ভাবনাভিত্তিক সূত্র (probabilistic formulation) প্রবর্তনের সময় (যখন সকল অনিশ্চয়তা গাউসীয় বা Gaussian হয়) দুটি কোভ্যারিয়েন্স ম্যাট্রিক্স ব্যবহার করা হয়: যা মডেল পরামিতিগুলোর 'প্রাইয়র' (a priori) অনিশ্চয়তা নির্দেশ করে এবং যা পর্যবেক্ষিত পরামিতিগুলোর অনিশ্চয়তা নির্দেশ করে।[২৯] বিশেষ ক্ষেত্রে যখন এই দুটি ম্যাট্রিক্স কর্ণীয় (diagonal) এবং আইসোট্রপিক (isotropic) হয়, অর্থাৎ এবং , তখন বিপরীত তত্ত্বের সমীকরণগুলো উপরের সমীকরণগুলোর রূপ নেয়, যেখানে ।[৩০][৩১]
বায়েসীয় ব্যাখ্যা
[সম্পাদনা]প্রাথমিকভাবে এই নিয়মিতকরণ সমস্যার সমাধান নির্বাচনের প্রক্রিয়াটি কৃত্রিম মনে হতে পারে এবং ম্যাট্রিক্সের নির্বাচনকেও কিছুটা খামখেয়ালি মনে হতে পারে, তবে বায়েসীয় দৃষ্টিকোণ থেকে এই প্রক্রিয়ার যৌক্তিকতা নিরূপণ করা সম্ভব।[৩২] উল্লেখ্য যে, একটি অসংজ্ঞায়িত (ill-posed) সমস্যার অনন্য সমাধান পাওয়ার জন্য প্রয়োজনীয় কিছু অতিরিক্ত অনুমান (assumptions) প্রবর্তন করা আবশ্যক। পরিসংখ্যানগতভাবে, -এর পূর্ব সম্ভাবনা বিন্যাসকে (prior probability distribution) অনেক সময় একটি বহুবৈচিত্র্যময় স্বাভাবিক বিন্যাস হিসেবে ধরা হয়।[৩৩] আলোচনার সুবিধার্থে এখানে নিম্নোক্ত অনুমানগুলো গ্রহণ করা হলো: গড় (means) শূন্য; উপাদানগুলো স্বতন্ত্র; এবং উপাদানগুলোর পরিমিত ব্যবধান সমান। উপাত্তগুলোও ত্রুটিযুক্ত হতে পারে এবং -এর ত্রুটিগুলোকেও শূন্য গড় ও পরিমিত ব্যবধান বিশিষ্ট স্বতন্ত্র ত্রুটি হিসেবে ধরা হয়েছে। এই অনুমানগুলোর অধীনে, বায়েসের উপপাদ্য অনুযায়ী তিখোনভ-নিয়মিতকরণকৃত সমাধানটি হলো প্রদত্ত উপাত্ত এবং -এর 'প্রাইয়র' বিন্যাসের ভিত্তিতে সর্বাধিক সম্ভাব্য (most probable) সমাধান।[৩৪]
যদি স্বাভাবিক বিন্যাসের অনুমানের পরিবর্তে হোমোসেডাস্টিসিটি (সমভেদাঙ্কতা) এবং ত্রুটিগুলোর সম্পর্কহীনতার (uncorrelatedness) অনুমান গ্রহণ করা হয় এবং গড় শূন্য ধরা হয়, তবে গাউস-মার্কভ উপপাদ্য অনুযায়ী এই সমাধানটি হবে নূন্যতম নিরপেক্ষ রৈখিক প্রাক্কলক (minimal unbiased linear estimator)।[৩৫]
আরও দেখুন
[সম্পাদনা]- ল্যাসো (LASSO) প্রাক্কলক হলো পরিসংখ্যানের আরেকটি নিয়মিতকরণ পদ্ধতি।
- ইলাস্টিক নেট নিয়মিতকরণ
- ম্যাট্রিক্স নিয়মিতকরণ
- এল-কার্ভ (L-curve)
টীকা
[সম্পাদনা]- ↑ পরিসংখ্যানে এই পদ্ধতিটি রিজ রিগ্রেশন নামে পরিচিত। মেশিন লার্নিংয়ে এটি এবং এর বিভিন্ন রূপভেদ ওয়েট ডিকে (weight decay) নামে পরিচিত। একাধিক স্বাধীন আবিষ্কারের কারণে এটি বিভিন্নভাবে তিখোনভ-মিলার পদ্ধতি, ফিলিপস-টুমি পদ্ধতি, সীমাবদ্ধ রৈখিক বিপরীতকরণ (constrained linear inversion) পদ্ধতি, L2 নিয়মিতকরণ এবং রৈখিক নিয়মিতকরণ পদ্ধতি হিসেবেও পরিচিত। এটি অরৈখিক নূন্যতম বর্গ সমস্যাগুলোর ক্ষেত্রে লেভেনবার্গ-মার্কোয়ার্ট অ্যালগরিদমের সাথে সম্পর্কিত।
তথ্যসূত্র
[সম্পাদনা]- 1 2 Hilt, Donald E.; Seegrist, Donald W. (১৯৭৭)। Ridge, a computer program for calculating ridge regression estimates। ডিওআই:10.5962/bhl.title.68934।[পৃষ্ঠা নম্বর প্রয়োজন]
- 1 2 Gruber, Marvin (১৯৯৮)। Improving Efficiency by Shrinkage: The James--Stein and Ridge Regression Estimators। CRC Press। পৃ. ২। আইএসবিএন ৯৭৮-০-৮২৪৭-০১৫৬-৭।
- ↑ Kennedy, Peter (২০০৩)। A Guide to Econometrics (Fifth সংস্করণ)। Cambridge: The MIT Press। পৃ. ২০৫–২০৬। আইএসবিএন ০-২৬২-৬১১৮৩-X।
- ↑ Gruber, Marvin (১৯৯৮)। Improving Efficiency by Shrinkage: The James–Stein and Ridge Regression Estimators। Boca Raton: CRC Press। পৃ. ৭–১৫। আইএসবিএন ০-৮২৪৭-০১৫৬-৯।
- ↑ Hoerl, Arthur E.; Kennard, Robert W. (১৯৭০)। "Ridge Regression: Biased Estimation for Nonorthogonal Problems"। Technometrics। ১২ (1): ৫৫–৬৭। ডিওআই:10.2307/1267351। জেস্টোর 1267351।
- ↑ Hoerl, Arthur E.; Kennard, Robert W. (১৯৭০)। "Ridge Regression: Applications to Nonorthogonal Problems"। Technometrics। ১২ (1): ৬৯–৮২। ডিওআই:10.2307/1267352। জেস্টোর 1267352।
- ↑ I. T., Jolliffe (২০০৬)। Principal Component Analysis। Springer Science & Business Media। পৃ. ১৭৮। আইএসবিএন ৯৭৮-০-৩৮৭-২২৪৪০-৪।
- ↑ বাস্তব ক্ষেত্রে নির্বাচনের জন্য দেখুন Khalaf, Ghadban; Shukur, Ghazi (২০০৫)। "Choosing Ridge Parameter for Regression Problems"। Communications in Statistics – Theory and Methods। ৩৪ (5): ১১৭৭–১১৮২। ডিওআই:10.1081/STA-200056836। এস২সিআইডি 122983724।
- ↑ van Wieringen, Wessel (৩১ মে ২০২১)। "Lecture notes on ridge regression"। আরজাইভ:1509.09169 [stat.ME]।
- ↑ Wahba, G. (১৯৯০)। "Spline Models for Observational Data"। CBMS-NSF Regional Conference Series in Applied Mathematics। Society for Industrial and Applied Mathematics। বিবকোড:1990smod.conf.....W।
- ↑ Golub, G.; Heath, M.; Wahba, G. (১৯৭৯)। "Generalized cross-validation as a method for choosing a good ridge parameter" (পিডিএফ)। Technometrics। ২১ (2): ২১৫–২২৩। ডিওআই:10.1080/00401706.1979.10489751।
- ↑ Botev, Zdravko I.; Kroese, Dirk P.; Taimre, Thomas (২০২৫)। Data Science and Machine Learning: Mathematical and Statistical Methods (English ভাষায়) (2nd সংস্করণ)। Boca Raton ; London: CRC Press। পৃ. ২৬৭-২৬৮। আইএসবিএন ৯৭৮-১-০৩২-৪৮৮৬৮-৪।
{{বই উদ্ধৃতি}}: উদ্ধৃতি শৈলী রক্ষণাবেক্ষণ: অচেনা ভাষা (লিঙ্ক) - ↑ Tikhonov, Andrey Nikolayevich (১৯৪৩)। "Об устойчивости обратных задач" [On the stability of inverse problems]। Doklady Akademii Nauk SSSR। ৩৯ (5): ১৯৫–১৯৮। ২৭ ফেব্রুয়ারি ২০০৫ তারিখে মূল থেকে আর্কাইভকৃত।
- ↑ Tikhonov, A. N. (১৯৬৩)। "О решении некорректно поставленных задач и методе регуляризации"। Doklady Akademii Nauk SSSR। ১৫১: ৫০১–৫০৪।. Translated in "Solution of incorrectly formulated problems and the regularization method"। Soviet Mathematics। ৪: ১০৩৫–১০৩৮।
- ↑ Tikhonov, A. N.; V. Y. Arsenin (১৯৭৭)। Solution of Ill-posed Problems। Washington: Winston & Sons। আইএসবিএন ০-৪৭০-৯৯১২৪-০।
- ↑ Tikhonov, Andrey Nikolayevich; Goncharsky, A.; Stepanov, V. V.; Yagola, Anatolij Grigorevic (৩০ জুন ১৯৯৫)। Numerical Methods for the Solution of Ill-Posed Problems। Netherlands: Springer Netherlands। আইএসবিএন ০-৭৯২৩-৩৫৮৩-X। সংগ্রহের তারিখ ৯ আগস্ট ২০১৮।
- ↑ Tikhonov, Andrey Nikolaevich; Leonov, Aleksandr S.; Yagola, Anatolij Grigorevic (১৯৯৮)। Nonlinear ill-posed problems। London: Chapman & Hall। আইএসবিএন ০-৪১২-৭৮৬৬০-৫। সংগ্রহের তারিখ ৯ আগস্ট ২০১৮।
- ↑ Phillips, D. L. (১৯৬২)। "A Technique for the Numerical Solution of Certain Integral Equations of the First Kind"। Journal of the ACM। ৯: ৮৪–৯৭। ডিওআই:10.1145/321105.321114। এস২সিআইডি 35368397।
- ↑ Hoerl, Arthur E. (১৯৬২)। "Application of Ridge Analysis to Regression Problems"। Chemical Engineering Progress। ৫৮ (3): ৫৪–৫৯।
- ↑ Foster, M. (১৯৬১)। "An Application of the Wiener-Kolmogorov Smoothing Theory to Matrix Inversion"। Journal of the Society for Industrial and Applied Mathematics। ৯ (3): ৩৮৭–৩৯২। ডিওআই:10.1137/0109031।
- ↑ Hoerl, A. E.; R. W. Kennard (১৯৭০)। "Ridge regression: Biased estimation for nonorthogonal problems"। Technometrics। ১২ (1): ৫৫–৬৭। ডিওআই:10.1080/00401706.1970.10488634।
- ↑ Hoerl, Roger W. (১ অক্টোবর ২০২০)। "Ridge Regression: A Historical Context"। Technometrics (ইংরেজি ভাষায়)। ৬২ (4): ৪২০–৪২৫। ডিওআই:10.1080/00401706.2020.1742207। আইএসএসএন 0040-1706।
- ↑ Ng, Andrew Y. (২০০৪)। Feature selection, L1 vs. L2 regularization, and rotational invariance (পিডিএফ)। Proc. ICML।
- ↑ R.-E. Fan; K.-W. Chang; C.-J. Hsieh; X.-R. Wang; C.-J. Lin (২০০৮)। "LIBLINEAR: A library for large linear classification"। Journal of Machine Learning Research। ৯: ১৮৭১–১৮৭৪।
- ↑ Guan, Naiyang; Tao, Dacheng; Luo, Zhigang; Yuan, Bo (২০১২)। "Online nonnegative matrix factorization with robust stochastic approximation"। IEEE Transactions on Neural Networks and Learning Systems। ২৩ (7): ১০৮৭–১০৯৯। বিবকোড:2012ITNNL..23.1087G। ডিওআই:10.1109/TNNLS.2012.2197827। পিএমআইডি 24807135। এস২সিআইডি 8755408।
- ↑ Koch, Lukas (২০২২)। "Post-hoc regularisation of unfolded cross-section measurements"। Journal of Instrumentation। ১৭ (10) 10021। আরজাইভ:2207.02125। বিবকোড:2022JInst..17P0021K। ডিওআই:10.1088/1748-0221/17/10/P10021।
- ↑ Lavrentiev, M. M. (১৯৬৭)। Some Improperly Posed Problems of Mathematical Physics। New York: Springer।
- ↑ Hansen, Per Christian (১ জানুয়ারি ১৯৯৮)। Rank-Deficient and Discrete Ill-Posed Problems: Numerical Aspects of Linear Inversion (1st সংস্করণ)। Philadelphia, USA: SIAM। আইএসবিএন ৯৭৮-০-৮৯৮৭১-৪০৩-৬।
- ↑ Tarantola, Albert (২০০৫)। Inverse Problem Theory and Methods for Model Parameter Estimation (1st সংস্করণ)। Philadelphia: Society for Industrial and Applied Mathematics (SIAM)। আইএসবিএন ০-৮৯৮৭১-৭৯২-২। সংগ্রহের তারিখ ৯ আগস্ট ২০১৮।
- ↑ Huang, Yunfei.; এবং অন্যান্য (২০১৯)। "Traction force microscopy with optimized regularization and automated Bayesian parameter selection for comparing cells"। Scientific Reports। ৯ (1) 539: ৫৩৭। আরজাইভ:1810.05848। বিবকোড:2019NatSR...9..539H। ডিওআই:10.1038/s41598-018-36896-x। পিএমসি 6345967। পিএমআইডি 30679578।
- ↑ Huang, Yunfei; Gompper, Gerhard; Sabass, Benedikt (২০২০)। "A Bayesian traction force microscopy method with automated denoising in a user-friendly software package"। Computer Physics Communications। ২৫৬ 107313। আরজাইভ:2005.01377। বিবকোড:2020CoPhC.25607313H। ডিওআই:10.1016/j.cpc.2020.107313।
- ↑ Greenberg, Edward; Webster, Charles E. Jr. (১৯৮৩)। Advanced Econometrics: A Bridge to the Literature। New York: John Wiley & Sons। পৃ. ২০৭–২১৩। আইএসবিএন ০-৪৭১-০৯০৭৭-৮।
- ↑ Huang, Yunfei.; এবং অন্যান্য (২০১৯)। "Traction force microscopy with optimized regularization and automated Bayesian parameter selection for comparing cells"। Scientific Reports। ৯ (1) 539: ৫৩৭। আরজাইভ:1810.05848। বিবকোড:2019NatSR...9..539H। ডিওআই:10.1038/s41598-018-36896-x। পিএমসি 6345967। পিএমআইডি 30679578।
- ↑ Vogel, Curtis R. (২০০২)। Computational methods for inverse problems। Philadelphia: Society for Industrial and Applied Mathematics। আইএসবিএন ০-৮৯৮৭১-৫৫০-৪।
- ↑ Amemiya, Takeshi (১৯৮৫)। Advanced Econometrics। Harvard University Press। পৃ. ৬০–৬১। আইএসবিএন ০-৬৭৪-০০৫৬০-০।
আরও পড়ুন
[সম্পাদনা]- Gruber, Marvin (১৯৯৮)। Improving Efficiency by Shrinkage: The James–Stein and Ridge Regression Estimators। Boca Raton: CRC Press। আইএসবিএন ০-৮২৪৭-০১৫৬-৯।
- Kress, Rainer (১৯৯৮)। "Tikhonov Regularization"। Numerical Analysis। New York: Springer। পৃ. ৮৬–৯০। আইএসবিএন ০-৩৮৭-৯৮৪০৮-৯।
- Press, W. H.; Teukolsky, S. A.; Vetterling, W. T.; Flannery, B. P. (২০০৭)। "Section 19.5. Linear Regularization Methods"। Numerical Recipes: The Art of Scientific Computing (3rd সংস্করণ)। New York: Cambridge University Press। আইএসবিএন ৯৭৮-০-৫২১-৮৮০৬৮-৮।
- Saleh, A. K. Md. Ehsanes; Arashi, Mohammad; Kibria, B. M. Golam (২০১৯)। Theory of Ridge Regression Estimation with Applications। New York: John Wiley & Sons। আইএসবিএন ৯৭৮-১-১১৮-৬৪৪৬১-৪।
- Taddy, Matt (২০১৯)। "Regularization"। Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions। New York: McGraw-Hill। পৃ. ৬৯–১০৪। আইএসবিএন ৯৭৮-১-২৬০-৪৫২৭৭-৮।