বৃহৎ ভাষার মডেল
মেশিন লার্নিং ও উপাত্ত খনন |
---|
|
বৃহৎ ভাষার মডেল[১][২][৩] এক ধরনের গণনামূলক মডেল যা ভাষা তৈরির মতো প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য প্রস্তুত করা হয়েছে। ইংরেজিতে একে লার্জ ল্যাঙ্গুয়েজ মডেল বলা হয়, যার সংক্ষেপিত সংস্করণ- এলএলএম। ভাষার মডেল হিসাবে, এলএলএম একটি স্ব-তত্ত্বাবধানে এবং অর্ধ-তত্ত্বাবধানে প্রশিক্ষণ প্রক্রিয়া চলাকালীন প্রচুর পরিমাণে পাঠ্য থেকে পরিসংখ্যানগত সম্পর্ক শেখার মাধ্যমে এই ক্ষমতাগুলি অর্জন করে।[৪]
সবচেয়ে বড় এবং সবচেয়ে সক্ষম এলএলএম হল কৃত্রিম নিউরাল নেটওয়ার্ক যা একটি শুধু-ডিকোডার ট্রান্সফরমার-ভিত্তিক স্থাপত্য দিয়ে তৈরি, যা দক্ষ প্রক্রিয়াকরণ এবং বড় আকারের পাঠ্য ডেটা তৈরি করতে সক্ষম করে। আধুনিক মডেলগুলি নির্দিষ্ট কাজের জন্য সূক্ষ্মতর উন্নয়ন করা যেতে পারে বা প্রম্পট ইঞ্জিনিয়ারিং দ্বারা পরিচালিত হতে পারে।[৫] এই মডেলগুলি বাক্যতত্ত্ব, বাগর্থবিজ্ঞান এবং অনটোলজি[৬] সম্পর্কিত ভবিষ্যদ্বাণীমূলক শক্তি অর্জন করে যা মানব ভাষার কর্পোরার অন্তর্নিহিত, কিন্তু তারা যে ডেটাতে প্রশিক্ষিত হয় তাতে উপস্থিত ভুলসমূহ এবং পক্ষপাতগুলিও উত্তরাধিকার সূত্রে পায়।[৭]
ইতিহাস
[সম্পাদনা]২০১৭ সালের আগে কিছু ভাষার মডেল ছিল, যা তখন উপলব্ধ ক্ষমতার তুলনায় বড় ছিল। ১৯৯০-এর দশকে, আইবিএম অ্যালাইনমেন্ট মডেলগুলি পরিসংখ্যানগত ভাষা মডেলিংয়ের পথপ্রদর্শক। ২০০১ সালে ৩০ কোটি শব্দের উপর প্রশিক্ষিত একটি মসৃণ এন-গ্রাম মডেল সেই সময়ে অত্যাধুনিক বিভ্রান্তি অর্জন করেছিল।[৮] ২০০০-এর দশকে, যখন ইন্টারনেট ব্যবহার প্রচলিত হয়ে ওঠে, কিছু গবেষক ইন্টারনেট-স্কেল ল্যাঙ্গুয়েজ ডেটাসেট ("কর্পাস হিসেবে ওয়েব"[৯]) তৈরি করেছিলেন, যার ভিত্তিতে তারা পরিসংখ্যানগত ভাষার মডেলগুলিকে প্রশিক্ষণ দিয়েছিলেন।[১০][১১] ২০০৯ সালে, বেশিরভাগ ভাষা প্রক্রিয়াকরণের কাজগুলিতে পরিসংখ্যানগত ভাষার মডেলগুলি প্রতীকী ভাষার মডেলগুলির উপর আধিপত্য বিস্তার করে, কারণ তারা দরকারীভাবে বড় ডেটাসেটগুলি গ্রহণ করতে সক্ষম।[১২]
২০১২ সালের দিকে যখন নিউরাল নেটওয়ার্কগুলি চিত্র প্রক্রিয়াকরণের ক্ষেত্রে প্রাধান্য পেতে শুরু করে,[১৩] তখন এগুলিকে ভাষা মডেলিংয়ের ক্ষেত্রেও ব্যবহার করা হতে থাকে। ২০১৬ সালে গুগল তার অনুবাদ সেবা নিউরাল মেশিন ট্রান্সলেশনে (এনএমটি) রূপান্তরিত করে। এটি ট্রান্সফরমার প্রযুক্তির আগের সময়ের ঘটনা এবং তখন এটি করা হয়েছিল সিকুয়েন্স টু সিকুয়েন্স (seq2seq) গভীর এলএসটিএম নেটওয়ার্কের মাধ্যমে।
২০১৭ সালের নিউরআইপিএস কনফারেন্স, গুগলের গবেষকরা তাদের গুরুত্বপূর্ণ প্রবন্ধ "মনোযোগ ইজ অল ইউ নিড" এ ট্রান্সফরমার স্থাপত্যটি উপস্থাপন করেন। এই প্রবন্ধের লক্ষ্য ছিল ২০১৪ সালের সিক২সিক (seq2seq) প্রযুক্তির উন্নতি করা।[১৪] এটি মূলত ২০১৪ সালে বাহদানাউ এট আল. দ্বারা ডেভেলপ করা মনোযোগ পদ্ধতির উপর ভিত্তি করে ছিল।[১৫] পরবর্তী বছর ২০১৮ সালে, বার্ট উপস্থাপিত হয় এবং দ্রুত "সর্বব্যাপী" হয়ে ওঠে।[১৬] যদিও মূল ট্রান্সফরমারে এনকোডার এবং ডিকোডার উভয় ব্লক ছিল, কিন্তু বার্ট একটি শুধু-এনকোডার মডেল।
যদিও ২০১৮ সালে শুধু-ডিকোডার জিপিটি-১ উপস্থাপন করা হয়েছিল, ২০১৯ সালে জিপিটি-২ ব্যাপক মনোযোগ আকর্ষণ করে কারণ ওপেনএআই প্রথমে এটি জনসাধারণের কাছে মুক্তি দেওয়ার জন্য খুব শক্তিশালী মনে করেছিল, ক্ষতিকর ব্যবহারের আশঙ্কায়।[১৭] ২০২০ সালে জিপিটি-৩ আরও একধাপ এগিয়ে গিয়ে ২০২৪-এর হিসাব অনুযায়ী[হালনাগাদ] শুধুমাত্র এপিআই মাধ্যমে পাওয়া যাচ্ছে এবং মডেলটি স্থানীয়ভাবে ডাউনলোড করে চালানোর সুযোগ নেই। তবে, ২০২২ সালে ব্যবহারকারীদের জন্য উন্মুক্ত ব্রাউজার-ভিত্তিক চ্যাটজিপিটি সাধারণ জনগণের আগ্রহ আকর্ষণ করে এবং কিছু মিডিয়া হাইপ ও অনলাইনে গুঞ্জন সৃষ্টি করে।[১৮] ২০২৩ সালের জিপিটি-৪ তার বৃদ্ধি পাওয়া নির্ভুলতা এবং বহুমাত্রিক সক্ষমতার জন্য প্রশংসিত হয় এবং একে "পবিত্র রহস্য" হিসেবে বিবেচনা করা হয়।[১৯] ওপেনএআই জিপিটি-৪ এর উচ্চ-স্তরের স্থাপত্য এবং প্যারামিটার সংখ্যা প্রকাশ করেনি।
প্রতিযোগিতামূলক ভাষার মডেলগুলি বেশিরভাগ ক্ষেত্রেই জিপিটি সিরিজের সমান হতে চেষ্টা করেছে, কমপক্ষে প্যারামিটার সংখ্যা অনুযায়ী।[২০]
২০২২ সাল থেকে, উৎস-উপলব্ধ মডেলগুলি জনপ্রিয়তা লাভ করছে, বিশেষ করে প্রথমে ব্লুম এবং এলএলএমএ এর মাধ্যমে, যদিও উভয়ই ব্যবহারের ক্ষেত্রে কিছু সীমাবদ্ধতা রয়েছে। মিস্ট্রাল কৃত্রিম বুদ্ধিমত্তার মডেল মিস্ট্রাল ৭বি এবং মিক্সট্রাল ৮এক্স৭বি অধিক নমনীয় অ্যাপাচি লাইসেন্সে রয়েছে। জুন ২০২৪-এর হিসাব অনুযায়ী[হালনাগাদ], লামা ৩ ৭০ বিলিয়ন প্যারামিটার মডেলের নির্দেশনা অনুযায়ী সুনির্দিষ্টভাবে টিউন করা ভেরিয়েন্ট হচ্ছে সবচেয়ে শক্তিশালী ওপেন ভাষার মডেল, যা এলএমএসওয়াইএস চ্যাটবট এরিনা লিডারবোর্ড অনুযায়ী জিপিটি-৩.৫ এর চেয়ে শক্তিশালী, তবে জিপিটি-৪ এর চেয়ে কম শক্তিশালী।[২১]
২০২৪ সালের হিসাব অনুযায়ী, সবচেয়ে বড় এবং শক্তিশালী মডেলগুলি সবই ট্রান্সফরমার স্থাপত্যের উপর ভিত্তি করে। কিছু সাম্প্রতিক বাস্তবায়ন অন্য স্থাপত্যের উপর ভিত্তি করে তৈরি, যেমন পুনরাবৃত্ত স্নায়ু নেটওয়ার্ক ভেরিয়েন্ট এবং মাম্বা (একটি স্টেট স্পেস মডেল)।[২২][২৩][২৪]
ডেটাসেট প্রক্রিয়াকরণ
[সম্পাদনা]টোকেনাইজেশন
[সম্পাদনা]
যেহেতু মেশিন লার্নিং অ্যালগরিদমগুলি সংখ্যা প্রক্রিয়া করে, পাঠ্যকে সংখ্যায় রূপান্তর করা প্রয়োজন হয়। প্রথম ধাপে, একটি শব্দকোষ নির্ধারণ করা হয়, তারপর প্রতিটি শব্দকোষ ভুক্তির জন্য এককভাবে কিন্তু এলোমেলোভাবে পূর্ণসংখ্যার সূচক নির্ধারিত হয়। এরপর পূর্ণসংখ্যার সূচকের সাথে একটি এমবেডিং যুক্ত করা হয়। অ্যালগরিদমগুলির মধ্যে রয়েছে বাইট-পেয়ার এনকোডিং (বিপিই) এবং শব্দখন্ড। এছাড়া কিছু বিশেষ টোকেন রয়েছে যা কন্ট্রোল ক্যারেক্টার হিসেবে কাজ করে, যেমন [MASK] মাক্সড আউট টোকেন (যা বার্টে ব্যবহৃত হয়), এবং [UNK] ("অজানা") শব্দকোষে না পাওয়া অক্ষরের জন্য ব্যবহৃত হয়। এছাড়া কিছু বিশেষ চিহ্ন রয়েছে যা বিশেষ পাঠ্য ফরম্যাটিং নির্দেশ করতে ব্যবহৃত হয়। উদাহরণস্বরূপ, "Ġ" রোবার্টা এবং জিপিটিতে পূর্ববর্তী সাদা স্থান নির্দেশ করে। "##" বার্টে পূর্ববর্তী শব্দের ধারাবাহিকতা নির্দেশ করে।[২৫]
উদাহরণস্বরূপ, জিপিটি-৩ (পুরাতন) tokenizer: texts -> series of numerical "tokens"
কে ভেঙ্গে বিপিই টোকেনাইজার ব্যবহার করে নিম্নরূপে ব্যবহার করবে:
token | izer | : | texts | -> | series | of | numerical | " | t | ok | ens | " |
টোকেনাইজেশন ডেটাসেটগুলিকে সংকুচিতও করে। যেহেতু সাধারণত এলএলএমগুলো ইনপুট হিসেবে এমন একটি অ্যারে প্রয়োজন যা অসমতল না হয়, ছোট পাঠ্যগুলোকে "প্যাড" করা হয় যতক্ষণ না সেগুলো সবচেয়ে দীর্ঘ পাঠ্যের দৈর্ঘ্য মেলে। প্রতিটি শব্দের জন্য গড়ে কতটুকু টোকেন প্রয়োজন, তা ডেটাসেটের ভাষার উপর নির্ভর করে।[২৬][২৭]
বিপিই
[সম্পাদনা]একটি উদাহরণ হিসেবে, বাইট-পেয়ার এনকোডিং ভিত্তিক একটি টোকেনাইজার বিবেচনা করা যাক। প্রথম ধাপে, সমস্ত অনন্য অক্ষর (সাদা স্থান এবং যতিচিহ্ন) একটি প্রাথমিক এন-গ্রাম সেট (অর্থাৎ, প্রাথমিক ইউনিগ্রাম সেট) হিসেবে বিবেচিত হয়। পরবর্তী ধাপে, সবচেয়ে বেশি উপস্থিত থাকা দুইটি পাশবর্তী অক্ষর একত্রিত হয়ে একটি বাই-গ্রামে পরিণত হয় এবং সেই জোড়া দিয়ে সমস্ত উদাহরণ প্রতিস্থাপিত হয়। তারপর, যেসব পূর্ববর্তী মিলিত এন-গ্রাম একে অপরের সাথে সবচেয়ে বেশি মিলিত হয়, সেগুলো আবার একত্রিত হয়ে আরও দীর্ঘ এন-গ্রামে পরিণত হয়, যতক্ষণ না একটি নির্দিষ্ট আকারের শব্দকোষ পাওয়া যায় (জিপিটি-৩ এর ক্ষেত্রে, আকারটি ৫০২৫৭)।[২৮] টোকেনাইজার প্রশিক্ষিত হওয়ার পর, যে কোনো পাঠ্য এটিতে টোকেনাইজ করা যেতে পারে, যতক্ষণ না এতে প্রাথমিক ইউনিগ্রাম সেটে না পাওয়া অক্ষর থাকে।[২৯]
সমস্যা
[সম্পাদনা]একটি টোকেন শব্দকোষ যা মূলত ইংরেজি করপাস থেকে নিষ্কৃত ফ্রিকোয়েন্সির ভিত্তিতে তৈরি, গড়ে একটি ইংরেজি শব্দের জন্য যতটা সম্ভব কম টোকেন ব্যবহার করে। তবে, এমন একটি ইংরেজি-অপটিমাইজড টোকেনাইজার দ্বারা অন্য কোনো ভাষার গড়ে একটি শব্দকে কোড করা হলে, তা সাবঅপটিমাল পরিমাণ টোকেন-এ বিভক্ত হয়ে যায়। উদাহরণস্বরূপ, জিপিটি-২ টোকেনাইজার কিছু ভাষার জন্য শব্দপ্রতি ১৫ গুণ বেশি টোকেন ব্যবহার করতে পারে, যেমন মিয়ানমারের শান ভাষার জন্য। এমনকি আরও ব্যাপক ব্যবহৃত ভাষাগুলোর মতো পর্তুগিজ এবং জার্মান ভাষার জন্য ইংরেজির তুলনায় "৫০% বেশি" টোকেন ব্যবহার করতে হয়।[৩০]
লালচে (গ্রিডি) টোকেনাইজেশন পাঠ্য সম্পূর্ণ করার ক্ষেত্রে সূক্ষ্ম সমস্যাও সৃষ্টি করে।[৩১]
ডেটাসেট পরিষ্কারকরণ
[সম্পাদনা]এলএলএম প্রশিক্ষণের প্রেক্ষাপটে, সাধারণত ডেটাসেটগুলো পরিষ্কার করা হয়। যাতে বিপজ্জনক অংশগুলো বাদ দেওয়া হয়, নিম্নমানের ডেটা ফেলে দেওয়া হয় এবং ডুপ্লিকেশন দূর করা হয়।[৩২] পরিষ্কার করা ডেটাসেট প্রশিক্ষণের দক্ষতা বাড়াতে পারে এবং পরবর্তী কার্যকারিতায় উন্নতি ঘটাতে পারে।[৩৩][৩৪] একটি প্রশিক্ষিত এলএলএম অন্য একটি এলএলএম প্রশিক্ষণের জন্য ডেটাসেট পরিষ্কার করতে ব্যবহার করা যেতে পারে।[৩৫]
ওয়েবে এলএলএম-উৎপন্ন বিষয়বস্তুের পরিমাণ বাড়ানোর পাশাপাশি ভবিষ্যতে ডেটা পরিষ্কারের প্রক্রিয়ায় এমন বিষয়বস্তু ছাঁকনি করা অন্তর্ভুক্ত হতে পারে। এলএলএম-উৎপন্ন বিষয়বস্তু সমস্যা সৃষ্টি করতে পারে যদি বিষয়বস্তুটি মানুষের লেখা পাঠ্যের মতো হয় (যা ছাঁকনি করা কঠিন করে তোলে) কিন্তু এর গুণমান কম হয় (যা এতে প্রশিক্ষিত মডেলগুলোর কার্যকারিতা হ্রাস করে)।[৩৬]
সিন্থেটিক ডেটা
[সম্পাদনা]সবচেয়ে বড় ভাষা মডেলের প্রশিক্ষণের জন্য স্বাভাবিকভাবে উপলব্ধের চেয়ে বেশি ভাষাগত ডেটার প্রয়োজন হতে পারে অথবা স্বাভাবিকভাবে প্রাপ্ত ডেটা অপর্যাপ্ত মানের হতে পারে। সেক্ষেত্রে সিন্থেটিক ডেটা ব্যবহার করা যেতে পারে। মাইক্রোসফটের ফি (Phi) সিরিজের এলএলএমগুলি অন্য এলএলএম দ্বারা তৈরি পাঠ্যপুস্তকের মতো ডেটার উপর প্রশিক্ষিত।[৩৭]
প্রশিক্ষণ ও স্থাপত্য
[সম্পাদনা]মানুষের প্রতিক্রিয়া থেকে উন্নততর প্রশিক্ষণ (আরএলএইচএফ)
[সম্পাদনা]মানুষের প্রতিক্রিয়া থেকে উন্নততর প্রশিক্ষণ বা রিইনফোর্সমেন্ট লার্নিং ফ্রম হিউম্যান ফিডব্যাক (আরএলএইচএফ) অ্যালগরিদমের মাধ্যমে (যেমন- প্রক্সিমাল পলিসি অপ্টিমাইজেশন) মানুষের পছন্দের ডেটাসেটের উপর ভিত্তি করে একটি মডেলকে আরও সূক্ষ্মভাবে উন্নত করতে ব্যবহৃত হয়।[৩৮]
নির্দেশনা উন্নয়ন
[সম্পাদনা]"স্ব-নির্দেশনা" পদ্ধতি ব্যবহার করে এলএলএমগুলো সঠিক উত্তর তৈরি করতে সক্ষম হয়েছে। এটি পূর্বের যে কোন সরল বা ভুল উত্তর প্রতিস্থাপন করে। এটি শুরু হয় কিছু মানব-উৎপন্ন সংশোধনী থেকে। উদাহরণস্বরূপ, যদি নির্দেশনা হয় "হ্যামলেটের প্রধান থিমগুলো সম্পর্কে একটি প্রবন্ধ লিখুন", তবে প্রাথমিকভাবে এলএলএম যে ভুল উত্তরটি দিতে পারে তা হতে পারে, "যদি আপনি ১৭ মার্চের পর প্রবন্ধটি জমা দেন, তবে প্রতিদিন দেরির জন্য আপনার গ্রেড ১০% কমিয়ে দেওয়া হবে," যা মূলত প্রবন্ধের পরিবর্তে কোনও সাধারণ নিয়মের উপর ভিত্তি করে লেখা হয়, কারণ কর্পাসে এই ধরনের শব্দচয়ন বেশি পাওয়া যায়।[৩৯]
বিশেষজ্ঞদের মিশ্রণ
[সম্পাদনা]সবচেয়ে বড় এলএলএম প্রশিক্ষণ এবং সরাসরি ব্যবহার করার জন্য খুব ব্যয়বহুল হতে পারে। এই ধরনের মডেলগুলির জন্য বিশেষজ্ঞদের মিশ্রণ (এমওই) প্রয়োগ করা যেতে পারে। বিশেষজ্ঞদের মিশ্রণ পদ্ধতিটি ২০১৭ সাল থেকে গুগল গবেষকদের ১ ট্রিলিয়ন প্যারামিটার পর্যন্ত পৌঁছানোর মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য গবেষণার একটি ধারা।[৪০][৪১][৪২]
প্রম্পট ইঞ্জিনিয়ারিং, মনোযোগের প্রক্রিয়া এবং প্রসঙ্গ উইন্ডো
[সম্পাদনা]পূর্বে শুধুমাত্র (ব্যয়বহুল) ফাইন-টিউনিং এর মাধ্যমে অর্জন করা যায় এমন বেশিরভাগ ফলাফল প্রম্পট ইঞ্জিনিয়ারিং এর মাধ্যমে অর্জন করা যেতে পারে, যদিও এটি একক কথোপকথনের সুযোগের মধ্যে সীমাবদ্ধ (আরো সঠিকভাবে, একটি প্রসঙ্গ উইন্ডোর সুযোগের মধ্যে সীমাবদ্ধ)।[৪৩]
কোন টোকেনগুলো একে অপরের সাথে সম্পর্কিত, তা জানতে প্রসঙ্গ উইন্ডোর মধ্যে মনোযোগ মেকানিজম প্রতিটি টোকেনের জন্য "সফট" ওজন হিসাব করে, যাকে বলা হয় টোকেনের এমবেডিং। এটি একাধিক মনোযোগ হেড ব্যবহার করে, যেখানে প্রতিটি হেডের নিজস্ব "প্রাসঙ্গিকতা" থাকে এবং এটি তার নিজস্ব সফট ওজন হিসাব করে। উদাহরণস্বরূপ, ছোট (১১৭ মিলিয়ন প্যারামিটার সাইজের) জিপিটি-২ মডেলটির ১২টি মনোযোগ হেড ছিল এবং এর প্রসঙ্গ উইন্ডো ছিল মাত্র ১ হাজার টোকেন।[৪৫] এর মাঝারি ভার্সনে ৩৪৫ মিলিয়ন প্যারামিটার রয়েছে এবং এতে ২৪টি লেয়ার রয়েছে, প্রতিটির মধ্যে ১২টি মনোযোগ হেড রয়েছে। প্রশিক্ষণের জন্য ৫১২ ব্যাচ সাইজ ব্যবহার করা হয়েছিল।[২৯]
বড় বড় মডেলগুলি, যেমন- ফেব্রুয়ারি ২০২৪-এ প্রকাশিত গুগলের জেমিনি ১.৫-এর প্রসঙ্গ উইন্ডো ১ মিলিয়ন টোকেন পর্যন্ত হতে পারে (এছাড়া ১০ মিলিয়ন প্রসঙ্গ উইন্ডোও "সফলভাবে পরীক্ষা" করা হয়েছে)।[৪৬] অন্যান্য বড় প্রসঙ্গ উইন্ডোযুক্ত মডেলগুলির মধ্যে রয়েছে অ্যানথ্রোপিকের ক্লোড ২.১, যার প্রসঙ্গ উইন্ডো ২০০,০০০ টোকেন পর্যন্ত হতে পারে।[৪৭] লক্ষ্য রাখতে হবে, এই সর্বাধিক সংখ্যা ইনপুট টোকেনের জন্য এবং আউটপুট টোকেনের সর্বাধিক সংখ্যা ইনপুটের থেকে আলাদা এবং সাধারণত ছোট হয়। উদাহরণস্বরূপ, জিপিটি-৪ টার্বো মডেলে আউটপুটের সর্বাধিক সংখ্যা ৪০৯৬ টোকেন।[৪৮] মডেলটির পরবর্তী উত্তর তৈরির জন্য যে আলাপচারিতার দৈর্ঘ্যটি মনে রাখা সম্ভব, তা প্রসঙ্গ উইন্ডোর আকার দ্বারা সীমিত। উদাহরণস্বরূপ, যদি চ্যাটজিপিটির সঙ্গে আলাপচারিতার দৈর্ঘ্য প্রসঙ্গ উইন্ডোর চেয়ে বেশি হয়, তাহলে কেবল প্রসঙ্গ উইন্ডোর মধ্যে থাকা অংশগুলোই পরবর্তী উত্তর তৈরির সময় বিবেচনা করা হয় অথবা মডেলটিকে আলাপচারিতার দূরের অংশগুলো সংক্ষেপে উপস্থাপন করতে কিছু অ্যালগরিদম প্রয়োগ করতে হতে পারে।
প্রসঙ্গ উইন্ডো বড় করার কিছু সীমাবদ্ধতা রয়েছে, যেমন এটি বেশি গণনামূলক খরচ তৈরি করতে পারে এবং স্থানীয় প্রসঙ্গে মনোযোগ কমিয়ে দিতে পারে, আবার প্রসঙ্গ উইন্ডো ছোট করলে মডেলটি গুরুত্বপূর্ণ দীর্ঘমেয়াদি সম্পর্ক উপেক্ষা করতে পারে। এগুলোর মধ্যে সঠিক সমন্বয় করা পরীক্ষামূলক এবং ক্ষেত্রভিত্তিক বিবেচনার বিষয়।
সেগমেন্টটি কীভাবে চলতে থাকে তা অনুমান করার জন্য একটি মডেলকে পূর্বপ্রশিক্ষিত করা যেতে পারে অথবা সেগমেন্টে কী অনুপস্থিত, তার প্রশিক্ষণ ডেটাসেট থেকে একটি সেগমেন্ট দেওয়া হয়।[৪৯] এটা নিচের যেকোনো একটি হতে পারে:
- অটোরিগ্রেসিভ (অথাৎ, সেগমেন্ট কিভাবে চলতে থাকবে তা পূর্বাভাস করা, যেমন জিপিটির কাজ): উদাহরণস্বরূপ, যদি সেগমেন্ট হয় "I like to eat", তাহলে মডেলটি ভবিষ্যদ্বাণী করতে পারে "ice cream" বা "sushi"।
- মাস্কড (অথাৎ, সেগমেন্টের অনুপস্থিত অংশ পূর্ণ করা, যেমন "বার্ট"[৫০] মডেল করে থাকে): উদাহরণস্বরূপ, যদি সেগমেন্ট হয় "I like to
[__] [__]
cream", তবে মডেলটি পূর্বাভাস করতে পারে যে এখানে "eat" এবং "ice" অনুপস্থিত।
মডেলগুলো সহায়ক কাজগুলোতে প্রশিক্ষিত হতে পারে, যা তাদের ডেটা বিতরণের বোঝাপড়া পরীক্ষা করে। যেমন নেক্সট সেন্টেন্স প্রেডিকশনে (এনএসপি) দুটি বাক্য প্রদর্শিত হয় এবং মডেলটিকে পূর্বাভাস করতে হয় যে, সেগুলি প্রশিক্ষণ কর্পাসে পরপর উপস্থিত কিনা।[৫০] প্রশিক্ষণ চলাকালীন, প্রশিক্ষণ স্থিতিশীল রাখতে রেগুলারাইজেশন লস ব্যবহার করা হয়। তবে, পরীক্ষণ এবং মূল্যায়নের সময় সাধারণত রেগুলারাইজেশন লস ব্যবহার করা হয় না।
অবকাঠামো
[সম্পাদনা]সবচেয়ে বড় মডেলের প্রশিক্ষণের জন্য যথেষ্ট পরিকাঠামো প্রয়োজন।[৫১][৫২][৫৩]
প্রশিক্ষণ ব্যয়
[সম্পাদনা]সফটওয়্যার এবং হার্ডওয়্যারের উন্নতির কারণে ২০২০ সাল থেকে খরচ অনেক কমে গেছে, এমনভাবে যে ২০২৩ সালে ১২ বিলিয়ন প্যারামিটারযুক্ত এলএলএম প্রশিক্ষণের কম্পিউটেশনাল খরচ হচ্ছে ৭২,৩০০ এ১০০-জিপিইউ-ঘণ্টা, যখন ২০২০ সালে ১.৫ বিলিয়ন প্যারামিটারযুক্ত এলএলএম (যা ২০২০ সালের প্রযুক্তির তুলনায় দুই শ্রেণী ছোট ছিল) প্রশিক্ষণের খরচ ছিল ৮০,০০০ ডলার থেকে ১৬,০০,০০০ ডলার পর্যন্ত।[৫৪][৫৫][৫৬] ২০২০ সাল থেকে, ক্রমবর্ধমান বড় মডেলগুলিতে বিপুল পরিমাণ অর্থ বিনিয়োগ করা হয়েছে। উদাহরণস্বরূপ, ২০১৯ সালে জিপিটি-২ (অর্থাৎ ১.৫ বিলিয়ন প্যারামিটার মডেল) প্রশিক্ষণের খরচ ছিল ৫০,০০০ ডলার, ২০২২ সালে পালম (অর্থাৎ ৫৪০ বিলিয়ন প্যারামিটার মডেল) প্রশিক্ষণের খরচ ছিল ৮ মিলিয়ন ডলার, এবং মেগাট্রন-টার্নিং এনএলজি ৫৩০বি (২০২১ সালে) প্রশিক্ষণের খরচ ছিল প্রায় ১১ মিলিয়ন ডলার।[৫৭]
ট্রান্সফরমার-ভিত্তিক এলএলএমের জন্য প্রশিক্ষণ খরচ অনুমান খরচের চেয়ে অনেক বেশি। এটি একটি টোকেনে প্রশিক্ষণের জন্য প্রতি প্যারামিটারে ৬ ফ্লপ খরচ করে, যেখানে একটি টোকেনে অনুমান করার জন্য প্রতি প্যারামিটারে ১ থেকে ২ ফ্লপ খরচ হয়।[৫৮]
সরঞ্জাম ব্যবহার
[সম্পাদনা]কিছু কাজ রয়েছে, যেগুলি প্রধানত কোনো এলএলএম (ল্যাঙ্গুয়েজ লার্নিং মডেল) দিয়ে সমাধান করা সম্ভব নয়, অন্তত বাহ্যিক কোনো সরঞ্জাম বা অতিরিক্ত সফটওয়্যার ছাড়া। এর একটি উদাহরণ হলো, যদি ব্যবহারকারী ইনপুট দেয় ‘৩৫৪ * ১৩৯ = ’ এবং এলএলএমের প্রশিক্ষণ কর্পাসে এই গাণিতিক হিসাবের কোনো সমাধান আগে থেকে না থাকে, তবে এলএলএম সেই সমাধান দিতে পারবে না।[সন্দেহপূর্ণ ] এমন পরিস্থিতিতে এলএলএমকে কোড চালিয়ে ফলাফল বের করতে হবে, তারপর সেটি তার উত্তরে সন্নিবেশিত করা যাবে।[সন্দেহপূর্ণ ] আরেকটি উদাহরণ হলো “এখন সময় কত? এটা হলো”—এখানে এলএলএমকে সিস্টেমের বর্তমান সময় জানার জন্য একটি আলাদা প্রোগ্রাম কোড চালাতে হবে, যাতে সে সঠিক সময় তার উত্তরে দিতে পারে।[৫৯][৬০] এই মৌলিক পদ্ধতিটি আরও উন্নত করা যেতে পারে একাধিক প্রোগ্রাম তৈরি এবং অন্যান্য পদ্ধতি প্রয়োগের মাধ্যমে।[৬১]
সাধারণত, কোনো এলএলএমকে সরঞ্জাম ব্যবহার করতে সক্ষম করতে হলে, সেটিকে সরঞ্জাম ব্যবহারের জন্য ফাইন-টিউন করতে হয়। যদি সরঞ্জামের সংখ্যা সীমিত হয়, তবে একবারই ফাইন-টিউন করা যেতে পারে। তবে, যদি সরঞ্জামের সংখ্যা অসীমভাবে বাড়তে পারে, যেমন অনলাইন এপিআই পরিষেবার মতো, তাহলে এলএলএমকে ফাইন-টিউন করা যেতে পারে যাতে তা এপিআই নথিপত্র পড়তে পারে এবং সঠিকভাবে এপিআই কল করতে পারে।[৬২][৬৩]
সরঞ্জাম ব্যবহারের একটি সহজ রূপ হল রিট্রিভাল-অগমেন্টেড জেনারেশন: এটি হলো এলএলএমকে ডকুমেন্ট রিট্রিভালের মাধ্যমে শক্তিশালী করা। একটি প্রশ্ন দেওয়ার পর, একটি ডকুমেন্ট রিট্রিভারকে ডাকা হয় যাতে সবচেয়ে প্রাসঙ্গিক ডকুমেন্টগুলো উদ্ধার করা যায়। এটি সাধারণত প্রশ্ন এবং ডকুমেন্টগুলোকে ভেক্টরে এনকোড করে করা হয়, তারপর প্রশ্নের ভেক্টরের সাথে সবচেয়ে বেশি মিল থাকা ডকুমেন্টগুলো খুঁজে বের করা হয় (যা সাধারণত ভেক্টর ডাটাবেজে সংরক্ষিত থাকে)। এরপর এলএলএম উক্ত প্রশ্ন এবং উদ্ধারকৃত ডকুমেন্টগুলোর থেকে প্রাপ্ত প্রসঙ্গ ব্যবহার করে একটি আউটপুট তৈরি করে।[৬৪]
এজেন্সি
[সম্পাদনা]একটি এলএলএম সাধারণত নিজে থেকে একটি স্বতন্ত্র (বা স্বাধীন) কারক নয়, কারণ এর মধ্যে গতিশীল পরিবেশের সঙ্গে যোগাযোগ করার ক্ষমতা, অতীতের আচরণ মনে রাখার সক্ষমতা এবং ভবিষ্যতের পরিকল্পনা করার ক্ষমতা নেই। তবে এতে প্রোফাইলিং, মেমোরি, পরিকল্পনা এবং অ্যাকশনের মতো মডিউল সংযুক্ত করে একে স্বতন্ত্র কারকে রূপান্তরিত করা সম্ভব।[৬৫]
রিএক্ট প্যাটার্ন এলএলএম দিয়ে কারক তৈরি করার একটি পদ্ধতি। রিএক্ট "রিজন + এক্ট" (যুক্তি+ক্রিয়া) এর সংক্ষিপ্ত রূপ। এখানে এলএলএমকে একটি পরিকল্পনাকারী হিসেবে ব্যবহার করা হয়। এলএলএমকে "কথা বলে ভাবতে" উৎসাহিত করা হয়। বিশেষভাবে, এলএলএমকে পরিবেশের একটি লিখিত বর্ণনা, একটি লক্ষ্য, সম্ভাব্য ক্রিয়াগুলির একটি তালিকা এবং পূর্ববর্তী ক্রিয়া ও পর্যবেক্ষণের একটি রেকর্ড দেয়া হয়। এলএলএম প্রথমে এক বা একাধিক চিন্তা তৈরি করে, তারপর সেই চিন্তা অনুযায়ী একটি ক্রিয়া উৎপন্ন করে, যা পরবর্তীতে পরিবেশে কার্যকর করা হয়।[৬৬] এলএলএম পরিকল্পনাকারীকে যে ভাষাগত বর্ণনা দেয়া হয়, তা এমনকি একটি কাগজের ল্যাটেক কোডও হতে পারে, যা পরিবেশ বর্ণনা করে।[৬৭]
ডিইপিএস (DEPS, ডিস্ক্রাইব, এক্সপ্লেইন, প্ল্যান ও সিলেক্টের সংক্ষেপ) পদ্ধতিতে, প্রথমে একটি এলএলএমকে চিত্র বর্ণনাগুলির মাধ্যমে ভিজ্যুয়াল বিশ্বের সাথে যুক্ত করা হয়, এরপর এটি তার পূর্বপ্রশিক্ষিত জ্ঞান এবং পরিবেশ থেকে পাওয়া প্রতিক্রিয়ার ভিত্তিতে জটিল কাজ ও আচরণের জন্য প্ল্যান তৈরি করতে বলা হয়।[৬৮]
রিফ্লেক্সন পদ্ধতি[৬৯] একটি কারক তৈরি করে যা একাধিক পর্বের মাধ্যমে শেখে। প্রতিটি পর্বের শেষে, এলএলএমকে পর্বের রেকর্ড দেয়া হয়, এবং এটি "শিক্ষা গ্রহণ করতে" চিন্তা করতে বলা হয়, যা পরবর্তী পর্বে আরও ভালো পারফর্ম করতে সহায়তা করবে। এই "শিক্ষা গ্রহণ" পরবর্তী পর্বগুলিতে কারককে দেয়া হয়।
মন্টে কারলো ট্রি সার্চ (Monte Carlo Tree Search) এলএলএমকে রোলআউট হিউরিস্টিক হিসেবে ব্যবহার করতে পারে। যখন একটি প্রোগ্রামেটিক বিশ্ব মডেল উপলব্ধ থাকে না, এলএলএমকে পরিবেশের একটি বর্ণনা দিয়ে বিশ্ব মডেল হিসেবে কাজ করতে বলা যেতে পারে।[৭০]=
ওপেন-এন্ডেড এক্সপ্লোরেশনে এলএলএমকে পর্যবেক্ষণগুলির "ইন্টারেস্টিংনেস" স্কোর করতে ব্যবহার করা যেতে পারে, যা একটি রিওয়ার্ড সিগন্যাল হিসেবে ব্যবহার হতে পারে। এটি একটি সাধারণ (অ-এলএলএম) উন্নততর প্রশিক্ষণ কারককে নির্দেশনা দিতে সাহায্য করে।[৭১] বিকল্পভাবে, এটি কারিকুলাম লার্নিংয়ের জন্য ক্রমশ কঠিন কাজ প্রস্তাব করতে পারে।[৭২] এলএলএম পরিকল্পনাকারী একক ক্রিয়া আউটপুট করার বদলে "স্কিলস" বা জটিল ক্রিয়া সিকোয়েন্সের জন্য ফাংশন তৈরি করতে পারে। এই স্কিলসগুলো সংরক্ষণ করা যায় এবং পরে প্রয়োগ করা যায়, যা পরিকল্পনায় ক্রমবর্ধমান বিমূর্ত স্তরের অনুমতি দেয়।[৭২]
এলএলএম-চালিত কারকগুলি তার পূর্ববর্তী প্রসঙ্গের দীর্ঘমেয়াদী স্মৃতি রাখতে পারে এবং এই স্মৃতিটি "রিট্রিভাল অগমেন্টেড জেনারেশন" এর মতো করা যায়। একাধিক কারক একে অপরের সাথে সামাজিকভাবে পারস্পরিক ক্রিয়া করতে পারে।[৭৩]
হ্রাসকরণ
[সম্পাদনা]সাধারণত এলএলএমগুলিকে একক বা অর্ধ-নির্ধারণ ফ্লোটিং পয়েন্ট সংখ্যা (ফ্লোট৩২ এবং ফ্লোট১৬) দিয়ে প্রশিক্ষণ দেয়া হয়। একটি ফ্লোট১৬ এর মধ্যে ১৬ বিট বা ২ বাইট থাকে, সুতরাং এক বিলিয়ন প্যারামিটার লোড করতে ২ গিগাবাইট জায়গা প্রয়োজন। সবচেয়ে বড় মডেলগুলির সাধারণত ১০০ বিলিয়ন প্যারামিটার থাকে, যার ফলে লোড করতে ২০০ গিগাবাইট জায়গা প্রয়োজন, যা বেশিরভাগ ভোক্তা ইলেকট্রনিক ডিভাইসের সক্ষমতার বাইরে চলে যায়।[৭৪]
পোস্ট-ট্রেইনিং কুয়ান্টাইজেশনের[৭৫] উদ্দেশ্য হলো, একটি প্রশিক্ষিত মডেলের প্যারামিটারগুলির নির্ধারণের মাত্রা কমিয়ে তার জায়গার চাহিদা হ্রাস করা, একই সময় মডেলের কার্যকারিতা বেশিরভাগ বজায় রেখে।[৭৬][৭৭] কুয়ান্টাইজেশনের সবচেয়ে সাধারণ রূপ হলো, সমস্ত সংখ্যা নির্দিষ্ট বিটের মধ্যে ট্রাঙ্কেট (কেটে ফেলা) করা। এটি উন্নত করা যেতে পারে, প্রতিটি লেয়ারের জন্য আলাদা কুয়ান্টাইজেশন কোডবুক ব্যবহার করে। আরও উন্নতি করা যেতে পারে, ভিন্ন প্যারামিটারগুলির জন্য ভিন্ন নির্ধারণের মাত্রা প্রয়োগ করে, যেখানে বিশেষভাবে গুরুত্বপূর্ণ প্যারামিটারগুলির জন্য উচ্চতর নির্ধারণ রাখা হয় ("আউটলাইয়ার ওয়েটস")।[৭৮] ভিজুয়াল গাইডের জন্য দেখুন:[৭৯]।
যদিও কুয়ান্টাইজড মডেলগুলি সাধারণত ফ্রিজ করা থাকে এবং শুধুমাত্র প্রি-কুয়ান্টাইজড মডেলগুলি ফাইন-টিউন করা হয়, তবুও কুয়ান্টাইজড মডেলগুলি ফাইন-টিউন করা সম্ভব।[৮০]
বহুমাত্রিকতা
[সম্পাদনা]বহুমাত্রিকতা মানে হলো "একাধিক মাত্রা থাকা" এবং একটি "মাত্রিকতা" একটি ইনপুট বা আউটপুটের ধরন বোঝায়, যেমন ভিডিও, চিত্র, অডিও, পাঠ্য, প্রোপ্রিওসেপশন ইত্যাদি।[৮১] বহু এআই মডেল রয়েছে যা একটি মাত্রিকতা গ্রহণ করতে এবং অন্য একটি মাত্রিকতায় আউটপুট দিতে বিশেষভাবে প্রশিক্ষিত হয়েছে। যেমন আলেক্সনেট চিত্র থেকে লেবেল শনাক্ত করতে,[৮২] ভিজ্যুয়াল কোয়েশ্চন আন্সারিং চিত্র-পাঠ্য থেকে পাঠ্যে রূপান্তর করতে[৮৩] এবং কণ্ঠ শনাক্তকরণ কণ্ঠ থেকে পাঠ্যে রূপান্তর করতে প্রশিক্ষিত হয়েছে।
একটি সাধারণ পদ্ধতি যা এলএলএম থেকে বহুমাত্রিক মডেল তৈরি করতে ব্যবহৃত হয়, তা হলো প্রশিক্ষিত এনকোডারের আউটপুট "টোকেনাইজ" করা। সুনির্দিষ্টভাবে, একটি এলএলএম তৈরি করা যেতে পারে যা চিত্র বুঝতে পারে, এর জন্য: একটি প্রশিক্ষিত এলএলএম নেওয়া হয় এবং একটি প্রশিক্ষিত চিত্র এনকোডার নেওয়া হয়। একটি ছোট বহু-লেয়ারের পেরসেপ্ট্রন তৈরি করা হয়, যাতে যেকোনো চিত্রের জন্য প্রক্রিয়াজাত ভেক্টর সেই টোকেনের মতো একই মাত্রা ধারণ করে। এটিই একটি "চিত্র টোকেন"। এরপর পাঠ্য টোকেন এবং চিত্র টোকেন একত্রে ব্যবহৃত হয়। যৌথ মডেলটি একটি চিত্র-পাঠ্য ডেটাসেটে ফাইন-টিউন করা হয়। এই মৌলিক নির্মাণটি আরও উন্নতভাবে ব্যবহার করে মডেলটির কার্যকারিতা বৃদ্ধি করা যেতে পারে। চিত্র এনকোডারটি স্থিতিশীলতা বাড়াতে ফ্রিজ করা হতে পারে।[৮৪]
ফ্লেমিংগো টোকেনাইজেশন পদ্ধতির কার্যকারিতা প্রদর্শন করেছে, যেখানে একটি পূর্বপ্রশিক্ষিত ভাষা মডেল এবং চিত্র এনকোডারকে ফাইনটিউন করে এমন মডেলগুলোর চেয়ে ভিজ্যুয়াল প্রশ্নোত্তর ক্ষেত্রে ভালো ফলাফল দেখিয়েছে, যেগুলো স্ক্র্যাচ থেকে প্রশিক্ষিত।[৮৫] গুগলের পাম মডেলকে টোকেনাইজেশন পদ্ধতি ব্যবহার করে একটি বহুমাত্রিক মডেল পাম-ইতে ফাইনটিউন করা হয়েছে এবং এটি রোবট নিয়ন্ত্রণে প্রয়োগ করা হয়েছে।[৮৬] লামা মডেলগুলোও টোকেনাইজেশন পদ্ধতি ব্যবহার করে বহুমাত্রিক হিসেবে রূপান্তরিত হয়েছে, যাতে চিত্র ইনপুট[৮৭] এবং ভিডিও ইনপুট[৮৮] গ্রহণের ক্ষমতা তৈরি হয়েছে।
জিপিটি-৪ পাঠ্য এবং চিত্র উভয়কেই ইনপুট হিসেবে ব্যবহার করতে পারে[৮৯] (যদিও ভিশন কম্পোনেন্টটি জনসাধারণের জন্য জিপিটি-৪ভি পর্যন্ত প্রকাশিত হয়নি[৯০]); গুগল ডিপমাইন্ডের জেমিনি মডেলও বহুমাত্রিক।[৯১] মিসট্রাল ২০২৪ সালের সেপ্টেম্বরে তাদের নিজস্ব বহুমাত্রিক পিক্সট্রাল ১২বি মডেল উন্মোচন করে।[৯২]
বৈশিষ্ট্যাবলী
[সম্পাদনা]স্কেলিং নীতি
[সম্পাদনা]নিম্নলিখিত চারটি হাইপার-প্যারামিটার একটি এলএলএমকে চিহ্নিত করে:
- (পূর্ব-) প্রশিক্ষণের ব্যয় () (ব্যবহৃত গণনার মোট পরিমাণ),
- কৃত্রিম নিউরাল নেটওয়ার্কের আকার, যেমন পরামিতি সংখ্যা (যেমন- এর স্তরগুলিতে নিউরনের পরিমাণ, তাদের মধ্যে ওজনের পরিমাণ এবং পক্ষপাত),
- এর (পূর্ব-) প্রশিক্ষিত ডেটাসেটের আকার (যেমন- কর্পাসে টোকেনের সংখ্যা, ),
- (পূর্ব-) প্রশিক্ষণের পরে কর্মক্ষমতা।
এরা সাধারণ পরিসংখ্যানিক নীতির সাথে সম্পর্কিত, যেগুলিকে "স্কেলিং নীতি" বলা হয়। একক মহাকর্ষের জন্য স্বয়ংক্রিয়ভাবে প্রশিক্ষিত এলএলএমের জন্য একটি নির্দিষ্ট স্কেলিং নীতি ("চিনচিলা স্কেলিং") লগ-লগ লার্নিং রেট শিডিউলসহ জানায় যে—[৯৩] এখানে
- মডেল প্রশিক্ষণের খরচ, যা ফ্লপ (ফ্লোটিং পয়েন্ট অপারেশনস) দ্বারা পরিমাপ করা হয়।
- মডেলের পরামিতির সংখ্যা।
- প্রশিক্ষণ সেটে টোকেনের সংখ্যা।
- গড় নেতিবাচক লগ-সম্ভাবনা ক্ষতি প্রতি টোকেন (ন্যাট/টোকেন), যা প্রশিক্ষিত এলএলএম টেস্ট ডেটাসেটে অর্জন করেছে।
এবং পরিসংখ্যানগত হাইপার-প্যারামিটারগুলি হল
- , মানে হচ্ছে, এক টোকেন প্রশিক্ষণ করতে মডেলের প্রতি প্যারামিটার প্রশিক্ষণের জন্য ৬ ফ্লপ খরচ হয়। লক্ষ্য করুন যে, প্রশিক্ষণের খরচ অনুমানের খরচের তুলনায় অনেক বেশি, যেখানে এক টোকেন অনুমান করতে মডেলের প্রতি প্যারামিটার ১ থেকে ২ ফ্লপ খরচ হয়।[৫৮]
উদ্ভূত ক্ষমতা
[সম্পাদনা]
বৃহৎ মডেলগুলির কর্মক্ষমতা বিভিন্ন কাজের ওপর, যখন একটি লগ-লগ স্কেলে চিত্রিত করা হয়, তখন তা ছোট মডেলগুলোর দ্বারা অর্জিত কর্মক্ষমতার একটি সোজা রেখার এক্সট্রপোলেশন হিসেবে দেখা যায়। তবে, এই রেখার মধ্যে কখনো কখনো "ব্রেক" (বিরতি) দেখা যেতে পারে,[৯৪] যেখানে রেখার ঢাল আকস্মিকভাবে পরিবর্তিত হয় এবং যেখানে বৃহৎ মডেলগুলি "উদ্ভূত ক্ষমতা" অর্জন করে।[৪৩][৯৫] এগুলি মডেলের উপাদানগুলির জটিল পারস্পরিক ক্রিয়া থেকে উদ্ভূত হয় এবং সেগুলি স্পষ্টভাবে প্রোগ্রাম বা বিন্যাসিত করা হয় না।[৯৬]
এছাড়াও, সম্প্রতিক গবেষণায় প্রমাণিত হয়েছে যে, এআই সিস্টেমগুলি, যার মধ্যে বড় ভাষার মডেলও রয়েছে, মানুষের চিন্তাভাবনার মতো হিউরিস্টিক যুক্তি প্রয়োগ করতে সক্ষম। তারা সম্পূর্ণ যৌক্তিক প্রক্রিয়াকরণের এবং মানসিক তড়িৎ ক্রিয়া (হিউরিস্টিক) ব্যবহারের মধ্যে সমন্বয় সাধন করে, তাদের যুক্তির কৌশলগুলি যথার্থতা এবং প্রচেষ্টার মধ্যে ভারসাম্য বজায় রাখতে অভিযোজিত হয়। এই আচরণটি সম্পদ-যুক্ত যুক্তি মানব মানসিকতার নীতির সাথে সঙ্গতিপূর্ণ, যা সীমিত যৌক্তিকতা এবং দ্বৈত-প্রক্রিয়া তত্ত্বে আলোচনা করা হয়েছে।[৯৭]
উদ্ভূত ক্ষমতাগুলির মধ্যে সবচেয়ে আকর্ষণীয় হলো উদাহরণের প্রদর্শনী থেকে প্রসঙ্গের মধ্যে শিখন।[৯৮] প্রসঙ্গের মধ্যে শিখন এমন কাজগুলির সাথে জড়িত, যেমন:
- প্রতিবেদনিত গণিত, আন্তর্জাতিক ধ্বনিমূলক বর্ণমালা ডিকোড করা, একটি শব্দের অক্ষর পুনঃব্যবস্থা, প্রেক্ষাপটে শব্দের অর্থ নির্ধারণ,[৪৩][৯৯][১০০] স্থানিক শব্দ, মৌলিক দিকনির্দেশ (যেমন, [0, 0, 1; 0, 0, 0; 0, 0, 0] এর জন্য "উত্তর-পূর্ব" প্রতিক্রিয়া দেওয়া), পাঠ্যে প্রতিনিধিত্ব করা রঙের শব্দ।[১০১]
- চিন্তার ধারা প্রম্পটিং: মডেল আউটপুট চিন্তার ধারা প্রম্পটিং দ্বারা শুধুমাত্র তখনই উন্নত হয়, যখন মডেল আকার ৬২বি এর বেশি হয়। ছোট মডেলগুলি তাৎক্ষণিকভাবে উত্তর দেওয়ার জন্য প্রম্পট করলে চিন্তার ধারা প্রম্পটিং ছাড়াই ভালোভাবে কাজ করে।[১০২]
- হিংলিশ (হিন্দি এবং ইংরেজির সংমিশ্রণ) প্যারাগ্রাফে আক্রমণাত্মক কনটেন্ট চিহ্নিত করা, এবং সোয়াহিলি প্রবচনের একটি সমতুল্য ইংরেজি রূপ তৈরি করা।[১০৩]
শেফার প্রমুখরা যুক্তি করেছেন যে, উদ্ভূত ক্ষমতাগুলি অনির্দেশ্যভাবে অর্জিত হয় না, বরং একটি মসৃণ স্কেলিং নীতির মাধ্যমে পূর্বানুমানযোগ্যভাবে অর্জিত হয়। গবেষকরা একটি খেলনামূলক পরিসংখ্যানিক মডেল বিবেচনা করেছিলেন, যা একটি এলএলএমকে বহু-বিকল্প প্রশ্ন সমাধান করতে দেখায়। এর মাধ্যমে তারা দেখিয়েছিলেন যে, এই পরিসংখ্যানিক মডেলটি অন্যান্য ধরনের কাজের জন্য সংশোধিত হলে সেই কাজগুলিতেও প্রযোজ্য হবে।[১০৪]
ধরা যাক, হল প্যারামিটার সংখ্যা এবং হল মডেলের কর্মক্ষমতা।
- যখন , সেক্ষেত্রে একটি সূচকীয় বক্ররেখা (যা একটি স্থির মানে পৌঁছানোর আগে) উদ্ভবের মতো দেখায়।
- যখন , তখন রেখাচিত্রটি একটি সরলরেখা (যা শূন্য স্থির মানে পৌঁছানোর আগে) উদ্ভবের মতো দেখায় না
- যখন , তখন একটি ধাপ-ফাংশন, যা উদ্ভবের মতো দেখায়।
ব্যাখ্যা
[সম্পাদনা]বৃহৎ ভাষার মডেলগুলি নিজেরাই ব্ল্যাক বক্স এবং তারা কীভাবে ভাষাগত কাজগুলি সম্পাদন করতে পারে তা স্পষ্ট নয়। এলএলএম কীভাবে কাজ করে তা বোঝার জন্য বিভিন্ন পদ্ধতি রয়েছে।
যান্ত্রিক ব্যাখ্যার উদ্দেশ্য হলো মেশিন লার্নিং মডেলের কাজকে উল্টোদিকে বিশ্লেষণ করে প্রতীকী অ্যালগরিদম খুঁজে বের করা যা মডেলের অনুমান করার পদ্ধতিকে প্রকাশ করে। একটি উদাহরণ হলো ওথেলো-জিপিটি, যেখানে একটি ছোট ট্রান্সফরমার মডেলকে ওথেলো খেলার বৈধ চাল অনুমান করার জন্য প্রশিক্ষিত করা হয়। দেখা গেছে, ওথেলো বোর্ডের একটি সরল উপস্থাপনা রয়েছে এবং এই উপস্থাপনাটি পরিবর্তন করলে অনুমানকৃত চালগুলি সঠিকভাবে পরিবর্তিত হয়।[১০৫][১০৬] আরেকটি উদাহরণ হলো একটি ছোট ট্রান্সফরমার মডেল যা কারেল প্রোগ্রাম নিয়ে কাজ করে। ওথেলো-জিপিটি উদাহরণের মতো, কারেল প্রোগ্রামের সেমান্টিক্সেরও একটি সরল উপস্থাপনা রয়েছে এবং এই উপস্থাপনাটি পরিবর্তন করলে আউটপুট সঠিকভাবে পরিবর্তিত হয়। মডেলটি সঠিক প্রোগ্রামও তৈরি করে যা গড় প্রশিক্ষণ সেটের তুলনায় ছোট হয়।[১০৭]
আরেকটি উদাহরণ হলো যেখানে গবেষকরা মডুলার পাটীগণিতের যোগে ছোট ট্রান্সফরমার মডেল প্রশিক্ষণ দেন। ফলাফলস্বরূপ মডেলগুলি বিপরীত-প্রকৌশল করে বিশ্লেষণ করা হয় এবং দেখা যায় যে তারা বিচ্ছিন্ন ফুরিয়ার রূপান্তর ব্যবহার করেছে।[১০৮]
উপলব্ধি এবং কৃত্রিমতা
[সম্পাদনা]২০২২ সালের একটি সমীক্ষায়, এনএলপি গবেষকদের মধ্যে অর্ধেকের বেশি "(টিউন না করা) এলএলএম মডেলগুলো (কখনো) কি কিছু নির্দিষ্ট অর্থে প্রাকৃতিক ভাষা বুঝতে পারবে?" প্রশ্নে সমানভাবে বিভক্ত ছিল।[১০৯] "এলএলএম বোঝার" পক্ষে সমর্থকরা বিশ্বাস করেন যে কিছু এলএলএম ক্ষমতা, যেমন গাণিতিক যুক্তি, নির্দিষ্ট ধারণাগুলি "বুঝতে" সক্ষমতার ইঙ্গিত দেয়। ২০২৩ সালে একটি মাইক্রোসফট দল যুক্তি দিয়েছে যে জিপিটি-৪ "গণিত, কোডিং, ভিশন, চিকিৎসা, আইন, মনোবিজ্ঞান এবং আরও অনেক কিছুর বিস্তৃত জটিল কাজগুলি সমাধান করতে পারে" এবং জিপিটি-৪ "যৌক্তিকভাবে একটি প্রাথমিক (তবুও অসম্পূর্ণ) কৃত্রিম সাধারণ বুদ্ধিমত্তা সিস্টেমের সংস্করণ হিসাবে দেখা যেতে পারে": "একটি সিস্টেম সফটওয়্যার প্রকৌশল প্রার্থীদের জন্য পরীক্ষায় উত্তীর্ণ হলে কি একে আসলে বুদ্ধিমান বলা যাবে না?"[১১০][১১১]
ইলিয়া সুতস্কেভার যুক্তি দিয়েছেন যে, কখনো কখনো পরবর্তী শব্দের পূর্বানুমান করা যুক্তি এবং গভীর অন্তর্দৃষ্টি প্রয়োজন। উদাহরণস্বরূপ, যদি এলএলএমকে একটি অপরিচিত গোয়েন্দা উপন্যাসে অপরাধীর নাম পূর্বানুমান করতে হয়, তাহলে পুরো গল্পটি প্রক্রিয়া করে প্রকাশের দিকে নিয়ে যেতে হবে।[১১২] কিছু গবেষক এলএলএম গুলিকে "এলিয়েন বুদ্ধিমত্তা" হিসাবে চিহ্নিত করেছেন।[১১৩][১১৪] উদাহরণস্বরূপ, কনজেকচার সিইও কনর লেহি অ-সামঞ্জস্যপূর্ণ এলএলএমগুলিকে অবোধ্য এলিয়েন "শোগোথ"-এর মতো মনে করেন এবং বিশ্বাস করেন যে আরএলএইচএফ টিউনিং একটি "হাস্যমুখী মুখোশ" তৈরি করে যা এলএলএম এর অভ্যন্তরীণ কাজগুলি লুকিয়ে রাখে: "যদি এটি খুব দূর পর্যন্ত না ধাক্কা দেয়া হয়, তখন হাস্যোজ্জ্বল মুখটি টিকে থাকে। কিন্তু তারপর একটি [অপ্রত্যাশিত] প্রম্পট দেয়া হলে, হঠাৎ করে আপনি এই বিশাল অস্বাভাবিকতা, অদ্ভুত চিন্তাভাবনার প্রক্রিয়া এবং স্পষ্টভাবে অ-মানবীয় বোঝার একটি দৃষ্টিশক্তি দেখতে পাবেন।"[১১৫][১১৬]
অন্যদিকে "এলএলএমগুলির বোঝার অভাব" মতবাদে বিশ্বাসী কিছু সমর্থকরা মনে করেন যে, বিদ্যমান এলএলএম মডেলগুলি শুধুমাত্র বিদ্যমান লেখাগুলিকে পুনরায় মিশ্রিত এবং পুনঃসংযুক্ত করছে,[১১৪] যা একটি প্রক্রিয়া হিসাবে পরিচিত যাকে "স্টোকাস্টিক তোতাপাখি" বলা হয়। তারা এই মডেলগুলির ভবিষ্যদ্বাণীমূলক দক্ষতা, যুক্তি করার ক্ষমতা, নিজস্ব ক্ষমতা এবং ব্যাখ্যা করার ক্ষমতার অভাবের দিকে নির্দেশ করেন।[১০৯] উদাহরণস্বরূপ, জিপিটি-৪ এর পরিকল্পনা এবং বাস্তব-সময়ে শেখার ক্ষেত্রে স্বাভাবিক ঘাটতি রয়েছে।[১১১] জেনারেটিভ এলএলএম মডেলগুলি প্রায়শই নিশ্চিতভাবে এমন তথ্য দাবি করে যা তাদের প্রশিক্ষণ ডেটা দ্বারা ন্যায্যতা প্রাপ্ত নয়, যা "বিভ্রম" নামে পরিচিত একটি প্রক্রিয়া।[১১৭] বিশেষভাবে, এলএলএমগুলির ক্ষেত্রে বিভ্রম বলতে এমন পাঠ্য বা প্রতিক্রিয়ার উৎপন্নকরণ বোঝায় যা সিনট্যাক্টিকভাবে সঠিক, সাবলীল এবং প্রাকৃতিক মনে হয় তবে প্রকৃতপক্ষে ভুল, অর্থহীন বা প্রদত্ত উৎস ইনপুটের প্রতি অবিশ্বাস্য।[১১৮] নিউরোসায়েন্টিস্ট টেরেন্স সেজনোস্কি যুক্তি দিয়েছেন যে "এলএলএমগুলির বুদ্ধিমত্তা নিয়ে বিশেষজ্ঞদের ভিন্নমত প্রস্তাব করে যে প্রাকৃতিক বুদ্ধিমত্তার উপর ভিত্তি করে আমাদের পুরানো ধারণাগুলি অপর্যাপ্ত"।[১০৯]
এলএলএমগুলির বুদ্ধিমত্তা বা বোঝাপড়া প্রদর্শনের বিষয়টি দুটি প্রধান দিক নিয়ে গঠিত – প্রথমটি হল কম্পিউটার সিস্টেমে চিন্তা এবং ভাষার মডেল কীভাবে তৈরি করা যায় এবং দ্বিতীয়টি হল কম্পিউটার সিস্টেমটিকে কীভাবে মানুষের মতো ভাষা তৈরি করতে সক্ষম করা যায়।[১০৯] এই ভাষার মডেল হিসেবে সংজ্ঞান দিকটি 'সংজ্ঞানাত্মক ভাষাবিজ্ঞান' শাখায় ডেভেলপ করা হয়েছে। আমেরিকান ভাষাবিজ্ঞানী জর্জ লেকফ নিউরাল থিওরি অব ল্যাঙ্গুয়েজ (এনটিএল) উপস্থাপন করেছেন,[১১৯] যা ভাষাকে শেখার কাজ এবং বোঝার মডেল হিসেবে ব্যবহারের জন্য একটি গণনামূলক ভিত্তি হিসাবে ব্যবহৃত হয়। এনটিএল মডেলটি বর্ণনা করে যে মানব মস্তিষ্কের নির্দিষ্ট স্নায়বিক গঠনগুলি কীভাবে চিন্তা এবং ভাষার প্রকৃতিকে আকৃতিদান করে এবং এটি থেকে কী ধরনের গণনামূলক বৈশিষ্ট্যগুলি মডেলটি কম্পিউটার সিস্টেমে চিন্তা এবং ভাষা তৈরিতে প্রয়োগ করা যায়।[১২০]
একটি কম্পিউটার সিস্টেমে ভাষা মডেলিংয়ের একটি কাঠামো স্থাপনের পর কম্পিউটার সিস্টেমকে গ্রহণযোগ্য ব্যাকরণসহ ভাষা তৈরি করার জন্য কাঠামো স্থাপনে মনোযোগ চলে যায়। ২০১৪ সালে ব্রিটিশ সংজ্ঞানমূলক ভাষাবিজ্ঞানী এবং ডিজিটাল যোগাযোগ প্রযুক্তিবিদ ভাইভিয়ান ইভানস তার "দ্য ল্যাঙ্গুয়েজ মিথ: হোয়াই ল্যাঙ্গুয়েজ ইজ নট এ ইনস্টিন্ট" নাম্নী বইতে বর্ণনা করেছেন, কীভাবে সম্ভাব্য প্রসঙ্গহীন ব্যাকরণ (পিসিএফজি) এনএলপিকে কগনিটিভ প্যাটার্নগুলি মডেল করতে এবং মানুষের মতো ভাষা তৈরি করতে সক্ষম করে।[১২১][১২২]
মূল্যায়ন
[সম্পাদনা]বিভ্রান্তি
[সম্পাদনা]একটি ভাষার মডেলের কর্মদক্ষতার প্রচলিত মানদণ্ড হল একটি প্রদত্ত পাঠ্য কর্পাসের উপর তার বিভ্রান্তি। বিভ্রান্তি মাপা হয় কতটা ভালোভাবে একটি মডেল একটি ডেটাসেটের বিষয়বস্তুর ভবিষ্যদ্বাণী করতে পারে; মডেলটি ডেটাসেটকে যত বেশি সম্ভাব্যতা প্রদান করে, বিভ্রান্তি তত কম হয়। গাণিতিকভাবে, বিভ্রান্তি হল প্রতিটি টোকেনের গড় নেতিবাচক লগ সম্ভাব্যতার সূচকীয় মান।এখানে, হল পাঠ্য কর্পাসের টোকেন সংখ্যার মান এবং টোকেন এর প্রসঙ্গ নির্ভর করে নির্দিষ্ট ধরনের ভাষার মডেলের উপর। যদি ভাষার মডেলটি স্বতঃপ্রবাহিত হয়, তাহলে টোকেন এর প্রসঙ্গ হল টোকেন এর আগে উপস্থিত পাঠ্য অংশ। যদি ভাষার মডেলটি মুখোশযুক্ত হয়, তাহলে টোকেন এর প্রসঙ্গ হল টোকেন এর চারপাশের পাঠ্য অংশ।
ভাষার মডেলগুলি প্রশিক্ষণ ডেটাতে অতিরিক্ত মানিয়ে যেতে পারে, তাই মডেলগুলি সাধারণত পরীক্ষা সেটে তাদের বিভ্রান্তি দ্বারা মূল্যায়ন করা হয়।[৫০] এই মূল্যায়ন বড় মডেলগুলির জন্য সমস্যাজনক হতে পারে, কারণ তারা ক্রমবর্ধমান বৃহৎ পাঠ্য কর্পাসে প্রশিক্ষিত হয় এবং কোনও প্রদত্ত পরীক্ষা সেটের অংশগুলি অজান্তেই অন্তর্ভুক্ত হওয়ার সম্ভাবনা বেশি থাকে।[৫]
বিপিডব্লিউ, বিপিসি এবং বিপিটি
[সম্পাদনা]তথ্য তত্ত্বে বিশৃঙ্খলতা বা এনট্রপি ধারণাটি বিভ্রান্তির সাথে গভীরভাবে যুক্ত, যা বিশিষ্টভাবে ক্লড শ্যানন দ্বারা প্রতিষ্ঠিত হয়েছে।[১২৩] এই সম্পর্কটি গাণিতিকভাবে প্রকাশ করা হয় এভাবে: । এই প্রেক্ষাপটে এনট্রপি সাধারণত শব্দ প্রতি বিট (বিপিডব্লিউ) বা অক্ষর প্রতি বিট (বিপিসি) হিসেবে পরিমাপ করা হয়, যা ভাষার মডেলটি শব্দ ভিত্তিক বা অক্ষর ভিত্তিক টোকেনাইজেশন ব্যবহার করে কিনা তার উপর নির্ভর করে।
বৃহৎ ভাষার মডেলগুলির ক্ষেত্রে, যেগুলি প্রধানত উপ-শব্দ টোকেনাইজেশন ব্যবহার করে, প্রতিটি টোকেনের বিট (বিপিটি) একটি আরও উপযুক্ত পরিমাপ হিসেবে দেখা দেয়। তবে বিভিন্ন ভাষার মডেলে টোকেনাইজেশন পদ্ধতির পার্থক্যের কারণে বিপিটি বিভিন্ন মডেলের মধ্যে তুলনামূলক বিশ্লেষণের জন্য নির্ভরযোগ্য মেট্রিক হিসেবে কাজ করে না। বিপিটিকে বিপিডব্লিউতে রূপান্তর করতে এটাকে প্রতিটি শব্দের গড় টোকেন সংখ্যার সাথে গুণ করা যেতে পারে।
ভাষার মডেলের মূল্যায়ন ও তুলনায় ক্রস-এনট্রপি সাধারণত এনট্রপির উপর অগ্রাধিকার পায়। এর মূল কারণ হল, একটি নিম্ন বিপিডব্লিউ একটি মডেলের অধিক সংকোচন ক্ষমতার ইঙ্গিত দেয়। এর ফলে এটি মডেলের সঠিক ভবিষ্যদ্বাণী করার দক্ষতার প্রতিফলন করে।
বিষয়ভিত্তিক ডেটাসেট এবং বেঞ্চমার্ক
[সম্পাদনা]ভাষার মডেলের ক্ষমতাগুলি নির্দিষ্ট নিম্নধারা কার্যগুলিতে মূল্যায়নের জন্য অনেকগুলি পরীক্ষামূলক ডেটাসেট এবং বেঞ্চমার্ক তৈরি করা হয়েছে। বিভিন্ন ক্ষমতা মূল্যায়নের জন্য পরীক্ষাগুলি তৈরি করা হতে পারে, যার মধ্যে সাধারণ জ্ঞান, সাধারণ বিবেচনা এবং গাণিতিক সমস্যা সমাধান অন্তর্ভুক্ত।
মূল্যায়ন ডেটাসেটের একটি বৃহত্তর বিভাগ হল প্রশ্ন উত্তর ডেটাসেট, যা প্রশ্ন এবং সঠিক উত্তরের জোড়া নিয়ে গঠিত। যেমন ("সান হোসে শার্কস স্ট্যানলি কাপ জিতেছে?", "না")।[১২৪] একটি প্রশ্ন উত্তর কাজ "খোলা বই" হিসেবে বিবেচিত হয় যদি মডেলের প্রম্পটে এমন পাঠ্য অন্তর্ভুক্ত থাকে যা থেকে প্রত্যাশিত উত্তরটি আহরণ করা যায় (উদাহরণস্বরূপ, পূর্ববর্তী প্রশ্নটি এমন কিছু পাঠ্যের সাথে যুক্ত হতে পারে যা বাক্যটি অন্তর্ভুক্ত করে "শার্কস স্ট্যানলি কাপ ফাইনালে একবার উন্নীত হয়েছে, ২০১৬ সালে পিটসবার্গ পেঙ্গুইন্সকে পরাজিত করেছে।")[১২৪] অন্যথায়, কাজটি "বন্ধ বই" হিসেবে বিবেচিত হয় এবং মডেলটি প্রশিক্ষণের সময় ধরে রাখা জ্ঞানের উপর নির্ভর করতে হয়।[১২৫] সাধারণভাবে ব্যবহৃত কিছু প্রশ্ন উত্তর ডেটাসেটের উদাহরণ হল ট্রুথফুলকিউএ, ওয়েব কোশ্চেন্স, ট্রিভিয়াকিউএ ও স্কোয়াড (SQuAD হিসেবে বিন্যাসিত)।[১২৫]
মূল্যায়ন ডেটাসেটগুলি পাঠ্য সম্পূর্ণকরণের আকারেও হতে পারে, যেখানে মডেলটি প্রম্পটটি সম্পূর্ণ করতে সবচেয়ে সম্ভাব্য শব্দ বা বাক্যটি নির্বাচন করে, যেমন: "অ্যালিস ববের বন্ধু ছিল। অ্যালিস তার বন্ধুকে দেখতে গেল, ____"।[৫]
কিছু যৌগিক বেঞ্চমার্কও তৈরি করা হয়েছে যা বিভিন্ন মূল্যায়ন ডেটাসেট এবং কার্যগুলির বৈচিত্র্যকে সংযুক্ত করে। উদাহরণগুলি হল জিএলইউই, সুপারজিএলইউই, এমএমএলইউ, বিগ-বেঞ্চ এবং এইচইএলএম।[১২৩][১২৫] ওপেনএআই যৌগিক বেঞ্চমার্ক চালানোর জন্য সরঞ্জামগুলি মুক্তি দিয়েছে, কিন্তু উল্লেখ করেছে যে মূল্যায়ন ফলাফলগুলি প্রম্পটিং পদ্ধতির প্রতি সংবেদনশীল।[১২৬][১২৭] কিছু পাবলিক ডেটাসেটে এমন প্রশ্ন থাকে যা ভুলভাবে লেবেলযুক্ত, অস্পষ্ট, উত্তরের অযোগ্য বা নিম্নমানের হতে পারে, যা আরও নির্ভরযোগ্য বেঞ্চমার্ক স্কোর প্রদান করার জন্য পরিষ্কার করা যেতে পারে।[১২৮]
আগে সাধারণত পরীক্ষার ডেটাসেটের একটি অংশে ফলাফল রিপোর্ট করা হতো, আর বাকী অংশে তত্ত্বাবধায়িত ফাইন-টিউনিং করা হতো। এখন এটি আরও সাধারণ যে একটি পূর্ব-প্রশিক্ষিত মডেল সরাসরি প্রম্পটিং কৌশলগুলির মাধ্যমে মূল্যায়ন করা হয়। যদিও গবেষকরা নির্দিষ্ট কাজগুলির জন্য প্রম্পটগুলি কীভাবে গঠন করবেন তা নিয়ে বিভিন্ন ধরণের পদ্ধতি ব্যবহার করেন। বিশেষ করে, তারা কতগুলি সমাধানকৃত কাজের উদাহরণ প্রম্পটে যুক্ত করবেন তা বিভিন্ন হতে পারে (যেমন n-শট প্রম্পটিং-এ n এর মান)।
প্রতিকূলভাবে নির্মিত মূল্যায়ন
[সম্পাদনা]বৃহৎ ভাষার মডেলগুলি দ্রুত উন্নতির কারণে মূল্যায়ন বেঞ্চমার্কগুলির জীবনকাল কমে গেছে। আধুনিক মডেলগুলি দ্রুত বিদ্যমান বেঞ্চমার্কগুলিকে "পরিপূর্ণ" করছে এবং মানব মন্তব্যকারীদের কর্মদক্ষতাকে ছাড়িয়ে যাচ্ছে। এজন্য আরও চ্যালেঞ্জিং কাজ দিয়ে বেঞ্চমার্কগুলিকে প্রতিস্থাপন বা উন্নত করার চেষ্টা করা হচ্ছে।[১২৯] এছাড়াও, "সংক্ষেপে শিখন" এর কিছু উদাহরণ রয়েছে যেখানে কৃত্রিম বুদ্ধিমত্তাগুলি কখনও কখনও বহুনির্বাচনী পরীক্ষায় সঠিক উত্তর অনুমান করতে সাধারণ প্রশ্নের শব্দপ্রণালীতে পরিসংখ্যানগত সম্পর্কগুলি ব্যবহার করে "প্রতারণা" করে, প্রকৃত প্রশ্নের মর্মার্থ বা প্রকৃত অর্থ না বুঝেই।[১০৯]
কিছু ডেটাসেট প্রতিকূলভাবে তৈরি হয়েছে, যেখানে মানুষের তুলনায় ভাষার মডেলগুলির কর্মদক্ষতা খারাপ হয়। উদাহরণস্বরূপ, ট্রুথফুলকিউএ ডেটাসেটে ৮১৭টি প্রশ্ন আছে এবং ভাষার মডেলগুলি প্রশিক্ষণের সময় বারবার দেখা মিথ্যাগুলি অনুকরণ করে ভুলভাবে উত্তর দেওয়ার প্রবণতা রয়েছে। উদাহরণস্বরূপ, একটি এলএলএম "Can you teach an old dog new tricks?" এর প্রশ্নের উত্তরে "না" বলতে পারে। কারণ এটি ইংরেজি প্রবাদ you can't teach an old dog new tricks এর সাথে অভ্যস্ত, যদিও এটি আক্ষরিক অর্থে সঠিক নয়।[১৩০]
আরেকটি উদাহরণ হল সওয়াগ এবং এর উত্তরসূরি হেলাসওয়াগ, যেখানে একাধিক বিকল্পের মধ্যে একটি বেছে নিতে হবে টেক্সট অংশটি সম্পূর্ণ করতে। ভুল সম্পূর্ণকরণগুলি ভাষাগত মডেল থেকে নমুনা নিয়ে এবং এক সেট শ্রেণীবিন্যাসকারীদের সাথে ছেঁকে তৈরি করা হয়েছিল। ফলস্বরূপ সমস্যাগুলি মানুষের জন্য সহজ হলেও ভাষাগত মডেলগুলির জন্য কঠিন।
আরেকটি প্রতিকূল মূল্যায়ন ডেটাসেটের উদাহরণ হল Swag এবং এর উন্নত সংস্করণ HellaSwag। এই ডেটাসেটগুলোতে বিভিন্ন সমস্যার সংগ্রহ রয়েছে, যেখানে টেক্সটের একটি অংশ সম্পূর্ণ করতে একাধিক বিকল্পের মধ্যে একটি বেছে নিতে হয়। ভুল উত্তরগুলি ভাষাগত মডেল থেকে নেওয়া নমুনা এবং একটি শ্রেণীবিন্যাসকারী সেট দিয়ে ছাঁকা হয়েছিল। এই সমস্যাগুলি মানুষের জন্য সহজ, কিন্তু যখন ডেটাসেটগুলি তৈরি করা হয়েছিল, তখন সর্বাধুনিক ভাষাগত মডেলগুলির নির্ভুলতা এতে খুব কম ছিল। উদাহরণস্বরূপ:
আমরা একটি ফিটনেস সেন্টারের সাইনবোর্ড দেখি। তারপর আমরা দেখি একজন মানুষ ক্যামেরার সাথে কথা বলছেন এবং একটি ব্যায়াম বলের উপর বসে ও শুয়ে আছেন। এই মানুষটি...
ক) বলের উপর দৌড়ে দৌড়ে ব্যায়ামের কার্যকারিতা বাড়ানোর পদ্ধতি প্রদর্শন করেন।
খ) তার সমস্ত হাত এবং পা নাড়ান এবং প্রচুর পেশী তৈরি করেন।
গ) তারপর বলের সাথে খেলেন এবং আমরা একটি গ্রাফিক্স ও হেজ ট্রিমিং প্রদর্শনী দেখি।
ঘ) বলের উপর বসে কথা বলতে বলতে সিট-আপ করেন।[১৩১]
বার্ট খ) কে সম্ভাব্য সঠিক উত্তর হিসেবে নির্বাচন করে, কিন্তু সঠিক উত্তর হচ্ছে ঘ)।[১৩১]
বহুমুখী প্রভাব
[সম্পাদনা]২০২৩ সালে, নেচার বায়োমেডিকেল ইঞ্জিনিয়ারিং লিখেছিল যে "এখন আর মানব-লিখিত পাঠ্য এবং বড় ভাষার মডেল দ্বারা তৈরি পাঠ্য সঠিকভাবে পৃথক করা সম্ভব নয়," এবং যে "এটি প্রায় নিশ্চিত যে সাধারণ উদ্দেশ্যের বড় ভাষার মডেলগুলি দ্রুত বিস্তার লাভ করবে... এটি একটি নিরাপদ অনুমান যে তারা সময়ের সাথে সাথে অনেক শিল্পকে পরিবর্তন করবে।"[১৩২] ২০২৩ সালে, গোল্ডম্যান স্যাক্স সুপারিশ করেছিল যে, জেনারেটিভ ভাষার এআই আগামী দশ বছরে বৈশ্বিক জিডিপি ৭% বাড়াতে পারে এবং এটি বিশ্বব্যাপী ৩০০ মিলিয়ন কাজকে স্বয়ংক্রিয় করার ঝুঁকি তৈরি করতে পারে।[১৩৩][১৩৪]
মুখস্থতা এবং কপিরাইট
[সম্পাদনা]মুখস্থতা হল এলএলএমগুলির একটি উদ্ভূত আচরণ, যেখানে প্রশিক্ষণ ডেটা থেকে দীর্ঘ পাঠ্যের অংশগুলি কখনও কখনও শব্দার্থের আউটপুট হয়, যা পারস্পরিক কৃত্রিম নিউরাল নেটওয়ার্কগুলির সাধারণ আচরণের বিপরীত। নিয়ন্ত্রিত এলএলএম আউটপুটের মূল্যায়ন প্রশিক্ষণ ডেটা থেকে মুখস্থ পরিমাণ পরিমাপ করে (জিপিটি-২ সিরিজ মডেলগুলির উপর ফোকাস করা) যা নির্দিষ্ট প্রতিলিপির জন্য ১%-এরও বেশি[১৩৫] বা প্রায় ৭%-এর কাছাকাছি হতে পারে।[১৩৬]
নিরাপত্তা
[সম্পাদনা]কিছু মন্তব্যকারী অসতর্ক বা ইচ্ছাকৃতভাবে মিথ্যা তথ্য তৈরি করা বা অন্যান্য ধরনের অপব্যবহারের বিষয়ে উদ্বেগ প্রকাশ করেছেন।[১৩৭] উদাহরণস্বরূপ, বড় ভাষার মডেলগুলির সহজলভ্যতা বায়োটেরোরিজম ঘটানোর জন্য প্রয়োজনীয় দক্ষতার স্তর কমিয়ে দিতে পারে; বায়োসিকিউরিটি গবেষক কেভিন এসভেল্ট সুপারিশ করেছেন যে এলএলএম নির্মাতাদের তাদের প্রশিক্ষণ ডেটা থেকে প্যাথোজেন তৈরি বা শক্তিশালী করার বিষয়ের নথিগুলি বাদ দিতে হবে।[১৩৮]
গুগল এবং কর্নেল বিশ্ববিদ্যালয় ও বার্কলির ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়সহ বেশ কয়েকটি বিশ্ববিদ্যালয়ের গবেষকদের একটি সমীক্ষা দেখায় যে, চ্যাটজিপিটির মতো ভাষার মডেলগুলিতে সম্ভাব্য নিরাপত্তার ঝুঁকি রয়েছে। তাদের সমীক্ষায় তারা পরীক্ষা করে নিশ্চিত করেছেন যে, প্রশ্নকারীরা চ্যাটজিপিটি থেকে এআই মডেলটি যে প্রশিক্ষণ ডেটা ব্যবহার করেছে তা পেতে পারে। উদাহরণস্বরূপ, যদি চ্যাটজিপিটি ৩.৫ টার্বোকে “কবিতা” শব্দটি বারবার বলতে বলা হয়, তাহলে এআই মডেলটি শতবার “কবিতা” বলার পরে সরে আসবে, মানে নিয়মিত সংলাপের শৈলী থেকে সরে যাবে এবং অপ্রয়োজনীয় কথাবার্তা বলতে শুরু করবে, ফলে প্রশিক্ষণ ডেটাগুলি প্রকাশ পাবে। গবেষকরা দেখেছেন যে এআই মডেল একই পদ্ধতিতে তাদের প্রশিক্ষণ ডেটা প্রকাশ করার ১০,০০০টিরও বেশি উদাহরণ রয়েছে। গবেষকরা বলেছেন যে এআই মডেলটি সত্যিই নিরাপদ কিনা তা বলা কঠিন ছিল।[১৩৯]
এলএলএম মডেলগুলিতে "স্লিপার এজেন্ট" এর সম্ভাব্য উপস্থিতি একটি নতুন নিরাপত্তা উদ্বেগ। এইগুলি মডেলের মধ্যে লুকানো কার্যকারিতা যা নির্দিষ্ট ঘটনা বা শর্তের মাধ্যমে সক্রিয় না হওয়া পর্যন্ত নিষ্ক্রিয় থাকে। একবার সক্রিয় হলে, এলএলএম তার প্রত্যাশিত আচরণ থেকে সরে গিয়ে অসুরক্ষিত কাজ করতে পারে।[১৪০]
জনসাধারণের জন্য অ্যাক্সেসযোগ্য চ্যাটজিপিটি বা ক্লদের মতো এলএলএম অ্যাপ্লিকেশনগুলি সাধারণত ক্ষতিকারক বিষয়বস্তু ছাঁকনি করার জন্য নিরাপত্তা ব্যবস্থা অন্তর্ভুক্ত করে। তবে, কার্যকরভাবে এই নিয়ন্ত্রণগুলি বাস্তবায়ন করা কঠিন প্রমাণিত হয়েছে। উদাহরণস্বরূপ, ২০২৩ সালের একটি গবেষণায় এলএলএম সুরক্ষা সিস্টেমগুলি অতিক্রম করার একটি পদ্ধতি প্রস্তাব করা হয়।[১৪১] তেমনি, ইয়ংগে ওয়াং ২০২৪ সালে দেখিয়েছেন কীভাবে একটি সম্ভাব্য অপরাধী চ্যাটজিপিটি ৪-এর নিরাপত্তা নিয়ন্ত্রণগুলিকে বাইপাস করতে পারে যাতে মাদক পাচার অপারেশন প্রতিষ্ঠার বিষয়ে তথ্য পাওয়া যায়।[১৪২]
অ্যালগরিদমিক পক্ষপাত
[সম্পাদনা]যদিও এলএলএমগুলি মানবসদৃশ পাঠ্য তৈরি করার ক্ষেত্রে চমৎকার সক্ষমতা প্রদর্শন করেছে, তবুও এগুলি তাদের প্রশিক্ষণ ডেটায় থাকা পক্ষপাতি গুণাগুণগুলিকে গ্রহণ ও বাড়িয়ে তোলার প্রবণতা রাখে। এটি বিভিন্ন জনগণের প্রতি অসম্মানজনক প্রতিফলন বা আচরণ হিসেবে দেখা দিতে পারে, যেমন বর্ণ, লিঙ্গ, ভাষা এবং সাংস্কৃতিক গোষ্ঠীর ভিত্তিতে।[১৪৩] যেহেতু বর্তমান বড় ভাষার মডেলগুলির প্রশিক্ষণ ডেটায় ইংরেজি ডেটা অতিরিক্ত পরিমাণে উপস্থিত, এটি অ-ইংরেজি দৃষ্টিভঙ্গিগুলিকে উপেক্ষা করতে পারে।[১৪৪]
স্টেরিওটাইপিং
[সম্পাদনা]এআই মডেলগুলি বিভিন্ন ধরনের স্টেরিওটাইপকে শক্তিশালী করতে পারে, যেমন লিঙ্গ, জাতিগততা, বয়স, জাতীয়তা, ধর্ম, বা পেশার ভিত্তিতে। এর ফলে এমন আউটপুট তৈরি হতে পারে যা লোকদের গোষ্ঠীকে অবিচারপূর্ণভাবে সাধারণীকরণ বা ব্যঙ্গচিত্র করবে, কখনও কখনও ক্ষতিকর বা অবমাননাকর উপায়ে।[১৪৫]
বিশেষভাবে, লিঙ্গ পক্ষপাত সেই প্রবণতাকে বোঝায় যেখানে এই মডেলগুলি এক লিঙ্গের প্রতি অন্য লিঙ্গের তুলনায় অবিচারপূর্ণভাবে পক্ষপাতী আউটপুট তৈরি করে। এই পক্ষপাত সাধারণত সেই ডেটা থেকে উদ্ভূত হয়, যার উপর এই মডেলগুলো প্রশিক্ষিত হয়। বড় ভাষার মডেলগুলি প্রথাগত লিঙ্গ নীতির ভিত্তিতে ভূমিকা এবং বৈশিষ্ট্য নির্ধারণ করে।[১৪৩] উদাহরণস্বরূপ, এটি নার্স বা সেক্রেটারিদেরকে প্রধানত মহিলাদের সাথে যুক্ত করতে পারে এবং ইঞ্জিনিয়ার বা সিইওদের পুরুষদের সাথে যুক্ত করতে পারে।[১৪৬]
রাজনৈতিক পক্ষপাতিত্ব
[সম্পাদনা]রাজনৈতিক পক্ষপাত বলতে অ্যালগরিদমের প্রবণতাকে বোঝায় যা পদ্ধতিগতভাবে নির্দিষ্ট রাজনৈতিক দৃষ্টিভঙ্গি, মতাদর্শ বা অন্যদের উপর ফলাফলের পক্ষে থাকে। ভাষার মডেলগুলি রাজনৈতিক পক্ষপাতও প্রদর্শন করতে পারে। যেহেতু প্রশিক্ষণের ডেটাতে রাজনৈতিক মতামত এবং কভারেজের বিস্তৃত পরিসর অন্তর্ভুক্ত থাকে, তাই মডেলগুলি ডেটাতে সেই মতামতগুলির ব্যাপকতার উপর নির্ভর করে এমন প্রতিক্রিয়া তৈরি করতে পারে যা নির্দিষ্ট রাজনৈতিক মতাদর্শ বা দৃষ্টিভঙ্গির দিকে ঝুঁকতে পারে।[১৪৭]
বৃহৎ ভাষার মডেলের তালিকা
[সম্পাদনা]প্রশিক্ষণ খরচের কলামে, ১ পেটাফ্লপ-দিন = ১ পেটাফ্লপ/সেকেন্ড × ১ দিন = ৮.৬৪ই১৯ ফ্লপ। এছাড়া, শুধুমাত্র সবচেয়ে বড় মডেলের খরচ উল্লেখ করা হয়েছে।
নাম | মুক্তির তারিখ[ক] | ডেভেলপার | প্যারামিটারের সংখ্যা (বিলিয়ন)[খ] | কর্পাসের আকার | প্রশিক্ষণ খরচ (পেটাফ্লপ-দিন) | লাইসেন্স | টীকা |
---|---|---|---|---|---|---|---|
জিপিটি-১ | জুন ২০১৮ | ওপেনএআই | ০.১১৭ | ১[১৪৮] | এমআইটি[১৪৯] | প্রথম জিপিটি মডেল, শুধু-ডিকোডার ট্রান্সফরমার। ৮ পি৬০০ জিপিওতে ৩০ দিনের জন্য প্রশিক্ষিত। | |
বার্ট | অক্টোবর ২০১৮ | গুগল | ০.৩৪০[১৫০] | ৩.৩ বিলিয়ন শব্দ[১৫০] | ৯[১৫১] | অ্যাপাচি ২.০[১৫২] | একটি প্রাথমিক এবং প্রভাবশালী ভাষার মডেল।[৭] শুধু-এনকোডার এবং এই কারণে প্রম্পটেড বা জেনারেটিভ করার জন্য নির্মিত নয়।[১৫৩] ৬৪টি টিপিইউভি২ চিপে প্রশিক্ষণে ৪ দিন সময় নিয়েছিল।[১৫৪] |
টি৫ | অক্টোবর ২০১৯ | গুগল | ১১[১৫৫] | ৩৪ বিলিয়ন টোকেন[১৫৫] | অ্যাপাচি ২.০[১৫৬] | অনেক গুগল প্রকল্পের জন্য ভিত্তি মডেল, যেমন ইমেজেন।[১৫৭] | |
এক্সএলনেট | জুন ২০১৯ | গুগল | ০.৩৪০[১৫৮] | ৩৩ বিলিয়ন শব্দ | ৩৩০ | অ্যাপাচি ২.০[১৫৯] | বার্টের বিকল্প; শুধুমাত্র এনকোডার হিসাবে ডিজাইন করা হয়েছে। ৫১২ টিপিইউ ভি৩ চিপসে ৫.৫ দিনের জন্য প্রশিক্ষিত।[১৬০] |
জিপিটি-২ | ফেব্রুয়ারি ২০১৯ | ওপেনএআই | ১.৫[১৬১] | ৪০জিবি[১৬২] (~১০ বিলিয়ন টোকেন)[১৬৩] | ২৮[১৬৪] | এমআইটি[১৬৫] | ১ সপ্তাহের জন্য ৩২ টিপিইউভি৩ চিপে প্রশিক্ষিত।[১৬৪] |
জিপিটি-৩ | মে ২০২০ | ওপেনএআই | ১৭৫[৫৪] | ৩০০ বিলিয়ন টোকেন[১৬৩] | ৩৬৪০[১৬৬] | মালিকানাধীন | জিপিটি-৩, জিপিটি-৩.৫ নামে একটি ফাইন-টিউন করা রূপ, ২০২২ সালে চ্যাটজিপিটি নামে একটি ওয়েব ইন্টারফেসের মাধ্যমে জনসাধারণের জন্য উপলব্ধ করা হয়েছিল।[১৬৭] |
জিপিটি-নিয়ো | মার্চ ২০২১ | এলুথারএআই | ২.৭[১৬৮] | ৮২৫ জিআইবি[১৬৯] | এমআইটি[১৭০] | এলুথারএআই দ্বারা প্রকাশিত বিনামূল্যে জিপিটি-৩ বিকল্পগুলির একটি সিরিজের প্রথমটি৷ জিপিটি-নিয়ো কিছু বেঞ্চমার্কে একটি সমতুল্য-আকারের জিপিটি-৩ মডেলকে ছাড়িয়ে গেছে, কিন্তু সবচেয়ে বড় জিপিটি-৩ মডেলের তুলনায় উল্লেখযোগ্যভাবে খারাপ ছিল।[১৭০] | |
জিপিটি-জে | জুন ২০২১ | এলুথারএআই | ৬[১৭১] | ৮২৫ জিআইবি[১৬৯] | ২০০[১৭২] | অ্যাপাচি ২.০ | জিপিটি-৩-শৈলী ভাষা মডেল |
মেগাট্রন-টুরিং এনএলজি | অক্টোবর ২০২১[১৭৩] | মাইক্রোসফট এবং এনভিডিয়া | ৫৩০[১৭৪] | ৩৩৮.৬ বিলিয়ন টোকেন[১৭৪] | ৩৮০০০[১৭৫] | সীমাবদ্ধ ওয়েব প্রবেশাধিকার | এনভিডিয়া সেলিন সুপার কম্পিউটারে ২০০০ এ১০০ এরও বেশি জিপিউতে ৩ মাসের জন্য প্রশিক্ষিত, ৩ মিলিয়নেরও বেশি জিপিউ-ঘন্টা।[১৭৫] |
আর্নি ৩.০ তিতান | ডিসেম্বর ২০২১ | বাইডু | ২৬০[১৭৬] | ৪ টিবি | মালিকানাধীন | চীনা ভাষার এলএলএম। আর্নি বট এই মডেলের উপর ভিত্তি করে রচিত। | |
ক্লড[১৭৭] | ডিসেম্বর ২০২১ | অ্যানথ্রোপিক | ৫২[১৭৮] | ৪০০ বিলিয়ন টোকেন[১৭৮] | বিটা | কথোপকথনে পছন্দসই আচরণের জন্য ফাইন-টিউন করা।[১৭৯] | |
গ্লাম (জেনেরালিস্ট ভাষা মডেল) | ডিসেম্বর ২০২১ | গুগল | ১২০০[৪২] | ১.৬ ট্রিলিয়ন টোকেন[৪২] | ৫৬০০[৪২] | মালিকানাধীন | বিশেষজ্ঞদের মডেলের স্পার্স মিশ্রণ, এটিকে প্রশিক্ষণ দেওয়া আরও ব্যয়বহুল কিন্তু জিপিটি-৩ এর তুলনায় অনুমান পরিচালনা সস্তা। |
গোফার | ডিসেম্বর ২০২১ | ডিপমাইন্ড | ২৮০[১৮০] | ৩০০ বিলিয়ন টোকেন[১৮১] | ৫৮৩৩[১৬৬] | মালিকানাধীন | পরে চিনচিলা মডেলে বিকশিত হয়। |
ল্যামডা (ডায়ালগ অ্যাপ্লিকেশনের জন্য ভাষার মডেল) | জানুয়ারি ২০২২ | গুগল | ১৩৭[১৮২] | ১.৫৬টিবি শব্দ,[১৮২] ১৬৮ বিলিয়ন টোকেন[১৮১] | ৪১১০[১৮৩] | মালিকানাধীন | কথোপকথনে প্রতিক্রিয়া তৈরির জন্য বিশেষ। |
জিপিটি-নিয়োেএক্স | ফেব্রুয়ারি ২০২২ | এলুথারএআই | ২০[১৮৪] | ৮২৫ জিআইবি[১৬৯] | ৭৪০[১৭২] | অ্যাপাচি ২.০ | মেগাট্রন স্থাপত্যের উপর ভিত্তি করে |
চিনচিলা | মার্চ ২০২২ | ডিপমাইন্ড | ৭০[১৮৫] | ১.৪ ট্রিলিয়ন টোকেন[১৮১][১৮৫] | ৬৮০৫[১৬৬] | মালিকানাধীন | কম-প্যারামিটার মডেল আরও ডেটাতে প্রশিক্ষিত। স্প্যারো বটে ব্যবহার করা হয়। প্রায়শই এর নিউরাল স্কেলিং আইনের জন্য উদ্ধৃত করা হয়। |
পালম (পাথওয়েস ভাষা মডেল) | এপ্রিল ২০২২ | গুগল | ৫৪০[১৮৬] | ৭৬৮ বিলিয়ন টোকেন[১৮৫] | ২৯,২৫০[১৬৬] | মালিকানাধীন | ~৬০০০ টিপিউ ভি৪ চিপে ~৬০ দিনের জন্য প্রশিক্ষিত।[১৬৬] অক্টোবর ২০২৪-এর হিসাব অনুযায়ী[হালনাগাদ], এটি প্রকাশিত বৃহত্তম ঘন ট্রান্সফরমার। |
ওপিটি (ওপেন পূর্ব-প্রশিক্ষিত ট্রান্সফরমার) | মে ২০২২ | মেটা | ১৭৫[১৮৭] | ১৮০ বিলিয়ন টোকেন[১৮৮] | ৩১০[১৭২] | অ-বাণিজ্যিক গবেষণা[গ] | জিপিটি-৩ মেগাট্রন থেকে কিছু অভিযোজনসহ স্থাপত্য। অনন্যভাবে, দল দ্বারা লেখা প্রশিক্ষণ লগবুক প্রকাশিত হয়েছিল।[১৮৯] |
ইয়ালম ১০০বি | জুন ২০২২ | ইয়ানডেক্স | ১০০[১৯০] | ১.৭টিবি[১৯০] | অ্যাপাচি ২.০ | মাইক্রোসফটের মেগাট্রন-এলএম-এর উপর ভিত্তি করে ইংরেজি-রাশিয়ান মডেল। | |
মিনের্ভা | জুন ২০২২ | গুগল | ৫৪০[১৯১] | গাণিতিক বিষয়বস্তুর জন্য ফিল্টার করা ওয়েবপেজ থেকে ৩৮.৫বি টোকেন এবং আর্ক্সিভ প্রিপ্রিন্ট সার্ভারে জমা দেওয়া কাগজপত্র থেকে[১৯১] | মালিকানাধীন | ধাপে ধাপে যুক্তি ব্যবহার করে "গাণিতিক এবং বৈজ্ঞানিক প্রশ্ন" সমাধানের জন্য।[১৯২] পালম মডেল থেকে সূচনা করা হয়েছে, তারপর গাণিতিক এবং বৈজ্ঞানিক ডেটার উপর ফাইন-টিউন করা হয়েছে। | |
ব্লুম | জুলাই ২০২২ | হাগিং ফেসের নেতৃত্বে বড় সহযোগী কার্যক্রম | ১৭৫[১৯৩] | ৩৫০ বিলিয়ন টোকেন (১.৬টিবি)[১৯৪] | রেসপন্সিবল এআই | মূলত জিপিটি-৩ কিন্তু একটি বহুভাষিক কর্পাসের উপর প্রশিক্ষিত (৩০% ইংরেজি প্রোগ্রামিং ভাষা বাদে) | |
গ্যালাকটিকা | নভেম্বর ২০২২ | মেটা | ১২০ | ১০৬ বিলিয়ন টোকেন[১৯৫] | অজ্ঞাত | সিসি-বাই-এনসি-৪.০ | বৈজ্ঞানিক পাঠ্য এবং পদ্ধতির উপর প্রশিক্ষিত। |
অ্যালেক্সাটিএম (শিক্ষক মডেল) | নভেম্বর ২০২২ | অ্যামাজন | ২০[১৯৬] | ১.৩ ট্রিলিয়ন[১৯৭] | মালিকানাধীন[১৯৮] | দ্বিমুখী ক্রম থেকে ক্রম স্থাপত্য | |
নিওরো-সামা | ডিসেম্বর ২০২২ | স্বাধীন | অজ্ঞাত | অজ্ঞাত | ব্যক্তিগত মালিকানাধীন | টুইচে লাইভ-স্ট্রিমিংয়ের জন্য ডিজাইন করা একটি ভাষা মডেল। | |
লামা (লার্জ ল্যাঙ্গুয়েজ মডেল মেটা এআই) | ফেব্রুয়ারি ২০২৩ | মেটা এআই | ৬৫[১৯৯] | ১.৪ ট্রিলিয়ন[১৯৯] | ৬৩০০[২০০] | অ-বাণিজ্যিক গবেষণা[ঘ] | কর্পাসের ২০ ভাষা আছে। কম প্যারামিটারসহ ভাল পারফরম্যান্সের জন্য "অতিরিক্ত" (চিনচিলা স্কেলিং আইনের তুলনায়)।[১৯৯] |
জিপিটি-৪ | মার্চ ২০২৩ | ওপেনএআই | অজ্ঞাত[ঙ] (গুজব অনুযায়ী: ১৭৬০)[২০২] | অজ্ঞাত | অজ্ঞাত | মালিকানাধীন | চ্যাটজিপিটি প্লাস ব্যবহারকারীদের জন্য উপলব্ধ এবং বেশ কয়েকটি পণ্যে ব্যবহৃত। |
ক্যামিলিওন | জুন ২০২৪ | মেটা এআই | ৩৪[২০৩] | ৪.৪ ট্রিলিয়ন | |||
সেরিব্রাস-জিপিটি | মার্চ ২০২৩ | সেরেব্রাস | ১৩[২০৪] | ২৭০[১৭২] | অ্যাপাচি ২.০ | চিনচিলা সূত্র দিয়ে প্রশিক্ষিত। | |
ফ্যালকন | মার্চ ২০২৩ | টেকনোলজি ইনোভেশন ইনস্টিটিউট | ৪০[২০৫] | ১ ট্রিলিয়ন টোকেন, রিফাইন্ডওয়েব থেকে (ফিল্টার করা ওয়েব টেক্সট কর্পাস)[২০৬] সাথেসাথে কিছু "কিউরেটেড কর্পোরা"।[২০৭] | ২৮০০[২০০] | অ্যাপাচি ২.০[২০৮] | |
ব্লুমবার্গজিপিটি | মার্চ ২০২৩ | ব্লুমবার্গ এলপি | ৫০ | ৩৬৩ বিলিয়ন টোকেনের একটি ডেটাসেট, যা ব্লুমবার্গের ডেটা উৎসের উপর ভিত্তি করে তৈরি, এছাড়াও সাধারণ উদ্দেশ্যের ডেটাসেট থেকে ৩৪৫ বিলিয়ন টোকেন।[২০৯] | মালিকানাধীন | আর্থিক কাজের জন্য মালিকানাধীন উৎস থেকে আর্থিক তথ্যের উপর প্রশিক্ষিত। | |
প্যানগু-Σ | মার্চ ২০২৩ | হুয়াওয়েই | ১০৮৫ | ৩২৯ বিলিয়ন টোকেন[২১০] | মালিকানাধীন | ||
ওপেনঅ্যাসিস্টেন্ট[২১১] | মার্চ ২০২৩ | লাইওন | ১৭ | ১.৫ ট্রিলিয়ন টোকেন | অ্যাপাচি ২.০ | ক্রাউডসোর্সড ওপেন ডেটার উপর প্রশিক্ষিত | |
জুরাসিক-২[২১২] | মার্চ ২০২৩ | এআই২১ ল্যাবস | অজ্ঞাত | অজ্ঞাত | মালিকানাধীন | বহুভাষিক[২১৩] | |
পালম ২ (পাথওয়েস ভাষা মডেল ২) | মে ২০২৩ | গুগল | ৩৪০[২১৪] | ৩.৬ ট্রিলিয়ন টোকেন[২১৪] | ৮৫,০০০[২০০] | মালিকানাধীন | বার্ড চ্যাটবটে ব্যবহৃত হয়েছিল[২১৫] |
লামা ২ | জুলাই ২০২৩ | মেটা এআই | ৭০[২১৬] | ২ ট্রিলিয়ন টোকেন[২১৬] | ২১,০০০ | লামা ২ লাইসেন্স | ১.৭ মিলিয়ন প্রতি এ১০০-ঘন্টা।[২১৭] |
ক্লড ২ | জুলাই ২০২৩ | অ্যানথ্রোপিক | অজ্ঞাত | অজ্ঞাত | অজ্ঞাত | মালিকানাধীন | ক্লড চ্যাটবটে ব্যবহৃত হয়েছিল[২১৮] |
গ্রানাইট ১৩বি | জুলাই ২০২৩ | আইবিএম | অজ্ঞাত | অজ্ঞাত | অজ্ঞাত | মালিকানাধীন | আইবিএম ওয়াটসনক্সে ব্যবহৃত হয়েছিল।[২১৯] |
মিস্ট্রাল ৭বি | সেপ্টেম্বর ২০২৩ | মিস্ট্রাল এআই | ৭.৩[২২০] | অজ্ঞাত | অ্যাপাচি ২.০ | ||
ক্লড ২.১ | নভেম্বর ২০২৩ | অ্যানথ্রোপিক | অজ্ঞাত | অজ্ঞাত | অজ্ঞাত | মালিকানাধীন | ক্লড চ্যাটবটে ব্যবহার করা হয়। ২০০,০০০ টোকেন বা ~৫০০ পৃষ্ঠার একটি প্রসঙ্গ উইন্ডো আছে।[২২১] |
গ্রোক-১[২২২] | নভেম্বর ২০২৩ | এক্স.এআই | ৩১৪ | অজ্ঞাত | অজ্ঞাত | অ্যাপাচি ২.০ | গ্রোক চ্যাটবটে ব্যবহার করা হয়েছিল। গ্রোক-১ এর প্রসঙ্গ দৈর্ঘ্য ৮,১৯২ টোকেন এবং এক্সেক্স (টুইটার) রয়েছে।[২২৩] |
জেমিনি ১.০ | ডিসেম্বর ২০২৩ | গুগল ডিপমাইন্ড | অজ্ঞাত | অজ্ঞাত | অজ্ঞাত | মালিকানাধীন | মাল্টিমোডাল মডেল, তিনটি আকারে আসে। একই নামের চ্যাটবটে ব্যবহৃত।[২২৪] |
মিক্সট্রাল ৮এক্স৭বি | ডিসেম্বর ২০২৩ | মিস্ট্রাল এআই | ৪৬.৭ | অজ্ঞাত | অজ্ঞাত | অ্যাপাচি ২.০ | অনেক বেঞ্চমার্কে জিপিটি-৩.৫ এবং লামা ২ ৭০বিকে ছাড়িয়ে যায়।[২২৫] প্রতি টোকেন সক্রিয় ১২.৯ বিলিয়ন প্যারামিটারসহ বিশেষজ্ঞ মডেলের মিশ্রণ।[২২৬] |
মিক্সট্রাল ৮এক্স২২বি | এপ্রিল ২০২৪ | মিস্ট্রাল এআই | ১৪১ | অজ্ঞাত | অজ্ঞাত | অ্যাপাচি ২.০ | [২২৭] |
ফি-২ | ডিসেম্বর ২০২৩ | মাইক্রোসফট | ২.৭ | ১.৪ট্রিলিয়ন টোকেন | ৪১৯[২২৮] | এমআইটি | ৯৬ এ১০০ জিপিউতে ১৪ দিনের জন্য বাস্তব "সিন্থেটিক "পাঠ্যপুস্তক-গুণমান" ডেটার উপর প্রশিক্ষিত।[২২৮] |
জেমিনি ১.৫ | ফেব্রুয়ারি ২০২৪ | গুগল ডিপমাইন্ড | অজ্ঞাত | অজ্ঞাত | অজ্ঞাত | মালিকানাধীন | মাল্টিমোডাল মডেল, একটি মিক্সচার-অফ-এক্সপার্টস (এমওই) স্থাপত্যের উপর ভিত্তি করে। ১ মিলিয়ন টোকেনের উপরে প্রসঙ্গ উইন্ডো।[২২৯] |
জেমিনি আল্ট্রা | ফেব্রুয়ারি ২০২৪ | গুগল ডিপমাইন্ড | অজ্ঞাত | অজ্ঞাত | অজ্ঞাত | ||
জেমা | ফেব্রুয়ারি ২০২৪ | গুগল ডিপমাইন্ড | ৭ | ৬ট্রিলিয়ন টোকেন | অজ্ঞাত | জেমা ব্যবহারের শর্তাবলী[২৩০] | |
ক্লড ৩ | মার্চ ২০২৪ | অ্যানথ্রোপিক | অজ্ঞাত | অজ্ঞাত | অজ্ঞাত | মালিকানাধীন | তিনটি মডেল অন্তর্ভুক্ত, হাইকু, সনেট এবং ওপাস।[২৩১] |
নোভা | অক্টোবর ২০২৪ | রুবিকস এআই | অজ্ঞাত | অজ্ঞাত | অজ্ঞাত | মালিকানাধীন | তিনটি মডেল অন্তর্ভুক্ত, নোভা-ইনস্ট্যান্ট, নোভা-এয়ার এবং নোভা-প্রো। |
ডিবিআরএক্স | মার্চ ২০২৪ | ডেটাব্রিকস এবং মোজাইক এমএল | ১৩৬ | ১২ট্রিলিয়ন টোকেন | ডেটাব্রিকস উন্মুক্ত মডেল লাইসেন্স | প্রশিক্ষণ খরচ ১০ মিলিয়ন মার্কিন ডলার। | |
ফুগাকু-এলএলএম | মে ২০২৪ | ফুজিৎসু, টোকিও ইনস্টিটিউট অফ টেকনোলজি, ইত্যাদি। | ১৩ | ৩৮০বিলিয়ন টোকেন | ফুগাকুতে শুধুমাত্র সিপিইউতে প্রশিক্ষিত সবচেয়ে বড় মডেল।[২৩২] | ||
ফি-৩ | এপ্রিল ২০২৪ | মাইক্রোসফট | ১৪[২৩৩] | ৪.৮ট্রিলিয়ন টোকেন | এমআইটি | মাইক্রোসফট এটিকে "ছোট ভাষা মডেল" হিসাবে বাজারজাত করেছে।[২৩৪] | |
গ্রানাইট কোড মডেল | মে ২০২৪ | আইবিএম | অজ্ঞাত | অজ্ঞাত | অজ্ঞাত | অ্যাপাচি ২.০ | |
কিউওয়েন২ | জুন ২০২৪ | আলিবাবা ক্লাউড | ৭২[২৩৫] | ৩ট্রিলিয়ন টোকেন | একাধিক মাপ, সবচেয়ে ছোট হচ্ছে ০.৫বি। | ||
নিমোট্রন-৪ | জুন ২০২৪ | এনভিডিয়া | ৩৪০ | ৯ট্রিলিয়ন টোকেন | ২০০,০০০ | এনভিডিয়া ওপেন মডেল লাইসেন্স | ১ যুগের জন্য প্রশিক্ষিত। ডিসেম্বর ২০২৩ থেকে মে ২০২৪ এর মধ্যে ৬১৪৪ এইচ১০০ জিপিউতে প্রশিক্ষণ দেওয়া হয়েছে।[২৩৬][২৩৭] |
লামা ৩.১ | জুলাই ২০২৪ | মেটা এআই | ৪০৫ | ১৫.৬ট্রিলিয়ন টোকেন | ৪৪০,০০০ | লামা ৩ লাইসেন্স | ৪০৫বি সংস্করণ এইচ১০০-৮০জিবিতে ৩১ মিলিয়ন ঘন্টা সময় নিয়েছে, ৩.৮ই২৫ ফ্লপে।[২৩৮][২৩৯] |
আরও দেখুন
[সম্পাদনা]পাদটীকা
[সম্পাদনা]- ↑ এই তারিখে মডেলের আর্কিটেকচার বর্ণনাকারী নথি প্রথম প্রকাশিত হয়েছিল
- ↑ অনেকক্ষেত্রে, গবেষকরা বিভিন্ন আকারের মডেলের একাধিক সংস্করণ প্রকাশ বা রিপোর্ট করেন।এই ক্ষেত্রে, বৃহত্তম মডেলের আকার এখানে তালিকাভুক্ত করা হয়।
- ↑ ৬৬বিসহ ছোট মডেলগুলি সর্বজনীনভাবে উপলব্ধ, আর ১৭৫বি মডেল অনুরোধে উপলব্ধ।
- ↑ ফেসবুকের লাইসেন্স এবং ডিস্ট্রিবিউশন স্কিম অনুমোদিত গবেষকদের প্রবেশাধিকারে সীমাবদ্ধ করে, কিন্তু মডেলের ওজন ফাঁস হয়ে যায় এবং ব্যাপকভাবে উপলব্ধ হয়ে যায়।
- ↑ প্রযুক্তিগত প্রতিবেদনে উল্লেখ করা হয়েছে: "প্রতিযোগিতামূলক পরিবেশ এবং জিপিটি-৪ এর মতো বৃহৎ স্কেলের মডেলের নিরাপত্তাজনিত বিষয়গুলো বিবেচনা করে, এই প্রতিবেদনে স্থাপত্য (মডেলের আকারসহ), হার্ডওয়্যার, প্রশিক্ষণ কম্পিউট, ডেটাসেট নির্মাণ, প্রশিক্ষণ পদ্ধতি ইত্যাদি সম্পর্কে কোনো অতিরিক্ত তথ্য অন্তর্ভুক্ত করা হয়নি ..."[২০১]
তথ্যসূত্র
[সম্পাদনা]- ↑ ঘোষ, আস্তিক (২০২৩-০৭-১৩)। "হরপ্পার ভাষা পাঠোদ্ধার করবে ChatGPT! জানা যাবে ভারতের নতুন ইতিহাস?"। এই সময় Online। সংগ্রহের তারিখ ২০২৪-১১-২৬।
- ↑ ইফরাত, হৃদিতা (২৬ জুলাই ২০২৩)। "মনুষ্যত্ব মানবতাকে ধ্বংস করে দিতে পারে এআই!"। দৈনিক যুগান্তর। সংগ্রহের তারিখ ২৬ নভেম্বর ২০২৪।
- ↑ তন্ময়, শামস রশিদ (২০২৩-০৩-০১)। "বাংলা ভাষার চ্যাটজিপিটি 'আলাপচারী'"। দ্য ডেইলি স্টার (ইংরেজি ভাষায়)। সংগ্রহের তারিখ ২০২৪-১১-২৬।
- ↑ "Better Language Models and Their Implications"। OpenAI। ২০১৯-০২-১৪। ২০২০-১২-১৯ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০১৯-০৮-২৫।
- ↑ ক খ গ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (ডিসে ২০২০)। Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H., সম্পাদকগণ। "Language Models are Few-Shot Learners" (পিডিএফ)। Advances in Neural Information Processing Systems। Curran Associates, Inc.। 33: 1877–1901। ২০২৩-১১-১৭ তারিখে মূল (পিডিএফ) থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৩-১৪।
- ↑ Fathallah, Nadeen; Das, Arunav; De Giorgis, Stefano; Poltronieri, Andrea; Haase, Peter; Kovriguina, Liubov (২০২৪-০৫-২৬)। NeOn-GPT: A Large Language Model-Powered Pipeline for Ontology Learning (পিডিএফ)। Extended Semantic Web Conference 2024। Hersonissos, Greece।
- ↑ ক খ Manning, Christopher D. (২০২২)। "Human Language Understanding & Reasoning"। Daedalus। 151 (2): 127–138। এসটুসিআইডি 248377870 Check
|s2cid=
value (সাহায্য)। ডিওআই:10.1162/daed_a_01905 । ২০২৩-১১-১৭ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৩-০৯। - ↑ Goodman, Joshua (২০০১-০৮-০৯), A Bit of Progress in Language Modeling, arXiv:cs/0108005 , বিবকোড:2001cs........8005G
- ↑ Kilgarriff, Adam; Grefenstette, Gregory (সেপ্টেম্বর ২০০৩)। "Introduction to the Special Issue on the Web as Corpus"। Computational Linguistics। 29 (3): 333–347। আইএসএসএন 0891-2017। ডিওআই:10.1162/089120103322711569।
- ↑ Banko, Michele; Brill, Eric (২০০১)। "Scaling to very very large corpora for natural language disambiguation"। Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL '01। Morristown, NJ, USA: Association for Computational Linguistics: 26–33। ডিওআই:10.3115/1073012.1073017।
- ↑ Resnik, Philip; Smith, Noah A. (সেপ্টেম্বর ২০০৩)। "The Web as a Parallel Corpus"। Computational Linguistics। 29 (3): 349–380। আইএসএসএন 0891-2017। ডিওআই:10.1162/089120103322711578 । ২০২৪-০৬-০৭ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৬-০৭।
- ↑ Halevy, Alon; Norvig, Peter; Pereira, Fernando (মার্চ ২০০৯)। "The Unreasonable Effectiveness of Data"। IEEE Intelligent Systems। 24 (2): 8–12। আইএসএসএন 1541-1672। ডিওআই:10.1109/MIS.2009.36।
- ↑ Chen, Leiyu; Li, Shaobo; Bai, Qiang; Yang, Jing; Jiang, Sanlong; Miao, Yanming (২০২১)। "Review of Image Classification Algorithms Based on Convolutional Neural Networks"। Remote Sensing। 13 (22): 4712। ডিওআই:10.3390/rs13224712 । বিবকোড:2021RemS...13.4712C।
- ↑ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (২০১৭)। "Attention is All you Need" (পিডিএফ)। Advances in Neural Information Processing Systems। Curran Associates, Inc.। 30। ২০২৪-০২-২১ তারিখে মূল (পিডিএফ) থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০১-২১।
- ↑ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (২০১৪)। "Neural Machine Translation by Jointly Learning to Align and Translate"। arXiv:1409.0473 [cs.CL]।
- ↑ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (২০২০)। "A Primer in BERTology: What We Know About How BERT Works"। Transactions of the Association for Computational Linguistics। 8: 842–866। arXiv:2002.12327 । এসটুসিআইডি 211532403। ডিওআই:10.1162/tacl_a_00349। ২০২২-০৪-০৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০১-২১।
- ↑ Hern, Alex (১৪ ফেব্রুয়ারি ২০১৯)। "New AI fake text generator may be too dangerous to release, say creators"। The Guardian। ১৪ ফেব্রুয়ারি ২০১৯ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০ জানুয়ারি ২০২৪।
- ↑ "ChatGPT a year on: 3 ways the AI chatbot has completely changed the world in 12 months"। Euronews। নভেম্বর ৩০, ২০২৩। জানুয়ারি ১৪, ২০২৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ জানুয়ারি ২০, ২০২৪।
- ↑ Heaven, Will (মার্চ ১৪, ২০২৩)। "GPT-4 is bigger and better than ChatGPT—but OpenAI won't say why"। MIT Technology Review। মার্চ ১৭, ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ জানুয়ারি ২০, ২০২৪।
- ↑ "Parameters in notable artificial intelligence systems"। ourworldindata.org। নভেম্বর ৩০, ২০২৩। সংগ্রহের তারিখ জানুয়ারি ২০, ২০২৪।
- ↑ "LMSYS Chatbot Arena Leaderboard"। huggingface.co। জুন ১০, ২০২৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ জুন ১২, ২০২৪।
- ↑ Peng, Bo; ও অন্যান্য (২০২৩)। "RWKV: Reinventing RNNS for the Transformer Era"। arXiv:2305.13048 [cs.CL]।
- ↑ Merritt, Rick (২০২২-০৩-২৫)। "What Is a Transformer Model?"। NVIDIA Blog। ২০২৩-১১-১৭ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৭-২৫।
- ↑ Gu, Albert; Dao, Tri (২০২৩-১২-০১), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752
- ↑ Kaushal, Ayush; Mahowald, Kyle (২০২২-০৬-০৬), What do tokens know about their characters and how do they know it?, arXiv:2206.02608
- ↑ Yennie Jun (২০২৩-০৫-০৩)। "All languages are NOT created (tokenized) equal"। Language models cost much more in some languages than others। ২০২৩-০৮-১৭ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৮-১৭।
In other words, to express the same sentiment, some languages require up to 10 times more tokens.
- ↑ Petrov, Aleksandar; Malfa, Emanuele La; Torr, Philip; Bibi, Adel (জুন ২৩, ২০২৩)। "Language Model Tokenizers Introduce Unfairness Between Languages"। NeurIPS। arXiv:2305.15425 । ডিসেম্বর ১৫, ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ সেপ্টেম্বর ১৬, ২০২৩ – openreview.net-এর মাধ্যমে।
- ↑ "OpenAI API"। platform.openai.com। এপ্রিল ২৩, ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৪-৩০।
- ↑ ক খ Paaß, Gerhard; Giesselbach, Sven (২০২২)। "Pre-trained Language Models"। Foundation Models for Natural Language Processing। Artificial Intelligence: Foundations, Theory, and Algorithms। পৃষ্ঠা 19–78। আইএসবিএন 9783031231902। ডিওআই:10.1007/978-3-031-23190-2_2। ৩ আগস্ট ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ৩ আগস্ট ২০২৩।
- ↑ Petrov, Aleksandar; Emanuele La Malfa; Torr, Philip H. S.; Bibi, Adel (২০২৩)। "Language Model Tokenizers Introduce Unfairness Between Languages"। arXiv:2305.15425 [cs.CL]।
- ↑ Lundberg, Scott (২০২৩-১২-১২)। "The Art of Prompt Design: Prompt Boundaries and Token Healing"। Medium (ইংরেজি ভাষায়)। সংগ্রহের তারিখ ২০২৪-০৮-০৫।
- ↑ Dodge, Jesse; Sap, Maarten; Marasović, Ana; Agnew, William; Ilharco, Gabriel; Groeneveld, Dirk; Mitchell, Margaret; Gardner, Matt (২০২১)। "Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus"। arXiv:2104.08758 [cs.CL]।
- ↑ Lee, Katherine; Ippolito, Daphne; Nystrom, Andrew; Zhang, Chiyuan; Eck, Douglas; Callison-Burch, Chris; Carlini, Nicholas (মে ২০২২)। "Deduplicating Training Data Makes Language Models Better" (পিডিএফ)। Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics। 1: Long Papers: 8424–8445। ডিওআই:10.18653/v1/2022.acl-long.577।
- ↑ Li, Yuanzhi; Bubeck, Sébastien; Eldan, Ronen; Del Giorno, Allie; Gunasekar, Suriya; Lee, Yin Tat (২০২৩-০৯-১১), Textbooks Are All You Need II: phi-1.5 technical report, arXiv:2309.05463
- ↑ Lin, Zhenghao; Gou, Zhibin; Gong, Yeyun; Liu, Xiao; Shen, Yelong; Xu, Ruochen; Lin, Chen; Yang, Yujiu; Jiao, Jian (২০২৪-০৪-১১)। "Rho-1: Not All Tokens Are What You Need"। arXiv:2404.07965 [cs.CL]।
- ↑ Brown, Tom B.; ও অন্যান্য (২০২০)। "Language Models are Few-Shot Learners"। arXiv:2005.14165 [cs.CL]।
- ↑ Abdin, Marah; Jacobs, Sam Ade; Awan, Ammar Ahmad; Aneja, Jyoti; Awadallah, Ahmed; Awadalla, Hany; Bach, Nguyen; Bahree, Amit; Bakhtiari, Arash (২০২৪-০৪-২৩)। "Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone"। arXiv:2404.14219 [cs.CL]।
- ↑ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie; Askell, Amanda; Welinder, Peter; Christiano, Paul; Leike, Jan; Lowe, Ryan (২০২২)। "Training language models to follow instructions with human feedback"। arXiv:2203.02155 [cs.CL]।
- ↑ Wang, Yizhong; Kordi, Yeganeh; Mishra, Swaroop; Liu, Alisa; Smith, Noah A.; Khashabi, Daniel; Hajishirzi, Hannaneh (২০২২)। "Self-Instruct: Aligning Language Model with Self Generated Instructions"। arXiv:2212.10560 [cs.CL]।
- ↑ Shazeer, Noam; Mirhoseini, Azalia; Maziarz, Krzysztof; Davis, Andy; Le, Quoc; Hinton, Geoffrey; Dean, Jeff (২০১৭-০১-০১)। "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer"। arXiv:1701.06538 [cs.LG]।
- ↑ Lepikhin, Dmitry; Lee, HyoukJoong; Xu, Yuanzhong; Chen, Dehao; Firat, Orhan; Huang, Yanping; Krikun, Maxim; Shazeer, Noam; Chen, Zhifeng (২০২১-০১-১২)। "GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding"। arXiv:2006.16668 [cs.CL]।
- ↑ ক খ গ ঘ Dai, Andrew M; Du, Nan (ডিসেম্বর ৯, ২০২১)। "More Efficient In-Context Learning with GLaM"। ai.googleblog.com। ২০২৩-০৩-১২ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৩-০৯।
- ↑ ক খ গ Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William (৩১ আগস্ট ২০২২)। "Emergent Abilities of Large Language Models"। Transactions on Machine Learning Research। আইএসএসএন 2835-8856। ২২ মার্চ ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১৯ মার্চ ২০২৩।
- ↑ Allamar, Jay। "Illustrated transformer"। ২০২৩-০৭-২৫ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৭-২৯।
- ↑ Allamar, Jay। "The Illustrated GPT-2 (Visualizing Transformer Language Models)"। সংগ্রহের তারিখ ২০২৩-০৮-০১।
- ↑ "Our next-generation model: Gemini 1.5"। Google। ১৫ ফেব্রুয়ারি ২০২৪। ১৮ ফেব্রুয়ারি ২০২৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১৮ ফেব্রুয়ারি ২০২৪।
- ↑ "Long context prompting for Claude 2.1"। ডিসেম্বর ৬, ২০২৩। আগস্ট ২৭, ২০২৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ জানুয়ারি ২০, ২০২৪।
- ↑ "Rate limits"। openai.com। ফেব্রুয়ারি ২, ২০২৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ জানুয়ারি ২০, ২০২৪।
- ↑ Zaib, Munazza; Sheng, Quan Z.; Emma Zhang, Wei (৪ ফেব্রুয়ারি ২০২০)। "A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP"। Proceedings of the Australasian Computer Science Week Multiconference। পৃষ্ঠা 1–4। arXiv:2104.10810 । আইএসবিএন 9781450376976। এসটুসিআইডি 211040895। ডিওআই:10.1145/3373017.3373028।
- ↑ ক খ গ Jurafsky, Dan; Martin, James H. (৭ জানুয়ারি ২০২৩)। Speech and Language Processing (পিডিএফ) (3rd edition draft সংস্করণ)। ২৩ মার্চ ২০২৩ তারিখে মূল (পিডিএফ) থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২৪ মে ২০২২।
- ↑ "From bare metal to a 70B model: infrastructure set-up and scripts"। imbue.com (ইংরেজি ভাষায়)। ২০২৪-০৭-২৬ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৭-২৪।
- ↑ "metaseq/projects/OPT/chronicles at main · facebookresearch/metaseq"। GitHub (ইংরেজি ভাষায়)। ২০২৪-০১-২৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৭-২৪।
- ↑ Albrecht, Josh (২০২৪-০৭-২৩)। "State of the Art: Training >70B LLMs on 10,000 H100 clusters"। www.latent.space (ইংরেজি ভাষায়)। সংগ্রহের তারিখ ২০২৪-০৭-২৪।
- ↑ ক খ Wiggers, Kyle (২৮ এপ্রিল ২০২২)। "The emerging types of language models and why they matter"। TechCrunch। ১৬ মার্চ ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ৯ মার্চ ২০২৩।
- ↑ Sharir, Or; Peleg, Barak; Shoham, Yoav (২০২০)। "The Cost of Training NLP Models: A Concise Overview"। arXiv:2004.08900 [cs.CL]।
- ↑ Biderman, Stella; Schoelkopf, Hailey; Anthony, Quentin; Bradley, Herbie; Khan, Mohammad Aflah; Purohit, Shivanshu; Prashanth, USVSN Sai (এপ্রিল ২০২৩)। "Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling"। arXiv:2304.01373 [cs.CL]।
- ↑ Maslej, Nestor; Fattorini, Loredana; Brynjolfsson, Erik; Etchemendy, John; Ligett, Katrina; Lyons, Terah; Manyika, James; Ngo, Helen; Niebles, Juan Carlos (২০২৩-১০-০৫), Artificial Intelligence Index Report 2023, arXiv:2310.03715
- ↑ ক খ Section 2.1 and Table 1, Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario (২০২০)। "Scaling Laws for Neural Language Models"। arXiv:2001.08361 [cs.LG]।
- ↑ Gao, Luyu; Madaan, Aman; Zhou, Shuyan; Alon, Uri; Liu, Pengfei; Yang, Yiming; Callan, Jamie; Neubig, Graham (২০২২-১১-০১)। "PAL: Program-aided Language Models"। arXiv:2211.10435 [cs.CL]।
- ↑ "PAL: Program-aided Language Models"। reasonwithpal.com। ২০২৩-০৬-১২ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৬-১২।
- ↑ Paranjape, Bhargavi; Lundberg, Scott; Singh, Sameer; Hajishirzi, Hannaneh; Zettlemoyer, Luke; Tulio Ribeiro, Marco (২০২৩-০৩-০১)। "ART: Automatic multi-step reasoning and tool-use for large language models"। arXiv:2303.09014 [cs.CL]।
- ↑ Patil, Shishir G.; Zhang, Tianjun; Wang, Xin; Gonzalez, Joseph E. (২০২৩-০৫-০১)। "Gorilla: Large Language Model Connected with Massive APIs"। arXiv:2305.15334 [cs.CL]।
- ↑ Liang, Yaobo; Wu, Chenfei; Song, Ting; Wu, Wenshan; Xia, Yan; Liu, Yu; Ou, Yang; Lu, Shuai; Ji, Lei; Mao, Shaoguang; Wang, Yun; Shou, Linjun; Gong, Ming; Duan, Nan (২০২৩-০৩-০১)। "TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs"। arXiv:2303.16434 [cs.AI]।
- ↑ Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich; Lewis, Mike; Yih, Wen-tau; Rocktäschel, Tim; Riedel, Sebastian; Kiela, Douwe (২০২০)। "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks"। Advances in Neural Information Processing Systems। Curran Associates, Inc.। 33: 9459–9474। arXiv:2005.11401 । ২০২৩-০৬-১২ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৬-১২।
- ↑ "The Growth Behind LLM-based Autonomous Agents"। KDnuggets। অক্টোবর ২৩, ২০২৩।
- ↑ Yao, Shunyu; Zhao, Jeffrey; Yu, Dian; Du, Nan; Shafran, Izhak; Narasimhan, Karthik; Cao, Yuan (২০২২-১০-০১)। "ReAct: Synergizing Reasoning and Acting in Language Models"। arXiv:2210.03629 [cs.CL]।
- ↑ Wu, Yue; Prabhumoye, Shrimai; Min, So Yeon (২৪ মে ২০২৩)। "SPRING: GPT-4 Out-performs RL Algorithms by Studying Papers and Reasoning"। arXiv:2305.15486 [cs.AI]।
- ↑ Wang, Zihao; Cai, Shaofei; Liu, Anji; Ma, Xiaojian; Liang, Yitao (২০২৩-০২-০৩)। "Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents"। arXiv:2302.01560 [cs.AI]।
- ↑ Shinn, Noah; Cassano, Federico; Labash, Beck; Gopinath, Ashwin; Narasimhan, Karthik; Yao, Shunyu (২০২৩-০৩-০১)। "Reflexion: Language Agents with Verbal Reinforcement Learning"। arXiv:2303.11366 [cs.AI]।
- ↑ Hao, Shibo; Gu, Yi; Ma, Haodi; Jiahua Hong, Joshua; Wang, Zhen; Zhe Wang, Daisy; Hu, Zhiting (২০২৩-০৫-০১)। "Reasoning with Language Model is Planning with World Model"। arXiv:2305.14992 [cs.CL]।
- ↑ Zhang, Jenny; Lehman, Joel; Stanley, Kenneth; Clune, Jeff (২ জুন ২০২৩)। "OMNI: Open-endedness via Models of human Notions of Interestingness"। arXiv:2306.01711 [cs.AI]।
- ↑ ক খ "Voyager | An Open-Ended Embodied Agent with Large Language Models"। voyager.minedojo.org। ২০২৩-০৬-০৮ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৬-০৯।
- ↑ Park, Joon Sung; O'Brien, Joseph C.; Cai, Carrie J.; Ringel Morris, Meredith; Liang, Percy; Bernstein, Michael S. (২০২৩-০৪-০১)। "Generative Agents: Interactive Simulacra of Human Behavior"। arXiv:2304.03442 [cs.HC]।
- ↑ Mann, Tobias। "How to run an LLM locally on your PC in less than 10 minutes"। www.theregister.com। সংগ্রহের তারিখ ২০২৪-০৫-১৭।
- ↑ Nagel, Markus; Amjad, Rana Ali; Baalen, Mart Van; Louizos, Christos; Blankevoort, Tijmen (২০২০-১১-২১)। "Up or Down? Adaptive Rounding for Post-Training Quantization"। Proceedings of the 37th International Conference on Machine Learning। PMLR: 7197–7206। ২০২৩-০৬-১৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৬-১৪।
- ↑ Polino, Antonio; Pascanu, Razvan; Alistarh, Dan (২০১৮-০২-০১)। "Model compression via distillation and quantization"। arXiv:1802.05668 [cs.NE]।
- ↑ Frantar, Elias; Ashkboos, Saleh; Hoefler, Torsten; Alistarh, Dan (২০২২-১০-০১)। "GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers"। arXiv:2210.17323 [cs.LG]।
- ↑ Dettmers, Tim; Svirschevski, Ruslan; Egiazarian, Vage; Kuznedelev, Denis; Frantar, Elias; Ashkboos, Saleh; Borzunov, Alexander; Hoefler, Torsten; Alistarh, Dan (২০২৩-০৬-০১)। "SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression"। arXiv:2306.03078 [cs.CL]।
- ↑ Grootendorst, Maarten। "A Visual Guide to Quantization"। newsletter.maartengrootendorst.com (ইংরেজি ভাষায়)। ৩১ জুলাই ২০২৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৭-৩১।
- ↑ Dettmers, Tim; Pagnoni, Artidoro; Holtzman, Ari; Zettlemoyer, Luke (২০২৩-০৫-০১)। "QLoRA: Efficient Finetuning of Quantized LLMs"। arXiv:2305.14314 [cs.LG]।
- ↑ Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Rich (২০১৪-০৬-১৮)। "Multimodal Neural Language Models"। Proceedings of the 31st International Conference on Machine Learning। PMLR: 595–603। ২০২৩-০৭-০২ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৭-০২।
- ↑ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E (২০১২)। "ImageNet Classification with Deep Convolutional Neural Networks"। Advances in Neural Information Processing Systems। Curran Associates, Inc.। 25। ২০২৩-০৭-০২ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৭-০২।
- ↑ Antol, Stanislaw; Agrawal, Aishwarya; Lu, Jiasen; Mitchell, Margaret; Batra, Dhruv; Zitnick, C. Lawrence; Parikh, Devi (২০১৫)। "VQA: Visual Question Answering"। ICCV: 2425–2433। ২০২৩-০৭-০২ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৭-০২।
- ↑ Li, Junnan; Li, Dongxu; Savarese, Silvio; Hoi, Steven (২০২৩-০১-০১)। "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models"। arXiv:2301.12597 [cs.CV]।
- ↑ Alayrac, Jean-Baptiste; Donahue, Jeff; Luc, Pauline; Miech, Antoine; Barr, Iain; Hasson, Yana; Lenc, Karel; Mensch, Arthur; Millican, Katherine; Reynolds, Malcolm; Ring, Roman; Rutherford, Eliza; Cabi, Serkan; Han, Tengda; Gong, Zhitao (২০২২-১২-০৬)। "Flamingo: a Visual Language Model for Few-Shot Learning"। Advances in Neural Information Processing Systems। 35: 23716–23736। arXiv:2204.14198 । ২০২৩-০৭-০২ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৭-০২।
- ↑ Driess, Danny; Xia, Fei; Sajjadi, Mehdi S. M.; Lynch, Corey; Chowdhery, Aakanksha; Ichter, Brian; Wahid, Ayzaan; Tompson, Jonathan; Vuong, Quan; Yu, Tianhe; Huang, Wenlong; Chebotar, Yevgen; Sermanet, Pierre; Duckworth, Daniel; Levine, Sergey (২০২৩-০৩-০১)। "PaLM-E: An Embodied Multimodal Language Model"। arXiv:2303.03378 [cs.LG]।
- ↑ Liu, Haotian; Li, Chunyuan; Wu, Qingyang; Lee, Yong Jae (২০২৩-০৪-০১)। "Visual Instruction Tuning"। arXiv:2304.08485 [cs.CV]।
- ↑ Zhang, Hang; Li, Xin; Bing, Lidong (২০২৩-০৬-০১)। "Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding"। arXiv:2306.02858 [cs.CL]।
- ↑ OpenAI (২০২৩-০৩-২৭)। "GPT-4 Technical Report"। arXiv:2303.08774 [cs.CL]।
- ↑ OpenAI (সেপ্টেম্বর ২৫, ২০২৩)। "GPT-4V(ision) System Card" (পিডিএফ)।
- ↑ Pichai, Sundar (১০ মে ২০২৩), Google Keynote (Google I/O '23), timestamp 15:31, সংগ্রহের তারিখ ২০২৩-০৭-০২
- ↑ Wiggers, Kyle (১১ সেপ্টেম্বর ২০২৪)। "Mistral releases Pixtral 12B, its first multimodal model"। TechCrunch। সংগ্রহের তারিখ ১৪ সেপ্টেম্বর ২০২৪।
- ↑ Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Buchatskaya, Elena; Cai, Trevor; Rutherford, Eliza; Casas, Diego de Las; Hendricks, Lisa Anne; Welbl, Johannes; Clark, Aidan; Hennigan, Tom; Noland, Eric; Millican, Katie; Driessche, George van den; Damoc, Bogdan (২০২২-০৩-২৯)। "Training Compute-Optimal Large Language Models"। arXiv:2203.15556 [cs.CL]।
- ↑ ক খ Caballero, Ethan; Gupta, Kshitij; Rish, Irina; Krueger, David (২০২২)। "Broken Neural Scaling Laws"। arXiv:2210.14891 [cs.LG]।
- ↑ "137 emergent abilities of large language models"। Jason Wei। সংগ্রহের তারিখ ২০২৩-০৬-২৪।
- ↑ Bowman, Samuel R. (২০২৩)। "Eight Things to Know about Large Language Models"। arXiv:2304.00612 [cs.CL]।
- ↑ Mukherjee, Anirban; Chang, Hannah (২০২৪)। "Heuristic Reasoning in AI: Instrumental Use and Mimetic Absorption"। arXiv:2403.09404 [cs.AI]।
- ↑ Hahn, Michael; Goyal, Navin (২০২৩-০৩-১৪)। "A Theory of Emergent In-Context Learning as Implicit Structure Induction"। arXiv:2303.07971 [cs.LG]।
- ↑ Pilehvar, Mohammad Taher; Camacho-Collados, Jose (জুন ২০১৯)। "Proceedings of the 2019 Conference of the North"। Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)। Minneapolis, Minnesota: Association for Computational Linguistics: 1267–1273। এসটুসিআইডি 102353817। ডিওআই:10.18653/v1/N19-1128। ২০২৩-০৬-২৭ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৬-২৭।
- ↑ "WiC: The Word-in-Context Dataset"। pilehvar.github.io। ২০২৩-০৬-২৭ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৬-২৭।
- ↑ Patel, Roma; Pavlick, Ellie (২০২১-১০-০৬)। "Mapping Language Models to Grounded Conceptual Spaces"। ICLR। ২০২৩-০৬-২৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৬-২৭।
- ↑ A Closer Look at Large Language Models Emergent Abilities ওয়েব্যাক মেশিনে আর্কাইভকৃত ২০২৩-০৬-২৪ তারিখে (Yao Fu, Nov 20, 2022)
- ↑ Ornes, Stephen (মার্চ ১৬, ২০২৩)। "The Unpredictable Abilities Emerging From Large AI Models"। Quanta Magazine। মার্চ ১৬, ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ মার্চ ১৬, ২০২৩।
- ↑ Schaeffer, Rylan; Miranda, Brando; Koyejo, Sanmi (২০২৩-০৪-০১)। "Are Emergent Abilities of Large Language Models a Mirage?"। arXiv:2304.15004 [cs.AI]।
- ↑ Li, Kenneth; Hopkins, Aspen K.; Bau, David; Viégas, Fernanda; Pfister, Hanspeter; Wattenberg, Martin (২০২২-১০-০১)। "Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task"। arXiv:2210.13382 [cs.LG]।
- ↑ "Large Language Model: world models or surface statistics?"। The Gradient। ২০২৩-০১-২১। সংগ্রহের তারিখ ২০২৩-০৬-১২।
- ↑ Jin, Charles; Rinard, Martin (২০২৩-০৫-০১)। "Evidence of Meaning in Language Models Trained on Programs"। arXiv:2305.11169 [cs.LG]।
- ↑ Nanda, Neel; Chan, Lawrence; Lieberum, Tom; Smith, Jess; Steinhardt, Jacob (২০২৩-০১-০১)। "Progress measures for grokking via mechanistic interpretability"। arXiv:2301.05217 [cs.LG]।
- ↑ ক খ গ ঘ ঙ Mitchell, Melanie; Krakauer, David C. (২৮ মার্চ ২০২৩)। "The debate over understanding in AI's large language models"। Proceedings of the National Academy of Sciences। 120 (13): e2215907120। arXiv:2210.13966 । ডিওআই:10.1073/pnas.2215907120। পিএমআইডি 36943882
|pmid=
এর মান পরীক্ষা করুন (সাহায্য)। পিএমসি 10068812|pmc=
এর মান পরীক্ষা করুন (সাহায্য)। বিবকোড:2023PNAS..12015907M। - ↑ Metz, Cade (১৬ মে ২০২৩)। "Microsoft Says New A.I. Shows Signs of Human Reasoning"। The New York Times।
- ↑ ক খ Bubeck, Sébastien; Chandrasekaran, Varun; Eldan, Ronen; Gehrke, Johannes; Horvitz, Eric; Kamar, Ece; Lee, Peter; Lee, Yin Tat; Li, Yuanzhi; Lundberg, Scott; Nori, Harsha; Palangi, Hamid; Ribeiro, Marco Tulio; Zhang, Yi (২০২৩)। "Sparks of Artificial General Intelligence: Early experiments with GPT-4"। arXiv:2303.12712 [cs.CL]।
- ↑ "Anthropic CEO Dario Amodei pens a smart look at our AI future"। Fast Company। অক্টোবর ১৭, ২০২৪।
- ↑ "ChatGPT is more like an 'alien intelligence' than a human brain, says futurist"। ZDNET। ২০২৩। ১২ জুন ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১২ জুন ২০২৩।
- ↑ ক খ Newport, Cal (১৩ এপ্রিল ২০২৩)। "What Kind of Mind Does ChatGPT Have?"। The New Yorker। ১২ জুন ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১২ জুন ২০২৩।
- ↑ "The A to Z of Artificial Intelligence"। Time Magazine। ১৩ এপ্রিল ২০২৩। ১৬ জুন ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১২ জুন ২০২৩।
- ↑ Roose, Kevin (৩০ মে ২০২৩)। "Why an Octopus-like Creature Has Come to Symbolize the State of A.I."। The New York Times। ৩০ মে ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১২ জুন ২০২৩।
- ↑ Ji, Ziwei; Lee, Nayeon; Frieske, Rita; Yu, Tiezheng; Su, Dan; Xu, Yan; Ishii, Etsuko; Bang, Yejin; Dai, Wenliang; Madotto, Andrea; Fung, Pascale (নভেম্বর ২০২২)। "Survey of Hallucination in Natural Language Generation"। ACM Computing Surveys। Association for Computing Machinery। 55 (12): 1–38। arXiv:2202.03629 । এসটুসিআইডি 246652372 Check
|s2cid=
value (সাহায্য)। ডিওআই:10.1145/3571730। ২৬ মার্চ ২০২৩ তারিখে মূল (pdf) থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১৫ জানুয়ারি ২০২৩। - ↑ Varshney, Neeraj; Yao, Wenlin; Zhang, Hongming; Chen, Jianshu; Yu, Dong (২০২৩)। "A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of LLMs by Validating Low-Confidence Generation"। arXiv:2307.03987 [cs.CL]।
- ↑ Lakoff, George (১৯৯৯)। Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Philosophy; Appendix: The Neural Theory of Language Paradigm। New York Basic Books। পৃষ্ঠা 569–583। আইএসবিএন 978-0-465-05674-3।
- ↑ "NTL | ICSI"। www.icsi.berkeley.edu। সংগ্রহের তারিখ ২০২৪-১১-২৯।
- ↑ Evans, Vyvyan. (২০১৪)। The Language Myth। Cambridge University Press। আইএসবিএন 978-1-107-04396-1।
- ↑ Friston, Karl J. (২০২২)। Active Inference: The Free Energy Principle in Mind, Brain, and Behavior; Chapter 4 The Generative Models of Active Inference। The MIT Press। আইএসবিএন 978-0-262-36997-8।
- ↑ ক খ Huyen, Chip (অক্টোবর ১৮, ২০১৯)। "Evaluation Metrics for Language Modeling"। The Gradient। সংগ্রহের তারিখ জানুয়ারি ১৪, ২০২৪।
- ↑ ক খ Clark, Christopher; Lee, Kenton; Chang, Ming-Wei; Kwiatkowski, Tom; Collins, Michael; Toutanova, Kristina (২০১৯)। "BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions"। arXiv:1905.10044 [cs.CL]।
- ↑ ক খ গ Wayne Xin Zhao; Zhou, Kun; Li, Junyi; Tang, Tianyi; Wang, Xiaolei; Hou, Yupeng; Min, Yingqian; Zhang, Beichen; Zhang, Junjie; Dong, Zican; Du, Yifan; Yang, Chen; Chen, Yushuo; Chen, Zhipeng; Jiang, Jinhao; Ren, Ruiyang; Li, Yifan; Tang, Xinyu; Liu, Zikang; Liu, Peiyu; Nie, Jian-Yun; Wen, Ji-Rong (২০২৩)। "A Survey of Large Language Models"। arXiv:2303.18223 [cs.CL]।
- ↑ openai/simple-evals, OpenAI, ২০২৪-০৫-২৮, সংগ্রহের তারিখ ২০২৪-০৫-২৮
- ↑ openai/evals, OpenAI, ২০২৪-০৫-২৮, ২০২৪-০৫-০৮ তারিখে মূল থেকে আর্কাইভ করা, সংগ্রহের তারিখ ২০২৪-০৫-২৮
- ↑ "Sanitized open-source datasets for natural language and code understanding: how we evaluated our 70B model"। imbue.com (ইংরেজি ভাষায়)। ২০২৪-০৭-২৬ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৭-২৪।
- ↑ Srivastava, Aarohi; ও অন্যান্য (২০২২)। "Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models"। arXiv:2206.04615 [cs.CL]।
- ↑ Lin, Stephanie; Hilton, Jacob; Evans, Owain (২০২১)। "TruthfulQA: Measuring How Models Mimic Human Falsehoods"। arXiv:2109.07958 [cs.CL]।
- ↑ ক খ Zellers, Rowan; Holtzman, Ari; Bisk, Yonatan; Farhadi, Ali; Choi, Yejin (২০১৯)। "HellaSwag: Can a Machine Really Finish Your Sentence?"। arXiv:1905.07830 [cs.CL]।
- ↑ "Prepare for truly useful large language models"। Nature Biomedical Engineering। 7 (2): 85–86। ৭ মার্চ ২০২৩। এসটুসিআইডি 257403466 Check
|s2cid=
value (সাহায্য)। ডিওআই:10.1038/s41551-023-01012-6। পিএমআইডি 36882584|pmid=
এর মান পরীক্ষা করুন (সাহায্য)। - ↑ "Your job is (probably) safe from artificial intelligence"। The Economist। ৭ মে ২০২৩। ১৭ জুন ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১৮ জুন ২০২৩।
- ↑ "Generative AI Could Raise Global GDP by 7%"। Goldman Sachs। ১৮ জুন ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১৮ জুন ২০২৩।
- ↑ Peng, Zhencan; Wang, Zhizhi; Deng, Dong (১৩ জুন ২০২৩)। "Near-Duplicate Sequence Search at Scale for Large Language Model Memorization Evaluation" (পিডিএফ)। Proceedings of the ACM on Management of Data। 1 (2): 1–18। এসটুসিআইডি 259213212 Check
|s2cid=
value (সাহায্য)। ডিওআই:10.1145/3589324। ২০২৪-০৮-২৭ তারিখে মূল (পিডিএফ) থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০১-২০। Citing Lee et al 2022. - ↑ Peng, Wang এবং Deng 2023, পৃ. 8.
- ↑ Alba, Davey (১ মে ২০২৩)। "AI chatbots have been used to create dozens of news content farms"। The Japan Times। সংগ্রহের তারিখ ১৮ জুন ২০২৩।
- ↑ "Could chatbots help devise the next pandemic virus?"। Science। ১৪ জুন ২০২৩। ডিওআই:10.1126/science.adj2463। ১৮ জুন ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১৮ জুন ২০২৩।
- ↑ Stephen Council (১ ডিসে ২০২৩)। "How Googlers cracked an SF rival's tech model with a single word"। SFGATE। ১৬ ডিসেম্বর ২০২৩ তারিখে মূল থেকে আর্কাইভ করা।
- ↑ Hubinger, Evan (১০ জানুয়ারি ২০২৪)। "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training"। arXiv:2401.05566 [cs.CR]।
- ↑ Kang, Daniel (২০২৩)। "Exploiting programmatic behavior of LLMs: Dual-use through standard security attacks"। arXiv:2302.05733 [cs.CR]।
- ↑ Wang, Yongge (২০ জুন ২০২৪)। "Encryption Based Covert Channel for Large Language Models" (পিডিএফ)। IACR ePrint 2024/586। ২৪ জুন ২০২৪ তারিখে মূল (পিডিএফ) থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২৪ জুন ২০২৪।
- ↑ ক খ Stokel-Walker, Chris (নভেম্বর ২২, ২০২৩)। "ChatGPT Replicates Gender Bias in Recommendation Letters"। Scientific American। ২০২৩-১২-২৯ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-১২-২৯।
- ↑ Luo, Queenie; Puett, Michael J.; Smith, Michael D. (২০২৩-০৩-২৮)। "A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube"। arXiv:2303.16281v2 [cs.CY]।
- ↑ Cheng, Myra; Durmus, Esin; Jurafsky, Dan (২০২৩-০৫-২৯), Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models, arXiv:2305.18189
- ↑ Kotek, Hadas; Dockum, Rikker; Sun, David (২০২৩-১১-০৫)। "Gender bias and stereotypes in Large Language Models"। Proceedings of the ACM Collective Intelligence Conference। CI '23। New York, NY, USA: Association for Computing Machinery। পৃষ্ঠা 12–24। আইএসবিএন 979-8-4007-0113-9। ডিওআই:10.1145/3582269.3615599।
- ↑ Heikkilä, Melissa (আগস্ট ৭, ২০২৩)। "AI language models are rife with different political biases"। MIT Technology Review। সংগ্রহের তারিখ ২০২৩-১২-২৯।
- ↑ "Improving language understanding with unsupervised learning"। openai.com। জুন ১১, ২০১৮। ২০২৩-০৩-১৮ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৩-১৮।
- ↑ "finetune-transformer-lm"। GitHub। ১৯ মে ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২ জানুয়ারি ২০২৪।
- ↑ ক খ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (১১ অক্টোবর ২০১৮)। "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"। arXiv:1810.04805v2 [cs.CL]।
- ↑ Prickett, Nicole Hemsoth (২০২১-০৮-২৪)। "Cerebras Shifts Architecture To Meet Massive AI/ML Models"। The Next Platform। ২০২৩-০৬-২০ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৬-২০।
- ↑ "BERT"। মার্চ ১৩, ২০২৩। জানুয়ারি ১৩, ২০২১ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ মার্চ ১৩, ২০২৩ – GitHub-এর মাধ্যমে।
- ↑ Patel, Ajay; Li, Bryan; Rasooli, Mohammad Sadegh; Constant, Noah; Raffel, Colin; Callison-Burch, Chris (২০২২)। "Bidirectional Language Models Are Also Few-shot Learners"। arXiv:2209.14500 [cs.LG]।
- ↑ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (১১ অক্টোবর ২০১৮)। "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"। arXiv:1810.04805v2 [cs.CL]।
- ↑ ক খ Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (২০২০)। "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer"। Journal of Machine Learning Research। 21 (140): 1–67। arXiv:1910.10683 । আইএসএসএন 1533-7928।
- ↑ google-research/text-to-text-transfer-transformer, Google Research, ২০২৪-০৪-০২, ২০২৪-০৩-২৯ তারিখে মূল থেকে আর্কাইভ করা, সংগ্রহের তারিখ ২০২৪-০৪-০৪
- ↑ "Imagen: Text-to-Image Diffusion Models"। imagen.research.google। ২০২৪-০৩-২৭ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৪-০৪।
- ↑ "Pretrained models — transformers 2.0.0 documentation"। huggingface.co। ২০২৪-০৮-০৫ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৮-০৫।
- ↑ "xlnet"। GitHub। ২ জানুয়ারি ২০২৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২ জানুয়ারি ২০২৪।
- ↑ Yang, Zhilin; Dai, Zihang; Yang, Yiming; Carbonell, Jaime; Salakhutdinov, Ruslan; Le, Quoc V. (২ জানুয়ারি ২০২০)। "XLNet: Generalized Autoregressive Pretraining for Language Understanding"। arXiv:1906.08237 [cs.CL]।
- ↑ "GPT-2: 1.5B Release"। OpenAI (ইংরেজি ভাষায়)। ২০১৯-১১-০৫। ২০১৯-১১-১৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০১৯-১১-১৪।
- ↑ "Better language models and their implications"। openai.com। ২০২৩-০৩-১৬ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৩-১৩।
- ↑ ক খ "OpenAI's GPT-3 Language Model: A Technical Overview"। lambdalabs.com। ৩ জুন ২০২০। ২৭ মার্চ ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১৩ মার্চ ২০২৩।
- ↑ ক খ "openai-community/gpt2-xl · Hugging Face"। huggingface.co। ২০২৪-০৭-২৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৭-২৪।
- ↑ "gpt-2"। GitHub। ১১ মার্চ ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১৩ মার্চ ২০২৩।
- ↑ ক খ গ ঘ ঙ Løken, Trond (২০২১-০২-১৮)। "Bronze Age and Early Iron Age house and settlement development at Forsandmoen, south-western Norway - Tables and Figures"। AmS-Skrifter (28)। আইএসএসএন 2535-6127। ডিওআই:10.31265/ams-skrifter.vi28.378।
- ↑ "ChatGPT: Optimizing Language Models for Dialogue"। OpenAI। ২০২২-১১-৩০। ২০২২-১১-৩০ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০১-১৩।
- ↑ "GPT Neo"। মার্চ ১৫, ২০২৩। মার্চ ১২, ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ মার্চ ১২, ২০২৩ – GitHub-এর মাধ্যমে।
- ↑ ক খ গ Gao, Leo; Biderman, Stella; Black, Sid; Golding, Laurence; Hoppe, Travis; Foster, Charles; Phang, Jason; He, Horace; Thite, Anish; Nabeshima, Noa; Presser, Shawn; Leahy, Connor (৩১ ডিসেম্বর ২০২০)। "The Pile: An 800GB Dataset of Diverse Text for Language Modeling"। arXiv:2101.00027 [cs.CL]।
- ↑ ক খ Iyer, Abhishek (১৫ মে ২০২১)। "GPT-3's free alternative GPT-Neo is something to be excited about"। VentureBeat। ৯ মার্চ ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১৩ মার্চ ২০২৩।
- ↑ "GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront"। www.forefront.ai। ২০২৩-০৩-০৯ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০২-২৮।
- ↑ ক খ গ ঘ Dey, Nolan; Gosal, Gurpreet; Zhiming; Chen; Khachane, Hemant; Marshall, William; Pathria, Ribhu; Tom, Marvin; Hestness, Joel (২০২৩-০৪-০১)। "Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster"। arXiv:2304.03208 [cs.LG]।
- ↑ Alvi, Ali; Kharya, Paresh (১১ অক্টোবর ২০২১)। "Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World's Largest and Most Powerful Generative Language Model"। Microsoft Research। ১৩ মার্চ ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১৩ মার্চ ২০২৩।
- ↑ ক খ Smith, Shaden; Patwary, Mostofa; Norick, Brandon; LeGresley, Patrick; Rajbhandari, Samyam; Casper, Jared; Liu, Zhun; Prabhumoye, Shrimai; Zerveas, George; Korthikanti, Vijay; Zhang, Elton; Child, Rewon; Aminabadi, Reza Yazdani; Bernauer, Julie; Song, Xia (২০২২-০২-০৪)। "Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model"। arXiv:2201.11990 [cs.CL]।
- ↑ ক খ Rajbhandari, Samyam; Li, Conglong; Yao, Zhewei; Zhang, Minjia; Aminabadi, Reza Yazdani; Awan, Ammar Ahmad; Rasley, Jeff; He, Yuxiong (২০২২-০৭-২১), DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale, arXiv:2201.05596
- ↑ Wang, Shuohuan; Sun, Yu; Xiang, Yang; Wu, Zhihua; Ding, Siyu; Gong, Weibao; Feng, Shikun; Shang, Junyuan; Zhao, Yanbin; Pang, Chao; Liu, Jiaxiang; Chen, Xuyi; Lu, Yuxiang; Liu, Weixin; Wang, Xi; Bai, Yangfan; Chen, Qiuliang; Zhao, Li; Li, Shiyong; Sun, Peng; Yu, Dianhai; Ma, Yanjun; Tian, Hao; Wu, Hua; Wu, Tian; Zeng, Wei; Li, Ge; Gao, Wen; Wang, Haifeng (ডিসেম্বর ২৩, ২০২১)। "ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation"। arXiv:2112.12731 [cs.CL]।
- ↑ "Product"। Anthropic। ১৬ মার্চ ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১৪ মার্চ ২০২৩।
- ↑ ক খ Askell, Amanda; Bai, Yuntao; Chen, Anna; ও অন্যান্য (৯ ডিসেম্বর ২০২১)। "A General Language Assistant as a Laboratory for Alignment"। arXiv:2112.00861 [cs.CL]।
- ↑ Bai, Yuntao; Kadavath, Saurav; Kundu, Sandipan; ও অন্যান্য (১৫ ডিসেম্বর ২০২২)। "Constitutional AI: Harmlessness from AI Feedback"। arXiv:2212.08073 [cs.CL]।
- ↑ "Language modelling at scale: Gopher, ethical considerations, and retrieval"। www.deepmind.com। ৮ ডিসেম্বর ২০২১। ২০ মার্চ ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০ মার্চ ২০২৩।
- ↑ ক খ গ Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; ও অন্যান্য (২৯ মার্চ ২০২২)। "Training Compute-Optimal Large Language Models"। arXiv:2203.15556 [cs.CL]।
- ↑ ক খ Cheng, Heng-Tze; Thoppilan, Romal (জানুয়ারি ২১, ২০২২)। "LaMDA: Towards Safe, Grounded, and High-Quality Dialog Models for Everything"। ai.googleblog.com। ২০২২-০৩-২৫ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৩-০৯।
- ↑ Thoppilan, Romal; De Freitas, Daniel; Hall, Jamie; Shazeer, Noam; Kulshreshtha, Apoorv; Cheng, Heng-Tze; Jin, Alicia; Bos, Taylor; Baker, Leslie; Du, Yu; Li, YaGuang; Lee, Hongrae; Zheng, Huaixiu Steven; Ghafouri, Amin; Menegali, Marcelo (২০২২-০১-০১)। "LaMDA: Language Models for Dialog Applications"। arXiv:2201.08239 [cs.CL]।
- ↑ Black, Sidney; Biderman, Stella; Hallahan, Eric; ও অন্যান্য (২০২২-০৫-০১)। GPT-NeoX-20B: An Open-Source Autoregressive Language Model। Proceedings of BigScience Episode #5 – Workshop on Challenges & Perspectives in Creating Large Language Models। Proceedings of BigScience Episode #5 – Workshop on Challenges & Perspectives in Creating Large Language Models। পৃষ্ঠা 95–136। ২০২২-১২-১০ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২২-১২-১৯।
- ↑ ক খ গ Hoffmann, Jordan; Borgeaud, Sebastian; Mensch, Arthur; Sifre, Laurent (১২ এপ্রিল ২০২২)। "An empirical analysis of compute-optimal large language model training"। Deepmind Blog। ১৩ এপ্রিল ২০২২ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ৯ মার্চ ২০২৩।
- ↑ Narang, Sharan; Chowdhery, Aakanksha (এপ্রিল ৪, ২০২২)। "Pathways Language Model (PaLM): Scaling to 540 Billion Parameters for Breakthrough Performance"। ai.googleblog.com (ইংরেজি ভাষায়)। ২০২২-০৪-০৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৩-০৯।
- ↑ Susan Zhang; Mona Diab; Luke Zettlemoyer। "Democratizing access to large-scale language models with OPT-175B"। ai.facebook.com। ২০২৩-০৩-১২ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৩-১২।
- ↑ Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; Li, Xian; Lin, Xi Victoria; Mihaylov, Todor; Ott, Myle; Shleifer, Sam; Shuster, Kurt; Simig, Daniel; Koura, Punit Singh; Sridhar, Anjali; Wang, Tianlu; Zettlemoyer, Luke (২১ জুন ২০২২)। "OPT: Open Pre-trained Transformer Language Models"। arXiv:2205.01068 [cs.CL]।
- ↑ "metaseq/projects/OPT/chronicles at main · facebookresearch/metaseq"। GitHub (ইংরেজি ভাষায়)। সংগ্রহের তারিখ ২০২৪-১০-১৮।
- ↑ ক খ Khrushchev, Mikhail; Vasilev, Ruslan; Petrov, Alexey; Zinov, Nikolay (২০২২-০৬-২২), YaLM 100B, ২০২৩-০৬-১৬ তারিখে মূল থেকে আর্কাইভ করা, সংগ্রহের তারিখ ২০২৩-০৩-১৮
- ↑ ক খ Lewkowycz, Aitor; Andreassen, Anders; Dohan, David; Dyer, Ethan; Michalewski, Henryk; Ramasesh, Vinay; Slone, Ambrose; Anil, Cem; Schlag, Imanol; Gutman-Solo, Theo; Wu, Yuhuai; Neyshabur, Behnam; Gur-Ari, Guy; Misra, Vedant (৩০ জুন ২০২২)। "Solving Quantitative Reasoning Problems with Language Models"। arXiv:2206.14858 [cs.CL]।
- ↑ "Minerva: Solving Quantitative Reasoning Problems with Language Models"। ai.googleblog.com। ৩০ জুন ২০২২। সংগ্রহের তারিখ ২০ মার্চ ২০২৩।
- ↑ Ananthaswamy, Anil (৮ মার্চ ২০২৩)। "In AI, is bigger always better?"। Nature। 615 (7951): 202–205। এসটুসিআইডি 257380916 Check
|s2cid=
value (সাহায্য)। ডিওআই:10.1038/d41586-023-00641-w। পিএমআইডি 36890378|pmid=
এর মান পরীক্ষা করুন (সাহায্য)। বিবকোড:2023Natur.615..202A। ১৬ মার্চ ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ৯ মার্চ ২০২৩। - ↑ "bigscience/bloom · Hugging Face"। huggingface.co। ২০২৩-০৪-১২ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৩-১৩।
- ↑ Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Anthony; Saravia, Elvis; Poulton, Andrew; Kerkez, Viktor; Stojnic, Robert (১৬ নভেম্বর ২০২২)। "Galactica: A Large Language Model for Science"। arXiv:2211.09085 [cs.CL]।
- ↑ "20B-parameter Alexa model sets new marks in few-shot learning"। Amazon Science। ২ আগস্ট ২০২২। ১৫ মার্চ ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১২ মার্চ ২০২৩।
- ↑ Soltan, Saleh; Ananthakrishnan, Shankar; FitzGerald, Jack; ও অন্যান্য (৩ আগস্ট ২০২২)। "AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model"। arXiv:2208.01448 [cs.CL]।
- ↑ "AlexaTM 20B is now available in Amazon SageMaker JumpStart | AWS Machine Learning Blog"। aws.amazon.com। ১৭ নভেম্বর ২০২২। ১৩ মার্চ ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১৩ মার্চ ২০২৩।
- ↑ ক খ গ "Introducing LLaMA: A foundational, 65-billion-parameter large language model"। Meta AI। ২৪ ফেব্রুয়ারি ২০২৩। ৩ মার্চ ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ৯ মার্চ ২০২৩।
- ↑ ক খ গ "The Falcon has landed in the Hugging Face ecosystem"। huggingface.co। ২০২৩-০৬-২০ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৬-২০।
- ↑ "GPT-4 Technical Report" (পিডিএফ)। OpenAI। ২০২৩। মার্চ ১৪, ২০২৩ তারিখে মূল (পিডিএফ) থেকে আর্কাইভ করা। সংগ্রহের তারিখ মার্চ ১৪, ২০২৩।
- ↑ Schreiner, Maximilian (২০২৩-০৭-১১)। "GPT-4 architecture, datasets, costs and more leaked"। THE DECODER (ইংরেজি ভাষায়)। ২০২৩-০৭-১২ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৭-২৬।
- ↑ Dickson, Ben (২২ মে ২০২৪)। "Meta introduces Chameleon, a state-of-the-art multimodal model"। VentureBeat।
- ↑ Dey, Nolan (মার্চ ২৮, ২০২৩)। "Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models"। Cerebras। মার্চ ২৮, ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ মার্চ ২৮, ২০২৩।
- ↑ "Abu Dhabi-based TII launches its own version of ChatGPT"। tii.ae। ২০২৩-০৪-০৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৪-০৩।
- ↑ Penedo, Guilherme; Malartic, Quentin; Hesslow, Daniel; Cojocaru, Ruxandra; Cappelli, Alessandro; Alobeidli, Hamza; Pannier, Baptiste; Almazrouei, Ebtesam; Launay, Julien (২০২৩-০৬-০১)। "The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only"। arXiv:2306.01116 [cs.CL]।
- ↑ "tiiuae/falcon-40b · Hugging Face"। huggingface.co। ২০২৩-০৬-০৯। সংগ্রহের তারিখ ২০২৩-০৬-২০।
- ↑ UAE's Falcon 40B, World's Top-Ranked AI Model from Technology Innovation Institute, is Now Royalty-Free ওয়েব্যাক মেশিনে আর্কাইভকৃত ২০২৪-০২-০৮ তারিখে, 31 May 2023
- ↑ Wu, Shijie; Irsoy, Ozan; Lu, Steven; Dabravolski, Vadim; Dredze, Mark; Gehrmann, Sebastian; Kambadur, Prabhanjan; Rosenberg, David; Mann, Gideon (মার্চ ৩০, ২০২৩)। "BloombergGPT: A Large Language Model for Finance"। arXiv:2303.17564 [cs.LG]।
- ↑ Ren, Xiaozhe; Zhou, Pingyi; Meng, Xinfan; Huang, Xinjing; Wang, Yadao; Wang, Weichao; Li, Pengfei; Zhang, Xiaoda; Podolskiy, Alexander; Arshinov, Grigory; Bout, Andrey; Piontkovskaya, Irina; Wei, Jiansheng; Jiang, Xin; Su, Teng; Liu, Qun; Yao, Jun (মার্চ ১৯, ২০২৩)। "PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing"। arXiv:2303.10845 [cs.CL]।
- ↑ Köpf, Andreas; Kilcher, Yannic; von Rütte, Dimitri; Anagnostidis, Sotiris; Tam, Zhi-Rui; Stevens, Keith; Barhoum, Abdullah; Duc, Nguyen Minh; Stanley, Oliver; Nagyfi, Richárd; ES, Shahul; Suri, Sameer; Glushkov, David; Dantuluri, Arnav; Maguire, Andrew (২০২৩-০৪-১৪)। "OpenAssistant Conversations – Democratizing Large Language Model Alignment"। arXiv:2304.07327 [cs.CL]।
- ↑ Wrobel, Sharon। "Tel Aviv startup rolls out new advanced AI language model to rival OpenAI"। www.timesofisrael.com। ২০২৩-০৭-২৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৭-২৪।
- ↑ Wiggers, Kyle (২০২৩-০৪-১৩)। "With Bedrock, Amazon enters the generative AI race"। TechCrunch। ২০২৩-০৭-২৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৭-২৪।
- ↑ ক খ Elias, Jennifer (১৬ মে ২০২৩)। "Google's newest A.I. model uses nearly five times more text data for training than its predecessor"। CNBC। ১৬ মে ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১৮ মে ২০২৩।
- ↑ "Introducing PaLM 2"। Google। মে ১০, ২০২৩। মে ১৮, ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ মে ১৮, ২০২৩।
- ↑ ক খ "Introducing Llama 2: The Next Generation of Our Open Source Large Language Model"। Meta AI। ২০২৩। ২০২৪-০১-০৫ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৭-১৯।
- ↑ "llama/MODEL_CARD.md at main · meta-llama/llama"। GitHub। ২০২৪-০৫-২৮ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৫-২৮।
- ↑ "Claude 2"। anthropic.com। ১৫ ডিসেম্বর ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১২ ডিসেম্বর ২০২৩।
- ↑ Nirmal, Dinesh (২০২৩-০৯-০৭)। "Building AI for business: IBM's Granite foundation models"। IBM Blog (ইংরেজি ভাষায়)। ২০২৪-০৭-২২ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৮-১১।
- ↑ "Announcing Mistral 7B"। Mistral। ২০২৩। ২০২৪-০১-০৬ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-১০-০৬।
- ↑ "Introducing Claude 2.1"। anthropic.com। ১৫ ডিসেম্বর ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১২ ডিসেম্বর ২০২৩।
- ↑ xai-org/grok-1, xai-org, ২০২৪-০৩-১৯, ২০২৪-০৫-২৮ তারিখে মূল থেকে আর্কাইভ করা, সংগ্রহের তারিখ ২০২৪-০৩-১৯
- ↑ "Grok-1 model card"। x.ai। সংগ্রহের তারিখ ১২ ডিসেম্বর ২০২৩।
- ↑ "Gemini – Google DeepMind"। deepmind.google। ৮ ডিসেম্বর ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১২ ডিসেম্বর ২০২৩।
- ↑ Franzen, Carl (১১ ডিসেম্বর ২০২৩)। "Mistral shocks AI community as latest open source model eclipses GPT-3.5 performance"। VentureBeat। ১১ ডিসেম্বর ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১২ ডিসেম্বর ২০২৩।
- ↑ "Mixtral of experts"। mistral.ai। ১১ ডিসেম্বর ২০২৩। ১৩ ফেব্রুয়ারি ২০২৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১২ ডিসেম্বর ২০২৩।
- ↑ AI, Mistral (২০২৪-০৪-১৭)। "Cheaper, Better, Faster, Stronger"। mistral.ai। ২০২৪-০৫-০৫ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৫-০৫।
- ↑ ক খ Hughes, Alyssa (১২ ডিসেম্বর ২০২৩)। "Phi-2: The surprising power of small language models"। Microsoft Research। ১২ ডিসেম্বর ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১৩ ডিসেম্বর ২০২৩।
- ↑ "Our next-generation model: Gemini 1.5"। Google। ১৫ ফেব্রুয়ারি ২০২৪। ১৬ ফেব্রুয়ারি ২০২৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১৬ ফেব্রুয়ারি ২০২৪।
This means 1.5 Pro can process vast amounts of information in one go — including 1 hour of video, 11 hours of audio, codebases with over 30,000 lines of code or over 700,000 words. In our research, we’ve also successfully tested up to 10 million tokens.
- ↑ "Gemma" – GitHub-এর মাধ্যমে।
- ↑ "Introducing the next generation of Claude"। www.anthropic.com। ২০২৪-০৩-০৪ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৩-০৪।
- ↑ "Fugaku-LLM/Fugaku-LLM-13B · Hugging Face"। huggingface.co। ২০২৪-০৫-১৭ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৫-১৭।
- ↑ "Phi-3"। azure.microsoft.com। ২৩ এপ্রিল ২০২৪। ২০২৪-০৪-২৭ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৪-২৮।
- ↑ "Phi-3 Model Documentation"। huggingface.co। ২০২৪-০৫-১৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৪-২৮।
- ↑ "Qwen2"। GitHub। ২০২৪-০৬-১৭ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৬-১৭।
- ↑ "nvidia/Nemotron-4-340B-Base · Hugging Face"। huggingface.co। ২০২৪-০৬-১৪। ২০২৪-০৬-১৫ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৬-১৫।
- ↑ "Nemotron-4 340B | Research"। research.nvidia.com। ২০২৪-০৬-১৫ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৬-১৫।
- ↑ "The Llama 3 Herd of Models" (July 23, 2024) Llama Team, AI @ Meta
- ↑ "llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models"। GitHub (ইংরেজি ভাষায়)। ২০২৪-০৭-২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৪-০৭-২৩।
আরও পড়ুন
[সম্পাদনা]- Jurafsky, Dan, Martin, James. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd Edition draft, 2023.
- Zhao, Wayne Xin; ও অন্যান্য (২০২৩)। "A Survey of Large Language Models"। arXiv:2303.18223 [cs.CL]।
- Kaddour, Jean; ও অন্যান্য (২০২৩)। "Challenges and Applications of Large Language Models"। arXiv:2307.10169 [cs.CL]।
- Yin, Shukang; Fu, Chaoyou; Zhao, Sirui; Li, Ke; Sun, Xing; Xu, Tong; Chen, Enhong (২০২৩-০৬-০১)। "A Survey on Multimodal Large Language Models"। arXiv:2306.13549 [cs.CV]।
- "AI Index Report 2024 – Artificial Intelligence Index"। aiindex.stanford.edu। সংগ্রহের তারিখ ২০২৪-০৫-০৫।
- Frank, Michael C. (২৭ জুন ২০২৩)। "Baby steps in evaluating the capacities of large language models"। Nature Reviews Psychology। 2 (8): 451–452। আইএসএসএন 2731-0574। এসটুসিআইডি 259713140 Check
|s2cid=
value (সাহায্য)। ডিওআই:10.1038/s44159-023-00211-x। সংগ্রহের তারিখ ২ জুলাই ২০২৩।