বিষয়বস্তুতে চলুন

ভাষার মডেল

উইকিপিডিয়া, মুক্ত বিশ্বকোষ থেকে

একটি ভাষার মডেল প্রাকৃতিক ভাষার একটি সম্ভাব্য মডেল ।[] ১৯৮০ সালে প্রথম উল্লেখযোগ্য পরিসংখ্যানগত ভাষার মডেল প্রস্তাব করা হয়েছিল এবং একই দশকে আইবিএম 'শ্যানন-শৈলী' পরীক্ষা-নিরীক্ষা করে, যেখানে পাঠ্যের ভবিষ্যদ্বাণী বা সংশোধনে মানব বিষয়ের কর্মক্ষমতা পর্যবেক্ষণ ও বিশ্লেষণ করে ভাষার মডেলিং উন্নতির সম্ভাব্য উৎস চিহ্নিত করা হয়েছিল।[]

ভাষা মডেল বিভিন্ন কাজে উপযোগী, যার মধ্যে রয়েছে কণ্ঠ শনাক্তকরণ (যা কম সম্ভাবনাময়, যেমন অর্থহীন ক্রমের পূর্বাভাস ঠেকাতে সহায়ক), যন্ত্রানুবাদ,[] স্বাভাবিক ভাষা উৎপাদন (আরও মানবসদৃশ লেখা তৈরি করা), আলোকভিত্তিক অক্ষর শনাক্তকরণ, পথ নির্ধারণ,[] [হাতের লেখা শনাক্তকরণ,[] ব্যাকরণ আনয়ন এবং তথ্য পুনরুদ্ধার।[][]

বড় ডেটাসেট (প্রায়ই ইন্টারনেট থেকে স্ক্র্যাপ করা শব্দসমূহ), ফিডফরোয়ার্ড স্নায়ু নেটওয়ার্ক এবং ট্রান্সফরমারের সমন্বয়ে গঠিত বৃহৎ ভাষার মডেল বর্তমানে এটির সর্বাধিক উন্নত রূপ। এরা পুনরাবৃত্ত স্নায়ু নেটওয়ার্ক-ভিত্তিক মডেলের স্থান নিয়েছে, যা এর আগে বিশুদ্ধ পরিসংখ্যানভিত্তিক মডেল, যেমন শব্দ এন-গ্রাম ভাষা মডেলকে প্রতিস্থাপন করেছিল।

বিশুদ্ধ পরিসংখ্যান মডেল

[সম্পাদনা]

শব্দ এন-গ্রামের উপর ভিত্তি করে মডেল

[সম্পাদনা]

শব্দ এন-গ্রাম ভাষা মডেল একটি সম্পূর্ণ পরিসংখ্যানভিত্তিক ভাষার মডেল। এটি পুনরাবৃত্ত স্নায়ু নেটওয়ার্ক–ভিত্তিক মডেল দ্বারা প্রতিস্থাপিত হয়েছে, যা পরবর্তীতে বৃহৎ ভাষার মডেল দ্বারা প্রতিস্থাপিত হয়েছে।[] এই মডেল ধরে নেয় যে একটি ক্রমের পরবর্তী শব্দের সম্ভাব্যতা শুধুমাত্র একটি নির্দিষ্ট আকারের পূর্ববর্তী শব্দের উইন্ডোর উপর নির্ভরশীল। যদি মাত্র এক পূর্ববর্তী শব্দ বিবেচনা করা হয়, সেটি বিগ্রাম মডেল; দুই শব্দ হলে ট্রিগ্রাম মডেল; এবং এন−১ শব্দ হলে এন-গ্রাম মডেল।[] বাক্যের শুরু এবং শেষ নির্দেশ করতে বিশেষ টোকেন এবং ব্যবহৃত হয়।

অদেখা শব্দের জন্য শূন্য সম্ভাবনা নির্ধারণ ঠেকাতে, প্রতিটি শব্দের সম্ভাবনা তার ফ্রিকোয়েন্সি কাউন্টের চেয়ে সামান্য কম রাখা হয়। এটি হিসাব করার জন্য বিভিন্ন পদ্ধতি ব্যবহৃত হয়েছে, যেমন সাদামাটা "অ্যাড-ওয়ান" স্মুথিং (অদেখা এন-গ্রামের জন্য ১ এর কাউন্ট নির্ধারণ করা, যা একটি অপ্রাসঙ্গিক প্রাকৃতিক অনুমান হিসেবে কাজ করে) থেকে আরও উন্নত মডেল, যেমন গুড-টারিং ডিসকাউন্টিং বা ব্যাক-অফ মডেল।

সূচকীয়

[সম্পাদনা]

সর্বাধিক এনট্রপি ভাষার মডেল বৈশিষ্ট্য ফাংশন ব্যবহার করে একটি শব্দ এবং এন-গ্রাম ইতিহাসের মধ্যে সম্পর্ক এনকোড করে। সমীকরণ হল:

যেখানে পার্টিশন ফাংশন হল, পরামিতি ভেক্টর এবং বৈশিষ্ট্য ফাংশন. সহজভাবে, বৈশিষ্ট্য ফাংশন একটি নির্দিষ্ট এন-গ্রাম উপস্থিতির একটি সূচক মাত্র। এটি একটি পূর্বে ব্যবহার সহায়ক বা নিয়মিতকরণের কিছু রূপ।

লগ-বিলিনিয়ার মডেল একটি সূচকীয় ভাষা মডেলের আরেকটি উদাহরণ।

স্কিপ-গ্রাম মডেল

[সম্পাদনা]

স্কিপ-গ্রাম ভাষা মডেল একটি প্রচেষ্টা যা পূর্ববর্তী মডেল (অর্থাৎ শব্দ এন-গ্রাম ভাষা মডেল) যে ডেটা সংকট সমস্যার সম্মুখীন হয়েছিল তা কাটিয়ে উঠতে সাহায্য করে। এম্বেডিং ভেক্টরে উপস্থাপিত শব্দগুলি আর নির্দিষ্টভাবে পরপর থাকত না, বরং মাঝে গ্যাপ থাকতে পারত যেগুলি স্কিপ করা হত।[১০]

আনুষ্ঠানিকভাবে, একটি k-স্কিপ-n-গ্রাম হলো একটি দৈর্ঘ্য-n এর সাবসিকোয়েন্স, যেখানে উপাদানগুলো একে অপরের থেকে সর্বোচ্চ k দূরত্বে থাকে।

উদাহরণস্বরূপ, ইনপুট পাঠ্যে:

the rain in Spain falls mainly on the plain

১-স্কিপ-২-গ্রামের সেটে সমস্ত বিগ্রাম (২-গ্রাম) এবং উপরন্তু পরবর্তীতে

the in, rain Spain, in falls, Spain mainly, falls on, mainly the, and on plain.

স্কিপ-গ্রাম মডেলে, শব্দগুলির মধ্যে অর্থনৈতিক সম্পর্কগুলি রৈখিক সংমিশ্রণের মাধ্যমে উপস্থাপিত হয়, যা কম্পোজিশনালিটির একটি রূপ ধারণ করে। উদাহরণস্বরূপ, কিছু মডেলে, যদি v একটি ফাংশন হয় যা একটি শব্দ w কে তার n-ডি ভেক্টর উপস্থাপনায় রূপান্তরিত করে, তাহলে

যেখানে ≈ স্পষ্ট করা হয় এই শর্ত দিয়ে যে, এর ডানপাশের মানটি বামপাশের মানের কাছের প্রতিবেশী হতে হবে।[১১][১২]

স্নায়ু মডেল

[সম্পাদনা]

পৌনঃপুনিক স্নায়ু নেটওয়ার্ক

[সম্পাদনা]

ক্রমাগত উপস্থাপনা বা শব্দের এম্বেডিংগুলি পুনরাবৃত্ত স্নায়ু নেটওয়ার্ক-ভিত্তিক ভাষা মডেলগুলিতে উৎপাদিত হয় (যা ক্রমাগত স্পেস ল্যাঙ্গুয়েজ মডেল নামেও পরিচিত)।[১৩] এই ধরনের ক্রমাগত স্পেস এম্বেডিং মাত্রিকতার সমস্যা দূর করতে সাহায্য করে, যা শব্দভান্ডারের আকারের সাথে দ্রুতগতিতে শব্দের সম্ভাব্য ক্রম সংখ্যা বৃদ্ধির ফলস্বরূপ, ডেটা স্প্যার্সিটি সমস্যা সৃষ্টি করে। স্নায়ু নেটওয়ার্কগুলি একটি স্নায়ু জালে ওজনের অ-রৈখিক সংমিশ্রণ হিসাবে শব্দগুলিকে উপস্থাপন করে এই সমস্যাটি এড়ায়।[১৪]

বড় ভাষার মডেল

[সম্পাদনা]

বৃহৎ ভাষার মডেল[১৫][১৬][১৭] এক ধরনের গণনামূলক মডেল যা ভাষা তৈরির মতো প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য প্রস্তুত করা হয়েছে। ইংরেজিতে একে লার্জ ল্যাঙ্গুয়েজ মডেল বলা হয়, যার সংক্ষেপিত সংস্করণ- এলএলএম। ভাষার মডেল হিসাবে, এলএলএম একটি স্ব-তত্ত্বাবধানে এবং অর্ধ-তত্ত্বাবধানে প্রশিক্ষণ প্রক্রিয়া চলাকালীন প্রচুর পরিমাণে পাঠ্য থেকে পরিসংখ্যানগত সম্পর্ক শেখার মাধ্যমে এই ক্ষমতাগুলি অর্জন করে।[১৮]

সবচেয়ে বড় এবং সবচেয়ে সক্ষম এলএলএম হল কৃত্রিম নিউরাল নেটওয়ার্ক যা একটি শুধু-ডিকোডার ট্রান্সফরমার-ভিত্তিক স্থাপত্য দিয়ে তৈরি, যা দক্ষ প্রক্রিয়াকরণ এবং বড় আকারের পাঠ্য ডেটা তৈরি করতে সক্ষম করে। আধুনিক মডেলগুলি নির্দিষ্ট কাজের জন্য সূক্ষ্মতর উন্নয়ন করা যেতে পারে বা প্রম্পট ইঞ্জিনিয়ারিং দ্বারা পরিচালিত হতে পারে।[১৯] এই মডেলগুলি বাক্যতত্ত্ব, বাগর্থবিজ্ঞান এবং অনটোলজি[২০] সম্পর্কিত ভবিষ্যদ্বাণীমূলক শক্তি অর্জন করে যা মানব ভাষার কর্পোরার অন্তর্নিহিত, কিন্তু তারা যে ডেটাতে প্রশিক্ষিত হয় তাতে উপস্থিত ভুলসমূহ এবং পক্ষপাতগুলিও উত্তরাধিকার সূত্রে পায়।[২১]

যদিও কখনও কখনও মানুষের কর্মক্ষমতা মিলে যায়, তবে তারা যুক্তিযুক্ত জ্ঞানীয় মডেল কিনা তা স্পষ্ট নয়। অন্তত পুনরাবৃত্ত স্নায়ু নেটওয়ার্কগুলির জন্য, এটি দেখানো হয়েছে যে তারা কখনও কখনও এমন নিদর্শন শিখে যা মানুষ করে না, কিন্তু মানুষ সাধারণত যে নিদর্শনগুলি করে তা শিখতে ব্যর্থ হয়।[২২]

মূল্যায়ন এবং মানদণ্ড

[সম্পাদনা]

ভাষার মডেলের গুণমানের মূল্যায়ন বেশিরভাগই সাধারণ ভাষা-ভিত্তিক কাজ থেকে তৈরি মানুষের তৈরি নমুনা বেঞ্চমার্কের সাথে তুলনা করে করা হয়। অন্যদিকে (কম প্রতিষ্ঠিত পদ্ধতি) গুণমানের পরীক্ষাগুলি একটি ভাষা মডেলের অন্তর্নিহিত চরিত্র পরীক্ষা করে বা এই জাতীয় দুটি মডেলের তুলনা করে। যেহেতু ভাষার মডেলগুলি সাধারণত গতিশীল হতে এবং তারা যে ডেটা দেখে তা থেকে শেখার উদ্দেশ্যে করা হয়, তাই কিছু প্রস্তাবিত মডেল শেখার হারের তদন্ত করে। যেমন- শেখার বক্ররেখা পরিদর্শনের মাধ্যমে।[২৩]

ভাষা প্রক্রিয়াকরণ সিস্টেমের মূল্যায়নে ব্যবহারের জন্য বিভিন্ন ডেটাসেট তৈরি করা হয়েছে।[২৪] এর মধ্যে রয়েছে:

  • ভাষাগত গ্রহণযোগ্যতার কর্পাস[২৫]
  • আঠালো বেঞ্চমার্ক[২৬]
  • মাইক্রোসফট রিসার্চ প্যারাফ্রেজ কর্পাস[২৭]
  • মাল্টি-জেনার ন্যাচারাল ল্যাঙ্গুয়েজ ইনফারেন্স
  • প্রশ্ন প্রাকৃতিক ভাষা ইনফারেন্স
  • কোরা প্রশ্ন পেয়ার[২৮]
  • টেক্সচুয়াল এনটেইলমেন্ট স্বীকৃতি[২৯]
  • শব্দার্থিক টেক্সচুয়াল সাদৃশ্য বেঞ্চমার্ক
  • স্কোয়াড প্রশ্নের উত্তর পরীক্ষা[৩০]
  • স্ট্যানফোর্ড সেন্টিমেন্ট ট্রিব্যাঙ্ক[৩১]
  • উইনোগ্রাড এনএলআই
  • বুলকিউ, পিআইকিউএ, এসআইকিউএ, হেলাসোয়াগ, উইনোগ্রান্ডে, এআরসি, ওপেনবুককিউএ, ন্যাচারালকুয়েশন্স, ট্রিভিয়াকিউএ, রেস, এমএমএলইউ (ম্যাসিভ মাল্টিটাস্ক ল্যাঙ্গুয়েজ আন্ডারস্ট্যান্ডিং), বিগ-বেঞ্চ হার্ড, জিএসএম৮ক, রিয়েলটক্সিসিটি প্রম্পটস, উইনোজেন্ডার্স,[৩২] (এলএলএমএ বেঞ্চমার্ক)।

আরও দেখুন

[সম্পাদনা]

 

তথ্যসূত্র

[সম্পাদনা]
  1. Jurafsky, Dan; Martin, James H. (২০২১)। "N-gram Language Models"। Speech and Language Processing (3rd সংস্করণ)। ২২ মে ২০২২ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২৪ মে ২০২২ 
  2. Rosenfeld, Ronald (২০০০)। "Two decades of statistical language modeling: Where do we go from here?": 1270–1278। ডিওআই:10.1109/5.880083 
  3. Andreas, Jacob, Andreas Vlachos, and Stephen Clark (2013). "Semantic parsing as machine translation" ওয়েব্যাক মেশিনে আর্কাইভকৃত ১৫ আগস্ট ২০২০ তারিখে. Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers).
  4. Liu, Yang; Wu, Fanyou (২০২৩)। "Can language models be used for real-world urban-delivery route optimization?": 100520। ডিওআই:10.1016/j.xinn.2023.100520অবাধে প্রবেশযোগ্যপিএমসি 10587631অবাধে প্রবেশযোগ্য |pmc= এর মান পরীক্ষা করুন (সাহায্য) 
  5. Pham, Vu, et al (2014). "Dropout improves recurrent neural networks for handwriting recognition" "সংরক্ষণাগারভুক্ত অনুলিপি"। Archived from the original on ১১ নভেম্বর ২০২০। সংগ্রহের তারিখ ১ ডিসেম্বর ২০২৪ . 14th International Conference on Frontiers in Handwriting Recognition. IEEE.
  6. Ponte, Jay M.; Croft, W. Bruce (১৯৯৮)। A language modeling approach to information retrieval। ACM। পৃষ্ঠা 275–281। ডিওআই:10.1145/290941.291008 
  7. Hiemstra, Djoerd (১৯৯৮)। A linguistically motivated probabilistically model of information retrieval। LNCS, Springer। পৃষ্ঠা 569–584। ডিওআই:10.1007/3-540-49653-X_34 
  8. Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Janvin, Christian (মার্চ ১, ২০০৩)। "A neural probabilistic language model"The Journal of Machine Learning Research3: 1137–1155 – ACM Digital Library-এর মাধ্যমে। 
  9. Jurafsky, Dan; Martin, James H. (৭ জানুয়ারি ২০২৩)। "N-gram Language Models"। Speech and Language Processing (পিডিএফ) (3rd edition draft সংস্করণ)। সংগ্রহের তারিখ ২৪ মে ২০২২ 
  10. David Guthrie; ও অন্যান্য (২০০৬)। "A Closer Look at Skip-gram Modelling" (পিডিএফ)। ১৭ মে ২০১৭ তারিখে মূল (পিডিএফ) থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২৭ এপ্রিল ২০১৪ 
  11. Mikolov, Tomas; Chen, Kai; Corrado, Greg; Dean, Jeffrey (২০১৩)। "Efficient estimation of word representations in vector space"। arXiv:1301.3781অবাধে প্রবেশযোগ্য [cs.CL]। 
  12. Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado irst4=Greg S.; Dean, Jeff (২০১৩)। Distributed Representations of Words and Phrases and their Compositionality (পিডিএফ)Advances in Neural Information Processing Systems। পৃষ্ঠা 3111–3119। ২৯ অক্টোবর ২০২০ তারিখে মূল (পিডিএফ) থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২২ জুন ২০১৫ 
  13. Karpathy, Andrej। "The Unreasonable Effectiveness of Recurrent Neural Networks"। ১ নভেম্বর ২০২০ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২৭ জানুয়ারি ২০১৯ 
  14. Scholarpedia 
  15. ঘোষ, আস্তিক (২০২৩-০৭-১৩)। "হরপ্পার ভাষা পাঠোদ্ধার করবে ChatGPT! জানা যাবে ভারতের নতুন ইতিহাস?"এই সময় Online। সংগ্রহের তারিখ ২০২৪-১১-২৬ 
  16. ইফরাত, হৃদিতা (২৬ জুলাই ২০২৩)। "মনুষ্যত্ব মানবতাকে ধ্বংস করে দিতে পারে এআই!"দৈনিক যুগান্তর। সংগ্রহের তারিখ ২৬ নভেম্বর ২০২৪ 
  17. তন্ময়, শামস রশিদ (২০২৩-০৩-০১)। "বাংলা ভাষার চ্যাটজিপিটি 'আলাপচারী'"দ্য ডেইলি স্টার (ইংরেজি ভাষায়)। সংগ্রহের তারিখ ২০২৪-১১-২৬ 
  18. "Better Language Models and Their Implications"OpenAI। ২০১৯-০২-১৪। ২০২০-১২-১৯ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০১৯-০৮-২৫ 
  19. Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (ডিসে ২০২০)। Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H., সম্পাদকগণ। "Language Models are Few-Shot Learners" (পিডিএফ)Advances in Neural Information Processing Systems। Curran Associates, Inc.। 33: 1877–1901। ২০২৩-১১-১৭ তারিখে মূল (পিডিএফ) থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৩-১৪ 
  20. Fathallah, Nadeen; Das, Arunav; De Giorgis, Stefano; Poltronieri, Andrea; Haase, Peter; Kovriguina, Liubov (২০২৪-০৫-২৬)। NeOn-GPT: A Large Language Model-Powered Pipeline for Ontology Learning (পিডিএফ)। Extended Semantic Web Conference 2024। Hersonissos, Greece। 
  21. Manning, Christopher D. (২০২২)। "Human Language Understanding & Reasoning"Daedalus151 (2): 127–138। এসটুসিআইডি 248377870 Check |s2cid= value (সাহায্য)ডিওআই:10.1162/daed_a_01905অবাধে প্রবেশযোগ্য। ২০২৩-১১-১৭ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০২৩-০৩-০৯ 
  22. Hornstein, Norbert; Lasnik, Howard (২০১৮-০১-০৯)। Syntactic Structures after 60 Years: The Impact of the Chomskyan Revolution in Linguistics (ইংরেজি ভাষায়)। Walter de Gruyter GmbH & Co KG। আইএসবিএন 978-1-5015-0692-5। ১৬ এপ্রিল ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১১ ডিসেম্বর ২০২১ 
  23. Karlgren, Jussi; Schutze, Hinrich (২০১৫), "Evaluating Learning Language Representations", International Conference of the Cross-Language Evaluation Forum, Lecture Notes in Computer Science, Springer International Publishing, পৃষ্ঠা 254–260, আইএসবিএন 9783319642055, ডিওআই:10.1007/978-3-319-64206-2_8 
  24. Devlin। "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"। arXiv:1810.04805অবাধে প্রবেশযোগ্য 
  25. "The Corpus of Linguistic Acceptability (CoLA)"nyu-mll.github.io। ৭ ডিসেম্বর ২০২০ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০১৯-০২-২৫ 
  26. "GLUE Benchmark"gluebenchmark.com (ইংরেজি ভাষায়)। ৪ নভেম্বর ২০২০ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০১৯-০২-২৫ 
  27. "Microsoft Research Paraphrase Corpus"Microsoft Download Center (ইংরেজি ভাষায়)। ২৫ অক্টোবর ২০২০ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০১৯-০২-২৫ 
  28. Aghaebrahimian, Ahmad (২০১৭), "Quora Question Answer Dataset", Text, Speech, and Dialogue, Lecture Notes in Computer Science, 10415, Springer International Publishing, পৃষ্ঠা 66–73, আইএসবিএন 9783319642055, ডিওআই:10.1007/978-3-319-64206-2_8 
  29. Sammons, V.G.Vinod Vydiswaran, Dan Roth, Mark; Vydiswaran, V.G.। "Recognizing Textual Entailment" (পিডিএফ)। ৯ আগস্ট ২০১৭ তারিখে মূল (পিডিএফ) থেকে আর্কাইভ করা। সংগ্রহের তারিখ ফেব্রুয়ারি ২৪, ২০১৯ 
  30. "The Stanford Question Answering Dataset"rajpurkar.github.io। ৩০ অক্টোবর ২০২০ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০১৯-০২-২৫ 
  31. "Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank"nlp.stanford.edu। ২৭ অক্টোবর ২০২০ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০১৯-০২-২৫ 
  32. Hendrycks, Dan (২০২৩-০৩-১৪), Measuring Massive Multitask Language Understanding, ১৫ মার্চ ২০২৩ তারিখে মূল থেকে আর্কাইভ করা, সংগ্রহের তারিখ ২০২৩-০৩-১৫ 

আরও পড়ুন

[সম্পাদনা]

 

  • J M Ponte; W B Croft (১৯৯৮)। "A Language Modeling Approach to Information Retrieval"। Research and Development in Information Retrieval। পৃষ্ঠা 275–281। সাইট সিয়ারX 10.1.1.117.4237অবাধে প্রবেশযোগ্য 
  • F Song; W B Croft (১৯৯৯)। "A General Language Model for Information Retrieval"। Research and Development in Information Retrieval। পৃষ্ঠা 279–280। সাইট সিয়ারX 10.1.1.21.6467অবাধে প্রবেশযোগ্য 
  • টেমপ্লেট:Cite tech report