ওয়ার্ডটুভেক

ওয়ার্ডটুভেক (ইংরেজি: word2vec) হলো একটি মূলব্যান প্রযুক্তি ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং এর দুনিয়ায় । ওয়ার্ডটুভেক অ্যালগরিদম একটি বৃহত কর্পাস থেকে শব্দ সংযোগগুলি শিখতে একটি নিউরাল নেটওয়ার্ক মডেল ব্যবহার করে। একবার প্রশিক্ষিত হয়ে গেলে, এই জাতীয় মডেল সমার্থক শব্দগুলি শনাক্ত করতে পারে বা আংশিক বাক্যের জন্য অতিরিক্ত শব্দ প্রস্তাব করতে পারে। নাম থেকেই বোঝা যাচ্ছে, এর সাহায্যে যেকোনো শব্দকে একটি অভিমুখ সমন্বিত রাশিতে (ইংরেজি: vector) পরিবর্তন করা যায় । রাশিগুলি খুব সাবধানে বাছা হয় যাতে একটি সরল গাণিতিক ফাংশন শব্দার্থক সাদৃশ্য দিতে পারে প্রতিনিধিত্ব রাশিগুলির মাঝখানে।

পন্থা[সম্পাদনা]

ওয়ার্ডটুভেক সম্পর্কিত মডেলগুলির একটি গদল যা শব্দ এম্বেডিং উৎপাদন করতে ব্যবহৃত হয়। এই মডেলগুলি অগভীর, দ্বি-স্তরের নিউরাল নেটওয়ার্ক যা শব্দের ভাষাগত প্রসঙ্গে পুনর্গঠন করার জন্য প্রশিক্ষণপ্রাপ্ত। ওয়ার্ডটুভেক ইনপুট হিসাবে বৃহত কর্পস গ্রহণ করে এবং প্রায়শই কয়েকশ মাত্রার একটি ভেক্টর স্পেস তৈরি করে । কর্পাসের প্রতিটি অনন্য শব্দের জন্য অনুরূপ ভেক্টর নির্ধারিত হয়। শব্দের রাশিগুলি ভেক্টর স্পেসে এমনভাবে অবস্থিত যে যেই শব্দগুলি কর্পাসে অনুরূপ বিষয় ভাগ করে , তারা স্পেসে একে অপরের কাছাকাছি অবস্থিত থাকে ।^[১]

ইতিহাস[সম্পাদনা]

ওয়ার্ডটুভেক ২০১৩ সালে গুগলের টমাস মিকোলভের নেতৃত্বে একটি গবেষকদের দল তৈরি করেছিলেন। তাদের দুটি কাগজ ^[১]^[২] বৈজ্ঞানিক সাহিত্যে যথাক্রমে 17231 এবং 21670 বার উদ্ধৃত হয়েছে (গুগল স্কলার, 2 আগস্ট 2020)। অ্যালগরিদমটা পেটেন্ট করানো হয়েছে ^[৩]। অন্যান্য গবেষকগণদের সাহায্যে অ্যালগরিদম বিশ্লেষণ করে ব্যাখ্যা করা হয়েছে । ^[৪]^[৫] ওয়ার্ডটুভেক অ্যালগরিদম ব্যবহার করে যেই এম্বেডিং ভেক্টরগুলি তৈরী হয়, সেগুলি পূর্ববর্তী অ্যালগরিদমের তুলনায় কিছু সুবিধা পায় যেমন সুপ্ত শব্দার্থ বিশ্লেষণ।

সি.বি.ও.ডাব্লিউ এবং স্কিপ-গ্রাম[সম্পাদনা]

শব্দের বিতরণ উপস্থাপনা তৈরি করতে, ওয়ার্ডটুভেক দুটি আর্কিটেকচারের ব্যবহার করতে পারে: অবিচ্ছিন্ন ব্যাগ-অফ-ওয়ার্ডস (সি. বি. ও . ডাব্লিউ) বা অবিচ্ছিন্ন স্কিপ-গ্রাম। সি.বি.ও.ডাব্লিউ আর্কিটেকচার মডেলটি প্রসঙ্গের শব্দের একটি উইন্ডো থেকে বর্তমান শব্দটির পূর্বাভাস দেয়। অবিচ্ছিন্ন স্কিপ-গ্রাম আর্কিটেকচারে বর্তমান শব্দটি প্রসঙ্গে শব্দের পার্শ্ববর্তী উইন্ডোটির পূর্বাভাস দেয়। স্কিপ-গ্রাম নিকটবর্তী প্রসঙ্গের শব্দগুলিকে দূরবর্তী প্রসঙ্গের শব্দের চেয়ে বেশি ভারী মাত্রায় দেখে। ^[১]^[৬] লেখকদের মন্তব্য অনুসারে,^[৭] স্কিপ-গ্রাম ধীর এবং সি.বি.ও.ডাব্লিউ দ্রুত গতিতে থাকলেও, স্কিপ-গ্রাম বিরল শব্দের জন্য আরও ভাল কাজ করে।

পরামিতি[সম্পাদনা]

ওয়ার্ডটুভেক প্রশিক্ষণের ফলাফল পরামিতির জন্য সংবেদনশীল হতে পারে। নিম্নলিখিত দফা কয়েকটি গুরুত্বপূর্ণ পরামিতির কথা বলে।

গাণিতিক পরিভাষা প্রশিক্ষণ[সম্পাদনা]

ওয়ার্ডটুভেক মডেলকে শ্রেণিবিন্যাসের সফটম্যাক্স ( হিয়েরারকিয়েল সফটম্যাক্স ) এবং / অথবা নেতিবাচক নমুনা ( নেগেটিভ স্যাম্পলিং ) দিয়ে প্রশিক্ষণ করা যেতে পারে। লেখকদের মতে, শ্রেণিবিন্যাসের সফটম্যাক্স বিরল শব্দের জন্য আরও ভাল কাজ করে আর নেতিবাচক নমুনা ঘন ঘন শব্দ এবং নিম্ন মাত্রিক ভেক্টরগুলির সাথে আরও ভাল কাজ করে। ^[৭] প্রশিক্ষণের যুগ বাড়ার সাথে সাথে শ্রেণিবিন্যাসের সফটম্যাক্স কার্যকর হওয়া বন্ধ করে দেয়। ^[৮]

উপ-নমুনা[সম্পাদনা]

উচ্চ ফ্রিকোয়েন্সি শব্দ প্রায়শই সামান্য তথ্য সরবরাহ করে। প্রশিক্ষণের গতি বাড়ানোর জন্য, একটি নির্দিষ্ট প্রান্তিকের উপরের ফ্রিকোয়েন্সি শব্দগুলি উপ-নমুনা করা যেতে পারে।^[৯]

মাত্রা[সম্পাদনা]

উচ্চতর মাত্রা সাথে শব্দ এম্বেডিংয়ের গুণ বৃদ্ধি পায়। তবে কিছু পর্যায়ে পৌঁছানোর পরে, প্রান্তিক লাভ হ্রাস পাবে। ^[১] সাধারণত, ভেক্টরগুলির মাত্রা 100 এবং 1000 এর মধ্যে স্থাপন করা করা থাকে।

কনটেক্সট উইন্ডো[সম্পাদনা]

কনটেক্সট উইন্ডোর( প্রসঙ্গ জানালা ) আকার নির্ধারণ করে যে প্রদত্ত শব্দের আগে এবং পরে কতগুলি শব্দ প্রদত্ত শব্দের প্রসঙ্গ শব্দ হিসাবে অন্তর্ভুক্ত করা হবে। লেখকদের মন্তব্য অনুসারে, প্রস্তাবিত মানটি স্কিপ-গ্রামের জন্য 10 এবং সি.বি.ও.ডাব্লিউয়ের জন্য 5 । ^[৭]

সম্প্রসার[সম্পাদনা]

স্বতন্ত্র শব্দের পরিবর্তে, পুরো অনুচ্ছেদ (বা নথি) থেকে শব্দ এম্বেডিং তৈরি করার জন্য ওয়ার্ডটুভেকের একটি সম্প্রসার প্রস্তাব করা হয়েছে। ^[১০] এই সম্প্রসারটিকে অনুচ্ছেদটুভেক বা ডকটুভেক বলা হয় এবং এটি সি , পাইথন ^[১১]^[১২], জাভা / স্কালা^[১৩] সরঞ্জামগুলিতে প্রয়োগ করা হয়েছে । জাভা এবং পাইথন সংস্করণগুলি নতুন, অদেখা নথি থেকে নথি এম্বেডিং তৈরি করা সমর্থন করে।

শব্দার্থক ও বাক্যগঠনসংক্রান্ত সম্পর্কের সংরক্ষণ[সম্পাদনা]

শব্দের মধ্যে ভিন্ন ডিগ্রী মিল ধরতে সক্ষম হয়েছে শব্দ এম্বেডিং। মিকোলভ এট.আল.(২০১৩)^[১৪] আবিষ্কার করলেন যে ভেক্টর পাটিগণিত ব্যবহার করে শব্দার্থক এবং সিনট্যাকটিক নিদর্শনগুলি পুনরুত্পাদন করা যেতে পারে। "পুরুষ:নারী :: ভাই:বোন " এই সম্পর্ক ভেক্টর পাটিগণিত ব্যবহার করে তৈরি করা যেতে পারে শব্দ এম্বেডডিংএর সাহায্যে। "ভাই" - "পুরুষ" + "মহিলা" এর ভেক্টর প্রতিনিধিত্ব করে যা ফলস্বরূপ নিকটবর্তী হয় সেটা মডেলের "বোন" ভেক্টরের খুব আশেপাশে আছে । এই ধরনের সম্পর্কগুলি বিভিন্ন শব্দার্থ সম্পর্কের (যেমন দেশ-রাজধানী) পাশাপাশি সিনট্যাকটিক সম্পর্কের জন্য তৈরি করা যেতে পারে (উদাঃ বর্তমান কাল-অতীত কাল) ।

তথ্যসূত্র[সম্পাদনা]

↑ ^ক ^খ ^গ ^ঘ Mikolov, Tomas; ও অন্যান্য (২০১৩)। "Efficient Estimation of Word Representations in Vector Space"। arXiv:1301.3781  [cs.CL]।
↑ Mikolov, Tomas (২০১৩)। "Distributed representations of words and phrases and their compositionality."। Advances in neural information processing systems।
↑ [১], "Computing numeric representations of words in a high-dimensional space"
↑ Goldberg, Yoav; Levy, Omer (২০১৪)। "word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method"। arXiv:1402.3722  [cs.CL]।
↑ Řehůřek, Radim। Word2vec and friends (Youtube video)। সংগ্রহের তারিখ ২০১৫-০৮-১৪।
↑ Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg S.; Dean, Jeff (২০১৩)। Distributed representations of words and phrases and their compositionality। Advances in Neural Information Processing Systems। arXiv:1310.4546 । বিবকোড:2013arXiv1310.4546M।
↑ ^ক ^খ ^গ "Google Code Archive - Long-term storage for Google Code Project Hosting."। code.google.com। সংগ্রহের তারিখ ২০১৬-০৬-১৩।
↑ "Parameter (hs & negative)"। Google Groups। সংগ্রহের তারিখ ২০১৬-০৬-১৩।
↑ "Visualizing Data using t-SNE" (পিডিএফ)। Journal of Machine Learning Research, 2008. Vol. 9, pg. 2595। সংগ্রহের তারিখ ২০১৭-০৩-১৮।
↑ Le, Quoc; ও অন্যান্য (২০১৪)। "Distributed Representations of Sentences and Documents."। arXiv:1405.4053  [cs.CL]।
↑ "Doc2Vec tutorial using Gensim"। সংগ্রহের তারিখ ২০১৫-০৮-০২।
↑ "Doc2vec for IMDB sentiment analysis"। সংগ্রহের তারিখ ২০১৬-০২-১৮।
↑ "Doc2Vec and Paragraph Vectors for Classification"। ২০১৫-১২-৩১ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০১৬-০১-১৩।
↑ Mikolov, Tomas; Yih, Wen-tau; Zweig, Geoffrey (২০১৩)। "Linguistic Regularities in Continuous Space Word Representations."। HLT-Naacl: 746–751।

[mikolov-1] ক ^খ ^গ ^ঘ Mikolov, Tomas; ও অন্যান্য (২০১৩)। "Efficient Estimation of Word Representations in Vector Space"। arXiv:1301.3781  [cs.CL]।

[2] Mikolov, Tomas (২০১৩)। "Distributed representations of words and phrases and their compositionality."। Advances in neural information processing systems।

[pat-3] [১], "Computing numeric representations of words in a high-dimensional space"

[explain-4] Goldberg, Yoav; Levy, Omer (২০১৪)। "word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method"। arXiv:1402.3722  [cs.CL]।

[extensions-5] Řehůřek, Radim। Word2vec and friends (Youtube video)। সংগ্রহের তারিখ ২০১৫-০৮-১৪।

[mikolov-nips2-6] Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg S.; Dean, Jeff (২০১৩)। Distributed representations of words and phrases and their compositionality। Advances in Neural Information Processing Systems। arXiv:1310.4546 । বিবকোড:2013arXiv1310.4546M।

[:1-7] ক ^খ ^গ "Google Code Archive - Long-term storage for Google Code Project Hosting."। code.google.com। সংগ্রহের তারিখ ২০১৬-০৬-১৩।

[8] "Parameter (hs & negative)"। Google Groups। সংগ্রহের তারিখ ২০১৬-০৬-১৩।

[9] "Visualizing Data using t-SNE" (পিডিএফ)। Journal of Machine Learning Research, 2008. Vol. 9, pg. 2595। সংগ্রহের তারিখ ২০১৭-০৩-১৮।

[doc2vec-10] Le, Quoc; ও অন্যান্য (২০১৪)। "Distributed Representations of Sentences and Documents."। arXiv:1405.4053  [cs.CL]।

[doc2vec_python-11] "Doc2Vec tutorial using Gensim"। সংগ্রহের তারিখ ২০১৫-০৮-০২।

[doc2vec_imdb-12] "Doc2vec for IMDB sentiment analysis"। সংগ্রহের তারিখ ২০১৬-০২-১৮।

[doc2vec_java-13] "Doc2Vec and Paragraph Vectors for Classification"। ২০১৫-১২-৩১ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০১৬-০১-১৩।

[14] Mikolov, Tomas; Yih, Wen-tau; Zweig, Geoffrey (২০১৩)। "Linguistic Regularities in Continuous Space Word Representations."। HLT-Naacl: 746–751।

[১]

[২]

[৩]

[৪]

[৫]

[৬]

[৭]

[৮]

[৯]

[১০]

[১১]

[১২]

[১৩]

[১৪]