বিষয়বস্তুতে চলুন

ওয়ার্ডনেট

উইকিপিডিয়া, মুক্ত বিশ্বকোষ থেকে
ওয়ার্ডনেট
ওয়ার্ডনেটের নিজস্ব সংজ্ঞার একটি স্ন্যাপশট
ওয়ার্ডনেটের নিজস্ব সংজ্ঞার একটি স্ন্যাপশট
মূল উদ্ভাবকজর্জ আর্মিটেজ মিলার
উন্নয়নকারীপ্রিন্সটন বিশ্ববিদ্যালয়
প্রাথমিক সংস্করণ১৯৮০-এর দশকের মাঝামাঝি
স্থিতিশীল সংস্করণ
২০২৪ সংস্করণ / ১ নভেম্বর ২০২৪; ১৪ মাস আগে (2024-11-01)[]
রিপজিটরিhttps://github.com/globalwordnet/english-wordnet
যে ভাষায় লিখিতপ্রোলগ
অপারেটিং সিস্টেমইউনিক্স, লিনাক্স, সোলারিস, উইন্ডোজ
আকার৩৭ মেগাবাইট (যার মধ্যে রয়েছে ১,৬১,৭০৫টি শব্দ, ১,২০,৬৩০টি সমার্থক শব্দসেট এবং মোট ৪,১৮,১৬৮টি শব্দ-অর্থ জোড়া)
উপলব্ধ২০০-র বেশি ভাষা
ধরনলেক্সিকাল ডাটাবেস
লাইসেন্সবিএসডি লাইসেন্স
ওয়েবসাইটwordnet.princeton.edu en-word.net

ওয়ার্ডনেট[] (ইংরেজি: WordNet) হচ্ছে ইংরেজি ভাষার জন্য একটি আভিধানিক শব্দার্থিক নেটওয়ার্ক। এটি ইংরেজি শব্দকে প্রতিশব্দের সেটে ভাগ করে, সেসব প্রতিশব্দের সেটের সংক্ষিপ্ত সংজ্ঞা এবং ব্যবহারের উদাহরণ (gloss) প্রদান করে, এবং তাদের অথবা তাদের সদস্যদের মধ্যে সম্পর্ক প্রদর্শন করে। এজন্য ওয়ার্ডনেটকে একটি অভিধান ও সমার্থশব্দকোষের সমন্বয় হিসেবেও সংজ্ঞায়িত করা যেতে পারে; যদিও এটি ওয়েব ব্রাউজারের মাধ্যমে ব্যবহারকারীদের জন্য সুলভ। এটা স্বয়ংক্রিয় লিখন বিশ্লেষণকৃত্রিম বুদ্ধিমত্তায় প্রাথমিকভাবে ব্যবহার করা হয়।

ওয়ার্ডনেট ডাটাবেজসফটওয়্যার বিএসডি রীতি লাইসেন্সের আওতায় প্রকাশ করা হয়েছে এবং এটি ওয়ার্ডনেট ওয়েবসাইট থেকে সহজেই ডাউনলোড করা যায়। বিতরণ ডাটাবেস উৎপাদনের জন্য আভিধানিক উপাত্ত (আভিধালেখক নথি) ও রচয়িতা (যাকে বলা হয় চূর্ণনশব্দ) উপলভ্য।

ইতিহাস ও দল

[সম্পাদনা]

ওয়ার্ডনেট প্রথম তৈরি হয় ১৯৮৫ সালে শুধুমাত্র ইংরেজি ভাষায়, প্রিন্সটন বিশ্ববিদ্যালয়ের কগনিটিভ সায়েন্স ল্যাবরেটরিতে মনোবিজ্ঞানের অধ্যাপক জর্জ আর্মিটেজ মিলার–এর তত্ত্বাবধানে। পরবর্তীতে এর দায়িত্ব নেন ক্রিস্টিয়ানে ফেলবাম। প্রকল্পটির প্রাথমিক অর্থায়ন করে মার্কিন নৌ গবেষণা দপ্তর (Office of Naval Research), এবং পরে ডারপা (DARPA), ন্যাশনাল সায়েন্স ফাউন্ডেশন, ডিসরাপটিভ টেকনোলজি অফিস (পূর্বে অ্যাডভান্সড রিসার্চ অ্যান্ড ডেভেলপমেন্ট অ্যাক্টিভিটি) এবং REFLEX সহ বিভিন্ন মার্কিন সরকারি সংস্থা। জর্জ মিলার ও ক্রিস্টিয়ানে ফেলবাম ২০০৬ সালে ওয়ার্ডনেট–এ তাঁদের অবদানের জন্য আন্তোনিও জামপোলি পুরস্কার পান।

গ্লোবাল ওয়ার্ডনেট অ্যাসোসিয়েশন একটি অলাভজনক সংগঠন যা বিশ্বের সব ভাষার ওয়ার্ডনেট নিয়ে আলোচনা, শেয়ারিং ও সংযোগের জন্য একটি প্ল্যাটফর্ম প্রদান করে। ক্রিস্টিয়ানে ফেলবাম এবং পিয়েক Th.J.M. ভসেন সংগঠনটির সহ-সভাপতি।[]

ডাটাবেসের বিষয়বস্তু

[সম্পাদনা]

ওয়ার্ডনেটে "Hamburger" এন্ট্রির উদাহরণ

ডাটাবেসটিতে ১,৫৫,৩২৭টি শব্দ রয়েছে যা ১,৭৫,৯৭৯টি সমার্থক শব্দসেটে সংগঠিত, এবং মোট ২,০৭,০১৬টি শব্দ-অর্থ জোড়া। সংকুচিত আকারে এর মাপ প্রায় ১২ মেগাবাইট।

এতে লেক্সিকাল শ্রেণিবিভাগ যেমন বিশেষ্য, ক্রিয়া, বিশেষণ এবং ক্রিয়াবিশেষণ অন্তর্ভুক্ত থাকলেও পূর্বপ্রত্যয়, নির্ধারক এবং অন্যান্য ফাংশন শব্দ উপেক্ষা করা হয়।

একই লেক্সিকাল শ্রেণির আনুমানিক সমার্থক শব্দগুলোকে "সিনসেট"-এ (synset) একত্রিত করা হয়, যেখানে একক শব্দের পাশাপাশি "eat out" বা "car pool"–এর মতো কলোকেশনও থাকে। বহুর্থক শব্দের প্রতিটি ভিন্ন অর্থকে ভিন্ন সিনসেটে রাখা হয়। প্রতিটি সিনসেটের অর্থ সংক্ষিপ্ত সংজ্ঞা (gloss) এবং এক বা একাধিক ব্যবহার উদাহরণের মাধ্যমে স্পষ্ট করা হয়। যেমন একটি বিশেষণ সিনসেট হলো:

ভালো, সঠিক, উপযুক্ত – (কোনো নির্দিষ্ট উদ্দেশ্যে সবচেয়ে উপযোগী বা সঠিক; "টমেটো রোপণের ভালো সময়"; "কর্ম করার সঠিক সময়"; "বড় সমাজবিজ্ঞানী পরিবর্তনের জন্য সময়টা উপযুক্ত")

সব সিনসেট একে অপরের সাথে সেমান্টিক সম্পর্কের মাধ্যমে সংযুক্ত। এই সম্পর্কগুলো সব লেক্সিকাল শ্রেণিতে সমানভাবে পাওয়া যায় না। এর মধ্যে রয়েছে:

বিশেষ্য (Nouns)
  • হাইপারনিম: Y যদি X–এর একটি সাধারণ রূপ হয় (যেমন "কুকুর" এর হাইপারনিম হলো "ক্যানাইন")
  • হাইপোনিম: Y যদি X–এর একটি উপশ্রেণি হয় (যেমন "কুকুর" হলো "ক্যানাইন"–এর হাইপোনিম)
  • কোঅর্ডিনেট টার্ম: X ও Y যদি একই হাইপারনিম শেয়ার করে (যেমন "নেকড়ে" ও "কুকুর")
  • হোলোনিম: Y যদি X–এর একটি পূর্ণাংশ হয় (যেমন "বিল্ডিং" হলো "জানালা"–এর হোলোনিম)
  • মেরোনিম: Y যদি X–এর একটি অংশ হয় (যেমন "জানালা" হলো "বিল্ডিং"–এর মেরোনিম)
ক্রিয়া (Verbs)
  • হাইপারনিম: Y যদি X ক্রিয়ার সাধারণ রূপ হয় (যেমন "শোনা" হলো "অনুভব"–এর হাইপারনিম)
  • ট্রোপোনিম: Y যদি X ক্রিয়ার একটি বিশেষ ভঙ্গি হয় (যেমন "লিস্প করা" হলো "কথা বলা"–এর ট্রোপোনিম)
  • এনটেইলমেন্ট: X করতে হলে অবশ্যই Y করতে হবে (যেমন "ঘুমানো" করতে হলে "নাক ডাকা" অন্তর্ভুক্ত হতে পারে)
  • কোঅর্ডিনেট টার্ম: X ও Y যদি একই হাইপারনিম শেয়ার করে (যেমন "চিৎকার করা" ও "লিস্প করা")

এছাড়াও লেক্সিকাল সম্পর্ক বিদ্যমান। যেমন, বিশেষ্য "director"–এর একটি অর্থ ক্রিয়া "direct"–এর সাথে "মরফোসেমান্টিক" লিঙ্কের মাধ্যমে যুক্ত।

ডাটাবেসের সফটওয়্যারের মরফোলজি ফাংশন ব্যবহারকারীর ইনপুট থেকে শব্দের মূল রূপ (lemma) বের করার চেষ্টা করে। উদাহরণস্বরূপ, "ate" খুঁজলে ফলাফল হিসেবে "eat" পাওয়া যাবে।

জ্ঞানের কাঠামো

[সম্পাদনা]

বিশেষ্য ও ক্রিয়া উভয়ই শ্রেণিবিন্যাসে সংগঠিত, যা হাইপারনিম বা "IS A" সম্পর্ক দ্বারা সংজ্ঞায়িত। উদাহরণস্বরূপ, dog শব্দটির একটি অর্থ হাইপারনিম শ্রেণিবিন্যাসে পাওয়া যায়; একই স্তরে থাকা শব্দগুলো একই সিনসেটের সদস্য হিসেবে কাজ করে। প্রতিটি সমার্থক শব্দসেটের একটি অনন্য সূচক থাকে।

কুকুর, গৃহপালিত কুকুর, ক্যানিস ফ্যামিলিয়ারিস

└─ ক্যানাইন, ক্যানিড  
    └─ মাংসাশী  
        └─ প্লাসেন্টাল, প্লাসেন্টাল স্তন্যপায়ী, ইউথেরিয়ান, ইউথেরিয়ান স্তন্যপায়ী  
            └─ স্তন্যপায়ী  
                └─ মেরুদণ্ডী, ক্রেনিয়েট  
                    └─ কর্ডেট  
                        └─ প্রাণী, জীবন্ত সত্তা, জন্তু, হিংস্র প্রাণী, জীব, প্রাণীকুল  
                            └─ ...

শীর্ষ স্তরে, এই শ্রেণিবিন্যাসগুলো বিশেষ্যের জন্য ২৫টি প্রাথমিক "গাছ" এবং ক্রিয়ার জন্য ১৫টি "গাছ"-এ সংগঠিত (রক্ষণাবেক্ষণ স্তরে এগুলোকে "lexicographic files" বলা হয়)। সবই একটি অনন্য প্রাথমিক সিনসেট "entity"–এর সাথে যুক্ত। বিশেষ্যের শ্রেণিবিন্যাস ক্রিয়ার তুলনায় অনেক গভীর।

বিশেষণগুলোকে শ্রেণিবিন্যাসমূলক গাছে সংগঠিত করা হয়নি। বরং, দুটি "কেন্দ্রীয়" বিপরীতার্থক শব্দ যেমন hot এবং cold বাইনারি মেরু তৈরি করে, যেখানে satellite সমার্থক শব্দ যেমন steaming এবং chilly যথাক্রমে তাদের মেরুর সাথে "similarity" সম্পর্কের মাধ্যমে যুক্ত হয়। এইভাবে বিশেষণগুলোকে গাছের পরিবর্তে "ডাম্ববেল" কাঠামোতে কল্পনা করা যায়।

মনোবৈজ্ঞানিক দিক

[সম্পাদনা]

ওয়ার্ডনেট প্রকল্পের প্রাথমিক লক্ষ্য ছিল একটি লেক্সিকাল ডাটাবেস তৈরি করা, যা ১৯৬০-এর দশকের শেষের দিকে বিকশিত মানব সেমান্টিক মেমরির তত্ত্বগুলোর সাথে সামঞ্জস্যপূর্ণ। মনোবৈজ্ঞানিক পরীক্ষায় দেখা গেছে যে বক্তারা তাদের ধারণাগত জ্ঞানকে একটি অর্থনৈতিক, শ্রেণিবিন্যাসমূলক উপায়ে সংগঠিত করে। ধারণাগত জ্ঞান অ্যাক্সেস করতে প্রয়োজনীয় পুনরুদ্ধারের সময় সরাসরি নির্ভরশীল মনে হয়েছিল বক্তাকে কত স্তর অতিক্রম করতে হয়েছে তার উপর। উদাহরণস্বরূপ, বক্তারা দ্রুত যাচাই করতে পারে যে canary গান গাইতে পারে কারণ একটি ক্যানারি হলো একটি songbird; তবে সামান্য বেশি সময় লাগে যাচাই করতে যে ক্যানারি উড়তে পারে (যেখানে "bird" ধারণায় যেতে হয়, যা একটি superordinate স্তরে) এবং আরও বেশি সময় লাগে যাচাই করতে যে ক্যানারির ত্বক আছে (যেখানে "animal" পর্যন্ত একাধিক হাইপোনিম স্তর অতিক্রম করতে হয়)।

যদিও এই ধরনের মনোবৈজ্ঞানিক পরীক্ষা ও সংশ্লিষ্ট তত্ত্বগুলো সমালোচিত হয়েছে, ওয়ার্ডনেটের কিছু সংগঠন পরীক্ষামূলক প্রমাণের সাথে সামঞ্জস্যপূর্ণ। উদাহরণস্বরূপ, অ্যানোমিক এফেসিয়া নির্দিষ্ট সেমান্টিক শ্রেণির শব্দ উৎপাদনে বক্তাদের সক্ষমতাকে বেছে বেছে প্রভাবিত করে, যা একটি ওয়ার্ডনেট শ্রেণিবিন্যাস। বিপরীতার্থক বিশেষণ (ওয়ার্ডনেটের ডাম্ববেল কাঠামোর কেন্দ্রীয় বিশেষণ) কাকতালীয়ভাবে নয় বরং অনেক বেশি ঘন ঘন একসাথে ঘটে, এবং এটি অনেক ভাষার ক্ষেত্রেই প্রমাণিত হয়েছে।

লেক্সিকাল অন্টোলজি হিসেবে

[সম্পাদনা]

ওয়ার্ডনেটকে কখনও কখনও অন্টোলজি বলা হয়, যদিও এর সৃষ্টিকারীরা এ দাবি করেননি। বিশেষ্য সিনসেটগুলোর হাইপারনিম/হাইপোনিম সম্পর্ককে ধারণাগত শ্রেণিবিন্যাসের বিশেষায়ন সম্পর্ক হিসেবে ব্যাখ্যা করা যেতে পারে। অন্যভাবে বললে, কম্পিউটার বিজ্ঞানের অর্থে ওয়ার্ডনেটকে লেক্সিকাল অন্টোলজি হিসেবে ব্যাখ্যা ও ব্যবহার করা যেতে পারে। তবে এটি ব্যবহারের আগে সংশোধন প্রয়োজন, কারণ এতে শত শত মৌলিক অর্থগত অসঙ্গতি রয়েছে; যেমন (i) পারস্পরিক একচেটিয়া শ্রেণির সাধারণ বিশেষায়ন এবং (ii) বিশেষায়ন শ্রেণিবিন্যাসে পুনরাবৃত্তি। আরও গুরুত্বপূর্ণ হলো, ওয়ার্ডনেটকে জ্ঞান উপস্থাপনার জন্য ব্যবহারযোগ্য লেক্সিকাল অন্টোলজিতে রূপান্তর করতে সাধারণত প্রয়োজন হয় (i) বিশেষায়ন সম্পর্ককে subtypeOf এবং instanceOf সম্পর্ক হিসেবে পৃথক করা, এবং (ii) প্রতিটি শ্রেণির জন্য স্বজ্ঞাত অনন্য শনাক্তকারী যুক্ত করা। যদিও এ ধরনের সংশোধন ও রূপান্তর WebKB-2–এর যৌথভাবে হালনাগাদকৃত জ্ঞানভাণ্ডারে WordNet 1.7 সংযুক্ত করার সময় নথিভুক্ত ও বাস্তবায়িত হয়েছে, অধিকাংশ প্রকল্প যারা দাবি করে জ্ঞান-ভিত্তিক অ্যাপ্লিকেশনের (সাধারণত জ্ঞান-ভিত্তিক তথ্য আহরণ) জন্য ওয়ার্ডনেট ব্যবহার করছে, তারা একে সরাসরি ব্যবহার করে।

ওয়ার্ডনেটকেও একটি আনুষ্ঠানিক স্পেসিফিকেশনে রূপান্তর করা হয়েছে, যেখানে স্বয়ংক্রিয়ভাবে সংযোগ সম্পর্ক আহরণের জন্য এবং এ সম্পর্কগুলোকে ধারণাগত সম্পর্কের একটি সেট হিসেবে ব্যাখ্যা করার জন্য একটি হাইব্রিড বটম-আপ ও টপ-ডাউন পদ্ধতি ব্যবহার করা হয়েছে, যা DOLCE ভিত্তিমূলক অন্টোলজিতে আনুষ্ঠানিকভাবে সংজ্ঞায়িত।

বেশিরভাগ কাজ যেখানে দাবি করা হয় যে ওয়ার্ডনেটকে অন্টোলজিতে সংহত করা হয়েছে, সেখানে ওয়ার্ডনেটের বিষয়বস্তু প্রয়োজনীয় মনে হলে কেবল সংশোধন করা হয়নি; বরং প্রয়োজনে ব্যাপকভাবে পুনঃব্যাখ্যা ও হালনাগাদ করা হয়েছে। যেমন, ওয়ার্ডনেটের শীর্ষ স্তরের অন্টোলজি OntoClean-ভিত্তিক পদ্ধতি অনুযায়ী পুনর্গঠন করা হয়েছিল, অথবা এটি ব্যবহার করা হয়েছিল SENSUS অন্টোলজির নিম্ন স্তরের শ্রেণি তৈরির প্রধান উৎস হিসেবে।

সীমাবদ্ধতা

[সম্পাদনা]

ওয়ার্ডনেটের (এবং সম্পর্কিত সম্পদ যেমন ImageNet) সবচেয়ে আলোচিত সীমাবদ্ধতা হলো কিছু অর্থগত সম্পর্ক কংক্রিট ধারণার জন্য বেশি উপযোগী, বিমূর্ত ধারণার তুলনায়। উদাহরণস্বরূপ, সহজে বোঝানো যায় যে "conifer" হলো "গাছ"-এর একটি ধরন, "গাছ" হলো "উদ্ভিদ"-এর একটি ধরন, আর "উদ্ভিদ" হলো "জীব"-এর একটি ধরন। কিন্তু "ভয়" বা "সুখ"-এর মতো আবেগকে সমান গভীর ও সুনির্দিষ্ট হাইপোনিম/হাইপারনিম সম্পর্কের মধ্যে ফেলা কঠিন।

ওয়ার্ডনেটের অনেক ধারণাই নির্দিষ্ট ভাষার সঙ্গে সম্পর্কিত, এবং ভাষার মধ্যে সবচেয়ে নির্ভুল প্রতিবেদনকৃত মানচিত্রায়ন মাত্র ৯৪%। সমার্থক শব্দ, হাইপোনিম, মেরোনিম ও বিপরীতার্থক শব্দ এখন পর্যন্ত প্রতিটি ভাষার ওয়ার্ডনেটে পাওয়া গেছে, তবে অন্যান্য অর্থগত সম্পর্ক ভাষাভেদে নির্দিষ্ট। এটি ভাষার মধ্যে আন্তঃঅপারেবিলিটিকে সীমিত করে। তবে এটি ভাষার পার্থক্যগুলোকে আলোকিত ও অধ্যয়নের জন্য ওয়ার্ডনেটকে একটি সম্পদে পরিণত করে, তাই সব ক্ষেত্রে এটি সীমাবদ্ধতা নয়।

ওয়ার্ডনেটে শব্দের উৎপত্তি (etymology) বা উচ্চারণ সম্পর্কে কোনো তথ্য নেই এবং ব্যবহার সংক্রান্ত তথ্যও সীমিত। ওয়ার্ডনেট মূলত দৈনন্দিন ব্যবহৃত শব্দগুলোকে অন্তর্ভুক্ত করতে চায়, তবে বিশেষ ক্ষেত্রের পরিভাষা তাতে বেশি নেই।

ওয়ার্ডনেট ইংরেজি ভাষার জন্য সবচেয়ে বহুল ব্যবহৃত গণনামূলক লেক্সিকন, বিশেষ করে শব্দার্থ নির্ধারণে (Word-Sense Disambiguation, WSD), যার উদ্দেশ্য হলো পাঠ্যে থাকা শব্দগুলোর জন্য প্রাসঙ্গিক অর্থ (অর্থাৎ সিনসেট সদস্য) নির্ধারণ করা। তবে বলা হয়েছে, ওয়ার্ডনেটে শব্দার্থের বিভাজনগুলো অত্যধিক সূক্ষ্ম। এই সমস্যা WSD সিস্টেমগুলোকে মানুষের সমপর্যায়ের কার্যক্ষমতা অর্জনে বাধা দেয়, কারণ মানুষ নিজেরাও সর্বদা একমত হয় না যখন কোনো শব্দের জন্য প্রাসঙ্গিক অর্থ নির্বাচন করতে বলা হয়। সূক্ষ্মতার এই সমস্যার সমাধানে প্রস্তাব করা হয়েছে এমন ক্লাস্টারিং পদ্ধতি, যা স্বয়ংক্রিয়ভাবে একই শব্দের অনুরূপ অর্থগুলোকে একত্রিত করে।

আপত্তিকর বিষয়বস্তু

[সম্পাদনা]

ওয়ার্ডনেটে এমন শব্দ অন্তর্ভুক্ত রয়েছে যেগুলোকে অবমাননাকর বা আক্রমণাত্মক হিসেবে ধরা যেতে পারে। একটি শব্দের অর্থ সময় ও সামাজিক গোষ্ঠী অনুসারে পরিবর্তিত হতে পারে, তাই ওয়ার্ডনেট সবসময় কোনো শব্দকে স্বতন্ত্রভাবে "অবমাননাকর" বা "আক্রমণাত্মক" হিসেবে সংজ্ঞায়িত করতে পারে না। তাই, ওয়ার্ডনেট ব্যবহারকারীদের নিজেদের পদ্ধতি প্রয়োগ করে আক্রমণাত্মক বা অবমাননাকর শব্দ শনাক্ত করতে হয়।

তবে এই সীমাবদ্ধতা অন্যান্য লেক্সিকাল সম্পদের ক্ষেত্রেও সত্য, যেমন অভিধান ও প্রতিশব্দকোষ, যেখানে অবমাননাকর ও আক্রমণাত্মক শব্দও অন্তর্ভুক্ত থাকে। কিছু অভিধান অবমাননাকর শব্দগুলোকে চিহ্নিত করে, কিন্তু সব প্রেক্ষাপটে শব্দগুলো গ্রহণযোগ্য বা আক্রমণাত্মক কিনা তা জানায় না। তাই অভিধান ব্যবহারকারীদের নিজেদের পদ্ধতি প্রয়োগ করে সব আক্রমণাত্মক শব্দ শনাক্ত করতে হয়।

লাইসেন্সপ্রাপ্ত বনাম মুক্ত ওয়ার্ডনেট

[সম্পাদনা]

কিছু ওয়ার্ডনেট পরবর্তীতে অন্যান্য ভাষার জন্য তৈরি হয়েছিল। ২০১২ সালের একটি জরিপে ওয়ার্ডনেটগুলো ও তাদের প্রাপ্যতা তালিকাভুক্ত করা হয়েছে। ওয়ার্ডনেটের ব্যবহার বিস্তৃত করার প্রচেষ্টায়, গ্লোবাল ওয়ার্ডনেট সম্প্রদায় ধীরে ধীরে তাদের ওয়ার্ডনেটগুলোকে মুক্ত ডোমেইনে পুনঃলাইসেন্স করছিল, যাতে গবেষক ও ডেভেলপাররা সহজেই এগুলোতে প্রবেশ করতে ও ব্যবহার করতে পারেন, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) কাজগুলোতে অন্টোলজিকাল ও লেক্সিকাল জ্ঞান প্রদানের জন্য।

ওপেন মাল্টিলিঙ্গুয়াল ওয়ার্ডনেট বিভিন্ন ভাষায় মুক্ত লাইসেন্সপ্রাপ্ত ওয়ার্ডনেটে প্রবেশাধিকার প্রদান করে, যা সবই প্রিন্সটন ওয়ার্ডনেট অব ইংলিশ (PWN)-এর সাথে সংযুক্ত। এর লক্ষ্য হলো একাধিক ভাষায় ওয়ার্ডনেট ব্যবহার সহজ করা।

প্রয়োগ

[সম্পাদনা]

ওয়ার্ডনেট তথ্যপ্রযুক্তি ব্যবস্থায় বিভিন্ন উদ্দেশ্যে ব্যবহার করা হয়েছে, যেমন শব্দ-অর্থ বিভ্রান্তি নিরসন (word-sense disambiguation), তথ্য অনুসন্ধান, স্বয়ংক্রিয় পাঠ শ্রেণিবিন্যাস, স্বয়ংক্রিয় পাঠ সারাংশ তৈরি, যন্ত্র অনুবাদ এবং এমনকি স্বয়ংক্রিয় ক্রসওয়ার্ড পাজল তৈরি।

ওয়ার্ডনেটের একটি সাধারণ ব্যবহার হলো শব্দগুলির মধ্যে সাদৃশ্য নির্ধারণ করা। এ উদ্দেশ্যে বিভিন্ন অ্যালগরিদম প্রস্তাবিত হয়েছে, যেমন ওয়ার্ডনেটের গ্রাফ কাঠামোতে শব্দ ও সিনসেটগুলির মধ্যে দূরত্ব মাপা, অর্থাৎ সিনসেটগুলির মধ্যে প্রান্ত (edge) গণনা করা। ধারণাটি হলো, দুটি শব্দ বা সিনসেট যত কাছাকাছি, তাদের অর্থও তত কাছাকাছি। একাধিক ওয়ার্ডনেট-ভিত্তিক শব্দ সাদৃশ্য অ্যালগরিদম একটি পার্ল প্যাকেজে (WordNet::Similarity) এবং একটি পাইথন প্যাকেজে (NLTK) বাস্তবায়িত হয়েছে। অন্যান্য উন্নত ওয়ার্ডনেট-ভিত্তিক সাদৃশ্য কৌশলের মধ্যে রয়েছে ADW, যার বাস্তবায়ন জাভাতে পাওয়া যায়। ওয়ার্ডনেট অন্যান্য শব্দভান্ডারের সাথে আন্তঃসংযোগ করতেও ব্যবহার করা যায়।

ইন্টারফেস

[সম্পাদনা]

প্রিন্সটন একটি সম্পর্কিত প্রকল্পের তালিকা রক্ষণাবেক্ষণ করে যেখানে ওয়ার্ডনেটে প্রবেশের জন্য বিভিন্ন প্রোগ্রামিং ভাষা ও পরিবেশে ব্যবহৃত জনপ্রিয় অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেসের লিঙ্ক রয়েছে।

সম্পর্কিত প্রকল্প ও সম্প্রসারণ

[সম্পাদনা]

ওয়ার্ডনেট সেমান্টিক ওয়েবের বেশ কয়েকটি ডাটাবেসের সাথে সংযুক্ত। ওয়ার্ডনেট প্রায়শই সিনসেট ও অনটোলজির শ্রেণিবিভাগগুলির মধ্যে ম্যাপিং এর মাধ্যমে পুনঃব্যবহার করা হয়। বেশিরভাগ ক্ষেত্রেই, ওয়ার্ডনেটের শুধুমাত্র শীর্ষ-স্তরের শ্রেণিবিভাগ ম্যাপ করা হয়।

গ্লোবাল ওয়ার্ডনেট অ্যাসোসিয়েশন

[সম্পাদনা]

গ্লোবাল ওয়ার্ডনেট অ্যাসোসিয়েশন (GWA) একটি জনসাধারণের জন্য উন্মুক্ত ও অলাভজনক সংস্থা, যা বিশ্বের সব ভাষার জন্য ওয়ার্ডনেট নিয়ে আলোচনা, শেয়ারিং এবং সংযোগের জন্য একটি প্ল্যাটফর্ম সরবরাহ করে। GWA ভাষাগুলির মধ্যে ওয়ার্ডনেটের মানকরণকেও উৎসাহিত করে, যাতে মানব ভাষায় সিনসেট গননার অভিন্নতা নিশ্চিত করা যায়। GWA বিশ্বজুড়ে উন্নত ওয়ার্ডনেটগুলির একটি তালিকা সংরক্ষণ করে।

অন্যান্য ভাষা

[সম্পাদনা]
  • আরবি ওয়ার্ডনেট: আরবি ভাষার জন্য ওয়ার্ডনেট।
  • আরবি অনটোলজি, একটি ভাষাতাত্ত্বিক অনটোলজি যা ওয়ার্ডনেটের একই কাঠামো অনুসরণ করে এবং এর সাথে ম্যাপ করা হয়েছে।
  • বালকানেট প্রকল্প ছয়টি ইউরোপীয় ভাষার (বুলগেরিয়ান, চেক, গ্রিক, রোমানিয়ান, তুর্কি এবং সার্বিয়ান) জন্য ওয়ার্ডনেট তৈরি করেছে। এই প্রকল্পের জন্য একটি XML-ভিত্তিক ফ্রি ওয়ার্ডনেট এডিটর তৈরি করা হয়েছিল। এই এডিটর – VisDic – বর্তমানে সক্রিয় উন্নয়নে নেই, তবে এখনও বিভিন্ন ওয়ার্ডনেট তৈরির জন্য ব্যবহৃত হয়। এর উত্তরসূরি DEBVisDic একটি ক্লায়েন্ট-সার্ভার অ্যাপ্লিকেশন এবং বর্তমানে এটি করনেট্টো প্রকল্পের ডাচ, পোলিশ, হাঙ্গেরিয়ান, কয়েকটি আফ্রিকান ভাষা এবং চীনা সহ বিভিন্ন ওয়ার্ডনেট সম্পাদনার জন্য ব্যবহৃত হয়।
  • BulNet হলো ওয়ার্ডনেটের একটি বুলগেরিয়ান সংস্করণ, যা Institute for Bulgarian Language, Bulgarian Academy of Sciences–এর কম্পিউটেশনাল লিঙ্গুইস্টিক্স বিভাগে তৈরি হয়েছে।
  • CWN (চাইনিজ ওয়ার্ডনেট বা 中文詞彙網路) ন্যাশনাল তাইওয়ান ইউনিভার্সিটি দ্বারা সমর্থিত।
  • EuroWordNet প্রকল্প বেশ কয়েকটি ইউরোপীয় ভাষার জন্য ওয়ার্ডনেট তৈরি করেছে এবং সেগুলিকে একসাথে যুক্ত করেছে; তবে এগুলো ফ্রি নয়। গ্লোবাল ওয়ার্ডনেট প্রকল্পের লক্ষ্য সব ভাষার জন্য "ওয়ার্ডনেট" তৈরি ও সংযোগের প্রচেষ্টা সমন্বয় করা। অক্সফোর্ড ইউনিভার্সিটি প্রেস, অক্সফোর্ড ইংরেজি অভিধানের প্রকাশক, নিজেদের অনলাইন প্রতিদ্বন্দ্বী ওয়ার্ডনেট তৈরি করার পরিকল্পনা ঘোষণা করেছে।
  • FinnWordNet হলো ফিনিশ সংস্করণ যেখানে মূল ইংরেজি ওয়ার্ডনেটের সব এন্ট্রি অনুবাদ করা হয়েছে।
  • GermaNet হলো একটি জার্মান সংস্করণ, যা টিউবিঙ্গেন বিশ্ববিদ্যালয়ে তৈরি।
  • IndoWordNet হলো ভারতের ১৮টি নির্ধারিত ভাষার (অসমীয়া, বাংলা, বডো, গুজরাটি, হিন্দি, কন্নড়, কাশ্মীরি, কঙ্কনি, মালয়ালম, মণিপুরি, মারাঠি, নেপালি, ওড়িয়া, পাঞ্জাবি, সংস্কৃত, তামিল, তেলেগু ও উর্দু) জন্য ওয়ার্ডনেটের একটি সংযুক্ত জ্ঞানভাণ্ডার।
  • JAWS (Just Another WordNet Subset), ফরাসি সংস্করণ যা Wiktionary ও সেমান্টিক স্পেস ব্যবহার করে তৈরি হয়েছে।
  • WordNet Bahasa: মালয় ও ইন্দোনেশিয়ান ভাষার জন্য ওয়ার্ডনেট, নানইয়াং ইউনিভার্সিটি অফ টেকনোলজি দ্বারা তৈরি।
  • মালয়ালম ওয়ার্ডনেট, কোচিন ইউনিভার্সিটি অফ সায়েন্স অ্যান্ড টেকনোলজি দ্বারা তৈরি।
  • Multilingual Central Repository (MCR) একই EuroWordNet ফ্রেমওয়ার্কে স্প্যানিশ, কাতালান, বাস্ক, গ্যালিশিয়ান এবং পর্তুগিজ ভাষার ওয়ার্ডনেটকে ইংরেজির সাথে যুক্ত করেছে।
  • MultiWordNet প্রকল্প, একটি বহুভাষিক ওয়ার্ডনেট, যার লক্ষ্য প্রিন্সটন ওয়ার্ডনেটের সাথে দৃঢ়ভাবে সামঞ্জস্যপূর্ণ একটি ইতালিয়ান ওয়ার্ডনেট তৈরি করা।
  • OpenDutchWordNet, একটি ডাচ লেক্সিকাল সেমান্টিক ডাটাবেস।
  • OpenWN-PT একটি ব্রাজিলিয়ান পর্তুগিজ সংস্করণ, যা CC-BY-SA লাইসেন্সে ফ্রি ডাউনলোডের জন্য উন্মুক্ত।
  • plWordNet হলো একটি পোলিশ সংস্করণ, যা ভ্রত্সওয়াফ প্রযুক্তি বিশ্ববিদ্যালয়ে তৈরি হয়েছে।
  • PolNet হলো একটি পোলিশ সংস্করণ, যা আদম মিকিয়েভিজ বিশ্ববিদ্যালয়, পোজনানে তৈরি (CC BY-NC-ND 3.0 লাইসেন্সে বিতরণকৃত)।
  • BalkaNet এবং EuroWordNet প্রকল্পের কারণে মূলটির সাথে সংযুক্ত স্বতন্ত্র ওয়ার্ডনেট তৈরি সম্ভব হয়েছে। এর মধ্যে দুটি হলো রাশিয়ান ওয়ার্ডনেট (পিটার্সবার্গ স্টেট ইউনিভার্সিটি অব মিনস অব কমিউনিকেশন পৃষ্ঠপোষকতায়, নেতৃত্ব দেন S.A. Yablonsky) এবং Russnet (সেন্ট পিটার্সবার্গ স্টেট ইউনিভার্সিটি দ্বারা তৈরি)।
  • UWN হলো একটি স্বয়ংক্রিয়ভাবে তৈরি বহুভাষিক লেক্সিকাল জ্ঞানভাণ্ডার, যা এক মিলিয়নেরও বেশি শব্দকে অন্তর্ভুক্ত করে।
  • WOLF (WordNet Libre du Français), ফরাসি সংস্করণ।

লিঙ্কড ডেটা

[সম্পাদনা]
  • BabelNet, একটি বিশাল বহুভাষিক সেমান্টিক নেটওয়ার্ক, যা ওয়ার্ডনেট ও উইকিপিডিয়াকে একত্রিত করে তৈরি।
  • SUMO অনটোলজি–তে সমস্ত ওয়ার্ডনেট সিনসেট ও SUMO–এর মধ্যে একটি সম্পূর্ণ ম্যানুয়াল ম্যাপিং রয়েছে।
  • OpenCyc, একটি উন্মুক্ত অনটোলজি ও জ্ঞানভাণ্ডার, যেখানে ১২,০০০ শব্দ ওয়ার্ডনেটের সমার্থক সেটের সাথে যুক্ত।
  • DOLCE, WonderWeb Foundational Ontologies Library (WFOL)–এর প্রথম মডিউল। OntoWordNet ওয়ার্ডনেটের শীর্ষ স্তর ও DOLCE–এর মধ্যে পরীক্ষামূলক মিল।
  • DBpedia, একটি কাঠামোবদ্ধ তথ্যভাণ্ডার, যা ওয়ার্ডনেটের সাথে সংযুক্ত।
  • eXtended WordNet ইউনিভার্সিটি অফ টেক্সাস এট ডালাসের একটি প্রকল্প, যেখানে ওয়ার্ডনেট গ্লসগুলিকে সেমান্টিকভাবে বিশ্লেষণ করা হয়।
  • GCIDE প্রকল্প একটি অভিধান তৈরি করেছে যা ১৯১৩ সালের একটি পাবলিক ডোমেইন ওয়েবস্টার অভিধানকে ওয়ার্ডনেট সংজ্ঞার সাথে একত্রিত করে।
  • ImageNet হলো একটি চিত্রভাণ্ডার যা ওয়ার্ডনেটের শ্রেণিবিন্যাস (শুধুমাত্র বিশেষ্য) অনুসারে সংগঠিত। বর্তমানে প্রতিটি নোডে গড়ে ৫০০+ চিত্র রয়েছে।
  • BioWordnet, একটি বায়োমেডিক্যাল সম্প্রসারণ, সংস্করণগুলির স্থায়িত্ব সমস্যার কারণে পরিত্যক্ত হয়েছে।
  • WikiTax2WordNet, একটি প্রকল্প যা ওয়ার্ডনেট সিনসেট ও উইকিপিডিয়া শ্রেণিবিভাগকে সংযুক্ত করে।
  • WordNet++, একটি সম্পদ যেখানে উইকিপিডিয়া থেকে সংগৃহীত মিলিয়ন+ সেমান্টিক এজ রয়েছে।
  • SentiWordNet, একটি সম্পদ যা ওয়ার্ডনেট 3.0 সিনসেটগুলোকে ইতিবাচকতা, নেতিবাচকতা ও নিরপেক্ষতার ডিগ্রির সাথে ট্যাগ করেছে।
  • ColorDict, একটি অ্যান্ড্রয়েড অ্যাপ্লিকেশন, যা ওয়ার্ডনেট ডাটাবেস ও উইকিপিডিয়ার মতো অন্যান্য উৎস ব্যবহার করে।
  • UBY-LMF, ১০টি সম্পদ (WordNet সহ) সমন্বিত একটি ডাটাবেস।

সম্পর্কিত প্রকল্প

[সম্পাদনা]
  • TaxoLLaMa হলো একটি ওয়ার্ডনেট-ভিত্তিক মডেল, যা LLMs–এর লেক্সিকাল-সেমান্টিক জ্ঞান ধারণের ক্ষমতা বাড়াতে তৈরি।
  • FrameNet একটি লেক্সিকাল ডাটাবেস, যা ওয়ার্ডনেটের সাথে কিছু সাদৃশ্য বহন করে।
  • লেক্সিকাল মার্কআপ ফ্রেমওয়ার্ক (LMF) হলো একটি ISO স্ট্যান্ডার্ড, যা লেক্সিকন নির্মাণের জন্য একটি মানসম্মত কাঠামো নির্ধারণ করে। এর উপসেট WordNet-LMF নামে পরিচিত। KYOTO প্রকল্পে এর একটি বাস্তবায়ন করা হয়েছে।
  • UNL Programme, জাতিসংঘের আওতাধীন একটি প্রকল্প, যা বিভিন্ন ভাষার লেক্সিকোসেমান্টিক তথ্য একত্রিত করে।
  • Meaning Monkey হলো ওয়ার্ডনেট ডাটাবেসের ওপর ভিত্তি করে তৈরি একটি ফ্রি অনলাইন অভিধান।
  • Dictionary.video একটি ভিডিও অভিধান, যা উচ্চারণের ওপর ফোকাস করে। এর টেক্সট অংশ ওয়ার্ডনেট থেকে নেওয়া।

বিতরণ

[সম্পাদনা]

ওয়ার্ডনেট ডাটাবেস নিম্নলিখিত সফটওয়্যারের জন্য অভিধান প্যাকেজ (সাধারণত একটি ফাইল) আকারে বিতরণ করা হয়:

  • Babylon
  • GoldenDict
  • Lingoes
  • LexSemantic : রেফারেন্স ওয়ার্কস (অভিধান, বিশ্বকোষ ইত্যাদি) প্রকাশের জন্য একটি ডিজিটাল প্ল্যাটফর্ম। এতে WordnetPlus অন্তর্ভুক্ত।

তথ্যসূত্র

[সম্পাদনা]
  1. "ওয়ার্ডনেট সংবাদ"
  2. "WordNet: A Lexical Database for English"Princeton University। সংগ্রহের তারিখ ১৫ সেপ্টেম্বর ২০২৫
  3. Global WordNet Association