উইকিপিডিয়া:ডাটাবেজ ডাউনলোড

উইকিপিডিয়া, মুক্ত বিশ্বকোষ থেকে

উইকিপিডিয়া আগ্রহী ব্যবহারকারীদের জন্য উপলব্ধ সমস্ত সামগ্রীর বিনামূল্য মুদ্রণ প্রদান করে। এই ডাটাবেজগুলো মিররিং, ব্যক্তিগত ব্যবহার, তথ্য সংরক্ষণ, অফলাইনে ব্যবহার বা ডাটাবেজ কুয়েরি (যেমন: উইকিপিডিয়া:রক্ষণাবেক্ষণের জন্য) প্রভৃতির জন্য ব্যবহার করা হতে পারে। সমস্ত পাঠ্য বিষয়বস্তু ক্রিয়েটিভ কমন্স অ্যাট্রিবিউশন-শেয়ারঅ্যালাইক ৩.০ লাইসেন্স (সিসি-বাই-এসএ) এবং গ্নু ফ্রি ডকুমেন্টেশন লাইসেন্স (জিএফডিএল) এর অধীনে বহু-লাইসেন্সযুক্ত। ছবি এবং অন্যান্য ফাইল বিভিন্ন শর্তে পাওয়া যায়, যেমনটি বিবরণ পৃষ্ঠায় বিস্তারিত আছে। এই লাইসেন্সগুলি মেনে চলার বিষয়ে আমাদের পরামর্শের জন্য, উইকিপিডিয়া:কপিরাইট দেখুন।

অফলাইন উইকিপিডিয়া রিডার[সম্পাদনা]

অফলাইনে থাকা অবস্থায় উইকিপিডিয়া পড়ার অনেক উপায়ের মধ্যে কয়েকটি:

সেগুলোর মধ্যে কিছু মোবাইল অ্যাপ্লিকেশন – দেখুন " উইকিপিডিয়া মোবাইল অ্যাপ্লিকেশনের তালিকা"।

কোথায় পাব?[সম্পাদনা]

বাংলা ভাষার উইকিপিডিয়া[সম্পাদনা]

  • যেকোনো উইকিমিডিয়া ফাউন্ডেশন প্রকল্প থেকে ডাম্প: dumps.wikimedia.org এবং ইন্টারনেট আর্কাইভ
  • এসকিউএল এবং এক্সএমএল-এ বাংলা উইকিপিডিয়া ডাম্প: dumps.wikimedia.org/bnwiki/ এবং ইন্টারনেট আর্কাইভ
    • একটি BitTorrent ক্লায়েন্ট ব্যবহার করে ডেটা ডাম্প ডাউনলোড করুন (টরেন্টিংয়ের অনেক সুবিধা রয়েছে। সার্ভারের লোড হ্রাস করে, ব্যান্ডউইথের খরচ বাঁচায়)।
    • pages-articles-multistream.xml.bz2 – শুধুমাত্র বর্তমান সংশোধন, কোন কথা বা ব্যবহারকারীর পৃষ্ঠা নেই; এটি সম্ভবত আপনি যা চান, এবং প্রায় 18 জিবি সংকুচিত (ডিকম্প্রেস করা হলে 78 গিগাবাইট পর্যন্ত প্রসারিত হয়)।
    • pages-meta-current.xml.bz2 – শুধুমাত্র বর্তমান সংশোধন, সমস্ত পৃষ্ঠা (আলাপ সহ)
    • abstract.xml.gz – পৃষ্ঠা বিমূর্ত
    • all-titles-in-ns0.gz – শুধুমাত্র নিবন্ধের শিরোনাম (পুনঃনির্দেশ সহ)
    • পৃষ্ঠা এবং লিঙ্কগুলির জন্য SQL ফাইলগুলিও উপলব্ধ
    • সমস্ত সংশোধন, সমস্ত পৃষ্ঠা: এই ফাইলগুলি কয়েক টেরাবাইটের পাঠ্যে বৃদ্ধি পাবে। আপনি যদি জানেন যে আপনি এই পরিমাণ ডেটার সাথে মানিয়ে নিতে পারেন তবেই এগুলো ডাউনলোড করুন৷ সর্বশেষ ডাম্পে যান এবং তাদের নামে 'pages-meta-history' নামে আছে এমন সমস্ত ফাইলের জন্য দেখুন।
  • এক্সএমএল ফরম্যাটে ডাটাবেসের একটি উপসেট ডাউনলোড করতে, যেমন একটি নির্দিষ্ট বিভাগ বা নিবন্ধগুলির একটি তালিকা দেখুন: বিশেষ: রপ্তানি, সাহায্য:রপ্তানিতে বিস্তারিত বর্ণনা করা হয়েছে।
  • উইকি ফ্রন্ট-এন্ড সফ্টওয়্যার: মিডিয়াউইকি [১]
  • ডাটাবেস ব্যাকএন্ড সফ্টওয়্যার: মাইএসকিউএল
  • ইমেজ ডাম্প: নীচে দেখুন।

আমি কি মাল্টিস্ট্রিম নিব?[সম্পাদনা]

মূলকথা: মাল্টিস্ট্রিম ভার্সনটি পান! (এবং ইনডেক্স ফাইলে প্রতিরূপ: pages-articles-multistream-index.txt.bz2)

pages-articles.xml.bz2 এবং pages-articles-multistream.xml.bz2 উভয়েরই একই xml বিষয়বস্তু রয়েছে। তাই আপনি যদি হয় আনপ্যাক করেন, আপনি একই ডেটা পাবেন। কিন্তু মাল্টিস্ট্রিমে, পুরো ফাইলটি আনপ্যাক না করেই আর্কাইভ থেকে একটি নিবন্ধ পাওয়া সম্ভব। আপনার রিডারের আপনার জন্য এটির সমর্থন রাখা উচিত। যদি আপনার পাঠক এটিকে সমর্থন না করে তবে এটি একই কাজ করবে; যেহেতু মাল্টিস্ট্রিম এবং নন-মাল্টিস্ট্রিম একই xml ধারণ করে। মাল্টিস্ট্রিমের একমাত্র নেতিবাচক দিক হল এটি সামান্য বড়। আপনি ছোট নন-মাল্টিস্ট্রিম আর্কাইভ পেতে প্রলুব্ধ হতে পারেন, কিন্তু আপনি যদি এটি আনপ্যাক না করেন ততক্ষণ পর্যন্ত এটি কোনো কাজের নয়। আর এটি তার আসল আকারের ~5-10 গুণে আনপ্যাক হবে। বজ্র আঁটুনি, ফসকা গেরো- তাই মাল্টিস্ট্রিমই নিন।

উল্লেখ্য, মাল্টিস্ট্রিম ডাম্প ফাইলে ভ্যানিলা ফাইলের বিপরীতে একাধিক bz2 'stream' (bz2 header, body, footer) একসাথে একটি ফাইলে যুক্ত থাকে, যেখানে ভ্যানিলাতে কেবল একটি stram রয়েছে। মাল্টিস্ট্রিম ডাম্পে প্রতিটি পৃথক 'stream' (বা প্রকৃতই ফাইল) ১০০টি পৃষ্ঠা রয়েছে, সম্ভবত শেষটি ছাড়া।

মাল্টিস্ট্রিম কিভাবে ব্যবহার করবেন?[সম্পাদনা]

মাল্টিস্ট্রিমের জন্য, আপনি একটি সূচী ফাইল পেতে পারেন, pages-articles-multistream-index.txt.bz2 । এই ইনডেক্সের প্রথম ক্ষেত্রটি হল page-articles-multistream.xml.bz2 আর্কাইভে বাইটের সংখ্যাঅনুসন্ধান করার জন্য, দ্বিতীয়টি নিবন্ধ আইডি, তৃতীয়টি নিবন্ধের শিরোনামের জন্য৷

ইনডেক্সে পাওয়া বাইট অফসেট ব্যবহার করে ডিডি দিয়ে আর্কাইভ থেকে একটি ছোট অংশ কেটে ফেলুন। আপনি তারপর হয় bzip2 এটিকে ডিকম্প্রেস করতে পারবেন অথবা bzip2recover ব্যবহার করতে পারবেন এবং নিবন্ধ আইডির জন্য প্রথম ফাইলটি অনুসন্ধান করতে পারবেন।

https://docs.python.org/3/library/bz2.html#bz2 দেখুন। BZ2Decompressor এই ধরনের মাল্টিস্ট্রিম ফাইল এবং পাইথন দিয়ে কীভাবে ডিকম্প্রেস করা যায় সে সম্পর্কে তথ্যের জন্য। এছাড়াও https://gerrit.wikimedia.org/r/plugins/gitiles/operations/dumps/+/ariel/toys/bz2multistream/README.txt এবং এটির সম্পর্কিত পুরানো কাজের খেলাঘরের ফাইলগুলি দেখুন৷

অন্যান্য ভাষায়[সম্পাদনা]

dumps.wikimedia.org ডিরেক্টরিতে আপনি শুধু বাংলা নয়, উইকিমিডিয়া প্রকল্পের সকল সর্বশেষ এসকিউএল এবং এক্সএমএল ডাম্প পাবেন। সহজ করার জন্য ভাষা কোড এবং উপযুক্ত প্রকল্পের জন্য উপ-ডিরেক্টরিগুলির নামকরণ করা হয়েছে। একই কাঠামো সহ আরও কিছু ডিরেক্টরি (যেমন সাধারণ, ইতিহাস) বিদ্যমান। এই ডাম্পগুলো ইন্টারনেট আর্কাইভ থেকেও পাওয়া যায়।

আরো দেখুন[সম্পাদনা]

বহিঃসংযোগ[সম্পাদনা]