বিষয়বস্তুতে চলুন

সরলীকৃত আণবিক ইনপুট লাইন এন্ট্রি সিস্টেম

উইকিপিডিয়া, মুক্ত বিশ্বকোষ থেকে
SMILES
ফাইলনাম এক্সটেনশন
.smi
ইন্টারনেট মাধ্যমের ধরনchemical/x-daylight-smiles
বিন্যাসের ধরনchemical file format
SMILES generation algorithm for ciprofloxacin: break cycles, then write as branches off a main backbone

সরলীকৃত আণবিক ইনপুট লাইন এন্ট্রি সিস্টেম হলো এমন একটি স্পেসিফিকেশন যা সংক্ষিপ্ত ASCII স্ট্রিং ব্যবহার করে chemical species এর গঠন বর্ণনা করার জন্য line notation আকারে প্রদান করা হয়েছে। SMILES স্ট্রিংগুলোকে বেশিরভাগ molecule editor দ্বারা ইম্পোর্ট করে, পুনরায় two-dimensional চিত্র বা three-dimensional মডেলে রূপান্তরিত করা যায়।

মূল SMILES স্পেসিফিকেশনটি ১৯৮০-এর দশকে শুরু করা হয়েছিল। এরপর থেকে এটি সংশোধিত ও সম্প্রসারিত করা হয়েছে। ২০০৭ সালে, open source রসায়ন কমিউনিটিতে OpenSMILES নামে একটি open standard তৈরি করা হয়।

ইতিহাস

[সম্পাদনা]

মূল SMILES স্পেসিফিকেশনটি ১৯৮০-এর দশকে David Weininger দ্বারা USEPA Mid-Continent Ecology Division Laboratory-তে Duluth এ শুরু করা হয়েছিল।[][][][]

প্রাথমিক উন্নয়নে অবদান রাখার জন্য "Gilman Veith এবং Rose Russo (USEPA) এবং Albert Leo ও Corwin Hansch (Pomona College)" কে স্বীকৃতি দেওয়া হয়, যারা এই কাজে সহায়তা করেছিলেন। এছাড়া, Arthur Weininger (Pomona; Daylight CIS) এবং Jeremy Scofield (Cedar River Software, Renton, WA) প্রোগ্রামিং সহায়তা প্রদান করেছিলেন।[] Environmental Protection Agency SMILES বিকাশের জন্য প্রাথমিক প্রকল্পটি অর্থায়ন করেছিল।[][]

এরপর থেকে এটি সংশোধিত ও সম্প্রসারিত হয়েছে, বিশেষত Daylight Chemical Information Systems দ্বারা। ২০০৭ সালে, Blue Obelisk ওপেন-সোর্স রসায়ন সম্প্রদায় "OpenSMILES" নামে একটি open standard তৈরি করে। অন্যান্য 'লিনিয়ার' নোটেশনের মধ্যে রয়েছে Wiswesser Line Notation (WLN), ROSDAL এবং SLN (Tripos Inc)।

জুলাই ২০০৬ সালে, IUPAC InChI কে রাসায়নিক সূত্র উপস্থাপনের একটি মান হিসেবে প্রবর্তন করে। SMILES সাধারণত InChI-এর তুলনায় আরও সহজবোধ্য হিসেবে বিবেচিত হয়, পাশাপাশি এতে সফটওয়্যার সমর্থনও বেশি এবং graph theory-এর মতো বিস্তৃত তাত্ত্বিক ভিত্তি রয়েছে।

পরিভাষা

[সম্পাদনা]

SMILES শব্দটি একটি রেখা নোটেশনকে বোঝায় যা দ্বারা আণবিক গঠন এনকোড করা হয়, এবং নির্দিষ্ট ক্ষেত্রে এটিকে যথাযথভাবে SMILES স্ট্রিং বলা উচিত। তবে, SMILES শব্দটি সাধারণত একক SMILES স্ট্রিং এবং একাধিক SMILES স্ট্রিং উভয়ের ক্ষেত্রেই ব্যবহৃত হয়; প্রসঙ্গ অনুযায়ী এর সঠিক অর্থ পরিষ্কার হয়ে যায়। "ক্যানোনিকাল" এবং "আইসোমেরিক" শব্দদ্বয় SMILES এর ক্ষেত্রে কিছু বিভ্রান্তি সৃষ্টি করতে পারে। এই শব্দগুলো SMILES স্ট্রিংয়ের বিভিন্ন বৈশিষ্ট্য বর্ণনা করে এবং পরস্পর পরস্পরের বিপরীত নয়।

সাধারণত, একটি অণুর জন্য সমানভাবে বৈধ একাধিক SMILES স্ট্রিং লেখা যেতে পারে। উদাহরণস্বরূপ, CCO, OCC, এবং C(O)C সকলই ethanol এর গঠন নির্ধারণ করে। নির্দিষ্ট অণুর জন্য একই SMILES স্ট্রিং উৎপন্ন করতে অ্যালগরিদম তৈরি করা হয়েছে; অসংখ্য সম্ভাব্য স্ট্রিংয়ের মধ্যে এই অ্যালগরিদম কেবল একটি নির্বাচন করে। এই নির্দিষ্ট SMILES প্রতিটি গঠনের জন্য অনন্য, যদিও এটি যে canonicalization অ্যালগরিদম দ্বারা তৈরি করা হয়েছে তার উপর নির্ভর করে, এবং এটিকে ক্যানোনিকাল SMILES বলা হয়। এই অ্যালগরিদম প্রথমে SMILES-কে একটি অভ্যন্তরীণ আণবিক গঠন উপস্থাপনায় রূপান্তরিত করে; এরপর একটি অ্যালগরিদম সেই গঠন পরীক্ষা করে একটি অনন্য SMILES স্ট্রিং তৈরি করে। বিভিন্ন ক্যানোনিকাল SMILES তৈরি করার জন্য বিভিন্ন অ্যালগরিদম বিকশিত হয়েছে, যার মধ্যে রয়েছে Daylight Chemical Information Systems, OpenEye Scientific Software, MEDIT, Chemical Computing Group, MolSoft LLC, এবং Chemistry Development Kit। ক্যানোনিকাল SMILES-এর একটি সাধারণ প্রয়োগ হলো এটি রাসায়নিক ডাটাবেস-এ অণুগুলোর সূচীকরণ এবং অনন্যতা নিশ্চিত করতে ব্যবহৃত হয়।

CANGEN[] অ্যালগরিদম বর্ণনা করা মূল গবেষণাপত্রটি দাবি করেছিল যে এটি অণুর প্রতিনিধিত্বকারী গ্রাফের জন্য অনন্য SMILES স্ট্রিং তৈরি করে, তবে এই অ্যালগরিদম কিছু সাধারণ ক্ষেত্রে (যেমন cuneane, ১,২-ডাইসাইক্লোপ্রোপাইলইথেন) ব্যর্থ হয় এবং একে গ্রাফের জন্য একটি সঠিক ক্যানোনিকাল উপস্থাপন পদ্ধতি হিসেবে বিবেচনা করা যায় না।[] বর্তমানে বাণিজ্যিক সফটওয়্যারের মধ্যে এ ধরনের ত্রুটি বিদ্যমান কিনা তা পরীক্ষার জন্য কোনো পদ্ধতিগত তুলনা নেই।

SMILES নোটেশন টেট্রাহেড্রাল কেন্দ্রের কনফিগারেশন এবং ডাবল বন্ড জ্যামিতি নির্দিষ্ট করার অনুমতি দেয়। এগুলি এমন কাঠামোগত বৈশিষ্ট্য যা কেবল সংযোগ দ্বারা নির্দিষ্ট করা যায় না, তাই যে SMILES এই তথ্য এনকোড করে তাকে আইসোমেরিক SMILES বলা হয়। এই নিয়মগুলোর একটি উল্লেখযোগ্য বৈশিষ্ট্য হলো এগুলো কাইরালিটির আংশিক নির্দিষ্টকরণের অনুমতি দেয়। "আইসোমেরিক SMILES" শব্দটি সেই SMILES-এর ক্ষেত্রেও প্রযোজ্য যেখানে আইসোমার নির্দিষ্ট করা হয়েছে।

গ্রাফ-ভিত্তিক সংজ্ঞা

[সম্পাদনা]

একটি গ্রাফ-ভিত্তিক গণনাকৌশলের পরিপ্রেক্ষিতে, SMILES হল একটি স্ট্রিং যা একটি ডেপথ-ফার্স্ট ট্রি ট্রাভার্সাল এর সময় মুখোমুখি হওয়া প্রতীক নোডগুলি মুদ্রণ করে তৈরি করা হয়। রাসায়নিক গ্রাফটি প্রথমে সংক্ষিপ্ত করা হয় যাতে হাইড্রোজেন পরমাণু সরানো হয় এবং এটি একটি স্প্যানিং ট্রি তে রূপান্তরিত করার জন্য চক্র ভাঙা হয়। যেখানে চক্র ভাঙা হয়েছে, সেখানে সংযুক্ত নোড নির্দেশ করতে সংখ্যাসূচক উপসর্গ লেবেল যোগ করা হয়। গাছের মধ্যে শাখাগুলোর অবস্থান চিহ্নিত করতে বন্ধনী ব্যবহার করা হয়।

ফলস্বরূপ SMILES ফর্মটি নিম্নলিখিত পছন্দগুলোর উপর নির্ভর করে:

  • কোন বন্ধনগুলো চক্র ভাঙার জন্য নির্বাচিত হয়েছে,
  • ডেপথ-ফার্স্ট ট্রাভার্সালের জন্য কোন প্রারম্ভিক পরমাণু ব্যবহার করা হয়েছে, এবং
  • শাখাগুলি যখন মুখোমুখি হয়, তখন কোন ক্রমে তালিকাভুক্ত করা হয়েছে।

SMILES কে প্রসঙ্গ-মুক্ত ভাষার স্ট্রিং হিসেবে সংজ্ঞায়িত করা

[সম্পাদনা]

প্রাতিষ্ঠানিক ভাষাতত্ত্বের দৃষ্টিকোণ থেকে, SMILES একটি শব্দ। এটি একটি প্রসঙ্গ-মুক্ত পার্সারের মাধ্যমে বিশ্লেষণযোগ্য। এই উপস্থাপনাটি মূলত রাসায়নিক তথ্যবিজ্ঞানের মূল নীতির উপর ভিত্তি করে রাসায়নিক বৈশিষ্ট্য (যেমন, বিষাক্ততা এবং বায়োডিগ্রেডেবিলিটি) পূর্বানুমানের জন্য ব্যবহৃত হয়েছে, যেখানে বলা হয় যে একই ধরনের অণুগুলোর বৈশিষ্ট্যও একরকম হয়ে থাকে।

এই পূর্বানুমান মডেলটি একটি গঠনতান্ত্রিক প্যাটার্ন শনাক্তকরণ পদ্ধতি প্রয়োগ করেছিল (যা একটি আণবিক দূরত্ব নির্ধারণ করেছিল)[] এবং একইসঙ্গে পরিসংখ্যানগত প্যাটার্ন শনাক্তকরণের ওপর ভিত্তি করে আরও শক্তিশালী একটি পদ্ধতি অনুসরণ করেছিল।[১০]

বিবরণ

[সম্পাদনা]

পরমাণু

[সম্পাদনা]

পরমাণুগুলোকে রাসায়নিক উপাদানগুলোর মানক সংক্ষিপ্ত রূপ ব্যবহার করে বর্ণনা করা হয়, যা চারকোণা বন্ধনীর মধ্যে থাকে, যেমন সোনার জন্য [Au]। সাধারণ ক্ষেত্রে নিম্নলিখিত শর্তগুলো পূরণ হলে বন্ধনী বাদ দেওয়া যেতে পারে:

  1. যদি পরমাণুটি "জৈব উপসেট" এর অংশ হয়, যা বোরন (B), কার্বন (C), নাইট্রোজেন (N), অক্সিজেন (O), ফসফরাস (P), সালফার (S), ফ্লোরিন (F), ক্লোরিন (Cl), ব্রোমিন (Br) বা আয়োডিন (I) হতে পারে, এবং
  2. যদি এর কোনো সরল আনবিক চার্জ না থাকে, এবং
  3. যদি SMILES মানের উপর ভিত্তি করে এটিতে স্বাভাবিক সংখ্যক হাইড্রোজেন যুক্ত থাকে (সাধারণত স্বাভাবিক যোজনী অনুযায়ী, তবে নাইট্রোজেন ও ফসফরাসের ক্ষেত্রে এটি ৩ বা ৫, আর সালফারের জন্য ২, ৪ বা ৬), এবং
  4. যদি এটি স্বাভাবিক সমস্থানিক হয়, এবং
  5. যদি এটি চিরাল কেন্দ্র না হয়।

অন্য সব মৌলিক উপাদানগুলোর ক্ষেত্রে অবশ্যই বন্ধনী ব্যবহার করতে হবে এবং এর চার্জ ও হাইড্রোজেন স্পষ্টভাবে উল্লেখ করতে হবে। উদাহরণস্বরূপ, জলের জন্য SMILES লেখা যেতে পারে O অথবা [OH2]। হাইড্রোজেনকে আলাদা পরমাণু হিসেবেও লেখা যেতে পারে, যেমন: [H]O[H]

যখন বন্ধনী ব্যবহার করা হয়, তখন H প্রতীকটি যোগ করা হয় যদি বন্ধনীর মধ্যে থাকা পরমাণুর সাথে এক বা একাধিক হাইড্রোজেন যুক্ত থাকে। একাধিক হাইড্রোজেন থাকলে সংখ্যাটি দেখানো হয়, এরপর + চিহ্নটি পজিটিভ চার্জ বোঝাতে এবং - চিহ্নটি নেগেটিভ চার্জ বোঝাতে ব্যবহৃত হয়। উদাহরণস্বরূপ, অ্যামোনিয়াম (NH+
4
) এর জন্য SMILES হবে [NH4+]। যদি একাধিক চার্জ থাকে, তবে এটি সাধারণত একটি সংখ্যা দ্বারা প্রকাশ করা হয়; তবে চার্জের সংখ্যার সমান সংখ্যক + বা - চিহ্ন ব্যবহার করাও সম্ভব। যেমন, টাইটানিয়াম(IV) Ti4+ এর জন্য লেখা যেতে পারে [Ti+4] বা [Ti++++]। একইভাবে, হাইড্রোক্সাইড অ্যানিয়ন (OH) কে [OH-], হাইড্রোনিয়াম ক্যাটিয়ন (টেমপ্লেট:H3O+) কে [OH3+] এবং কোবাল্ট(III) ক্যাটিয়ন (Co3+) কে [Co+3] বা [Co+++] দ্বারা প্রকাশ করা যায়।

বন্ধন

[সম্পাদনা]

একটি বন্ধন নিম্নলিখিত চিহ্নগুলোর মাধ্যমে প্রকাশ করা হয়: . - = # $ : / \

অ্যালিফ্যাটিক পরমাণুগুলোর মধ্যে বন্ধন স্বাভাবিকভাবে একক বন্ধন হিসাবে গণ্য করা হয় যদি না অন্যভাবে নির্দিষ্ট করা হয় এবং SMILES স্ট্রিং-এ সংলগ্নতা দ্বারা ইঙ্গিত করা হয়। যদিও একক বন্ধন - দ্বারা লেখা যেতে পারে, সাধারণত এটি বাদ দেওয়া হয়। উদাহরণস্বরূপ, ethanol-এর SMILES C-C-O, CC-O বা C-CO আকারে লেখা যেতে পারে, তবে সাধারণত এটি CCO আকারে লেখা হয়।

দ্বৈত, ত্রৈত এবং চতুর্ভুজ বন্ধন যথাক্রমে =, #, এবং $ চিহ্ন দ্বারা প্রকাশ করা হয়। যেমন, O=C=O (carbon dioxide CO
), C#N (hydrogen cyanide HCN) এবং [Ga+]$[As-] (gallium arsenide)।

আরেকটি বিশেষ ধরনের বন্ধন হলো "non-bond", যা . চিহ্ন দ্বারা প্রকাশ করা হয়, যাতে বোঝানো হয় যে দুটি অংশ একে অপরের সাথে সংযুক্ত নয়। উদাহরণস্বরূপ, পানির মধ্যে দ্রবীভূত sodium chloride-কে [Na+].[Cl-] আকারে লেখা যেতে পারে যাতে এর বিচ্ছেদ বোঝানো যায়।

একটি অ্যারোমেটিক "দেড় বন্ধন" : চিহ্ন দ্বারা নির্দেশ করা যেতে পারে; বিস্তারিত জানতে § Aromaticity অংশটি দেখুন।

দ্বৈত বন্ধনের সংলগ্ন একক বন্ধনগুলো / বা \ চিহ্ন দ্বারা প্রদর্শন করা যেতে পারে যাতে স্টেরিওরসায়ন বোঝানো যায়; বিস্তারিত জানতে § Stereochemistry অংশটি দেখুন।

রিং স্ট্রাকচার লিখতে প্রতিটি রিংকে একটি ইচ্ছামতো বিন্দুতে ভেঙে অ্যাসাইক্লিক কাঠামোতে রূপান্তর করা হয় এবং সংখ্যাসূচক রিং ক্লোজার লেবেল যোগ করা হয় যাতে সংযোগগুলি বোঝানো যায়।

উদাহরণস্বরূপ, cyclohexane এবং dioxane-কে যথাক্রমে C1CCCCC1 এবং O1CCOCC1 আকারে লেখা যেতে পারে। দ্বিতীয় রিংয়ের জন্য লেবেল হবে 2। উদাহরণস্বরূপ, decalin (decahydronaphthalene) কে C1CCCC2C1CCCC2 আকারে লেখা যেতে পারে।

SMILES-এ নির্দিষ্ট কোনো ক্রমানুসারে রিং নম্বর ব্যবহারের প্রয়োজন নেই এবং এটি শূন্য নম্বরের রিংকেও অনুমতি দেয়, যদিও এটি খুব কম ব্যবহৃত হয়। এছাড়াও, একটি রিং বন্ধ হওয়ার পর পূর্ববর্তী নম্বর পুনরায় ব্যবহার করা যেতে পারে, তবে এটি সাধারণত ফর্মুলা বোঝার ক্ষেত্রে অসুবিধা সৃষ্টি করে। উদাহরণস্বরূপ, bicyclohexyl সাধারণত C1CCCCC1C2CCCCC2 আকারে লেখা হয়, তবে এটি C0CCCCC0C0CCCCC0 আকারেও লেখা যেতে পারে।

একটি একক পরমাণুর পরে একাধিক সংখ্যা থাকলে তা একাধিক রিং-ক্লোজিং বন্ধন নির্দেশ করে। উদাহরণস্বরূপ, decalin-এর একটি বিকল্প SMILES হলো C1CCCC2CCCCC12, যেখানে চূড়ান্ত কার্বন উভয় রিং-ক্লোজিং বন্ধন 1 এবং 2-এ অংশগ্রহণ করে। যদি দুই-সংখ্যার রিং নম্বর প্রয়োজন হয়, তবে লেবেলের আগে % ব্যবহৃত হয়, যেমন C%12 দ্বারা রিং 12-এর একক রিং-ক্লোজিং বন্ধন বোঝানো হয়।

কোনো রিং-ক্লোজিং বন্ধনের ধরণ নির্দেশ করতে সংখ্যা পূর্বে একটি বন্ধন টাইপ ব্যবহার করা যেতে পারে। উদাহরণস্বরূপ, cyclopropene সাধারণত C1=CC1 আকারে লেখা হয়, তবে যদি দ্বৈত বন্ধনটি রিং-ক্লোজিং বন্ধন হিসাবে নির্ধারণ করা হয়, তবে এটি C=1CC1, C1CC=1, বা C=1CC=1 আকারেও লেখা যেতে পারে (প্রথমটি সর্বাধিক ব্যবহৃত)। তবে, C=1CC-1 অবৈধ, কারণ এটি একাধিক ভিন্ন বন্ধন প্রকার নির্ধারণ করছে।

রিং-ক্লোজিং বন্ধন একাধিক বন্ধন নির্দেশ করতে ব্যবহৃত হতে পারে না। উদাহরণস্বরূপ, ethylene-এর জন্য C1C1 একটি বৈধ বিকল্প নয়; C=C ব্যবহার করাই সঠিক। তবে, রিং-ক্লোজিং বন্ধন non-bond-এর সাথে ব্যবহার করা যেতে পারে; C1.C2.C12 হলো propane লেখার একটি অস্বাভাবিক কিন্তু বৈধ বিকল্প, যা সাধারণত CCC আকারে লেখা হয়।

রিং-ব্রেকের অবস্থান বেছে নেওয়া হলে এটি একটি সরল SMILES গঠনে সাহায্য করতে পারে। উদাহরণস্বরূপ, cyclohexane-1,2-diol সর্বোত্তমভাবে OC1CCCCC1O আকারে লেখা হয়; অন্য কোনো রিং-ব্রেক পয়েন্ট নির্বাচন করলে এটি একটি শাখাযুক্ত কাঠামো তৈরি করতে পারে, যা লিখতে অতিরিক্ত বন্ধনী প্রয়োজন হতে পারে।

অ্যারোমেটিসিটি

[সম্পাদনা]

অ্যারোমেটিক রিংগুলি যেমন benzene তিনটি ফর্মে লেখা যেতে পারে:

  1. কেকিউলে ফর্মে একক এবং দ্বৈত বন্ধনের বিকল্পে, যেমন C1=CC=CC=C1,
  2. অ্যারোমেটিক বন্ধন চিহ্ন : ব্যবহার করে, যেমন C:1:C:C:C:C:C1, অথবা
  3. সবচেয়ে সাধারণভাবে, নিম্ন-অক্ষরে গঠিত B, C, N, O, P এবং S পরমাণু b, c, n, o, p এবং s যথাক্রমে লেখা হয়।

শেষোক্ত ক্ষেত্রে, যদি বন্ধনগুলি স্পষ্টভাবে প্রদর্শিত না হয়, তবে দুটি অ্যারোমেটিক পরমাণুর মধ্যে বন্ধনকে অ্যারোমেটিক বন্ধন হিসেবে ধরা হয়। সুতরাং, benzene, pyridine এবং furan যথাক্রমে SMILES c1ccccc1, n1ccccc1 এবং o1cccc1 দ্বারা উপস্থাপন করা যেতে পারে।

অ্যারোমেটিক নাইট্রোজেন যা হাইড্রোজেনের সাথে বন্ধিত থাকে, যেমন pyrrole তাতে [nH] হিসেবে উপস্থাপন করতে হবে; সুতরাং imidazole SMILES নোটেশনে n1c[nH]cc1 হিসেবে লেখা হয়।

যখন অ্যারোমেটিক পরমাণুগুলি এককভাবে একে অপরের সাথে বন্ধিত হয়, যেমন biphenyl-এ, তখন একক বন্ধনটি স্পষ্টভাবে দেখানো আবশ্যক: c1ccccc1-c2ccccc2। এটি একমাত্র কিছু ক্ষেত্রে যেখানে একক বন্ধন চিহ্ন - প্রয়োজন। (এটি প্রকৃতপক্ষে, বেশিরভাগ SMILES সফটওয়্যার সঠিকভাবে অনুমান করতে পারে যে দুটি রিংয়ের মধ্যে বন্ধনটি অ্যারোমেটিক নয় এবং তাই অস্বাভাবিক ফর্ম c1ccccc1c2ccccc2 গ্রহণ করবে।)

Daylight এবং OpenEye অ্যালগরিদমগুলি ক্যানোনিক SMILES তৈরি করার ক্ষেত্রে অ্যারোমেটিসিটি নিয়ে তাদের আচরণে পার্থক্য রয়েছে।

3-cyanoanisole এর ভিজুয়ালাইজেশন COc(c1)cccc1C#N হিসেবে।

শাখাগুলি বন্ধনী দিয়ে বর্ণনা করা হয়, যেমন CCC(=O)O propionic acid এবং FC(F)F fluoroform এর জন্য। বন্ধনীগুলির মধ্যে প্রথম পরমাণু এবং বন্ধনীযুক্ত গ্রুপের পরবর্তী প্রথম পরমাণু একই শাখা পয়েন্ট পরমাণুর সাথে বন্ধিত থাকে। বন্ধন চিহ্নটি অবশ্যই বন্ধনীর মধ্যে থাকতে হবে; বাহিরে (যেমন CCC=(O)O) এটি অবৈধ।

বিকৃত রিংগুলি শাখা পয়েন্টটি রিংয়ের মধ্যে উল্লেখ করে লেখা যেতে পারে, যেমন SMILES COc(c1)cccc1C#N (depiction দেখুন) এবং COc(cc1)ccc1C#N (depiction দেখুন) যা 3 এবং 4-cyanoanisole আইজোমারগুলিকে এনকোড করে। এইভাবে বিকৃত রিংয়ের জন্য SMILES লেখা তাদের আরও মানব-পাঠযোগ্য করে তুলতে পারে।

শাখাগুলি যেকোনো অর্ডারে লেখা যেতে পারে। উদাহরণস্বরূপ, bromochlorodifluoromethane FC(Br)(Cl)F, BrC(F)(F)Cl, C(F)(Cl)(F)Br অথবা এর মতো লেখা যেতে পারে। সাধারণত, SMILES ফর্মটি পড়তে সবচেয়ে সহজ হয় যদি সহজ শাখাটি প্রথমে আসে, এবং সর্বশেষ অ-বন্ধনী অংশটি সবচেয়ে জটিল হয়। তবে এমন পুনর্বিন্যাসের কিছু সতর্কতা রয়েছে:

  • যদি রিং নম্বরগুলি পুনঃব্যবহার করা হয়, তবে সেগুলি SMILES স্ট্রিংয়ের মধ্যে তাদের আবির্ভাবের অনুযায়ী জোড়া হতে হয়। সঠিক জোড়া রক্ষা করতে কিছু সামঞ্জস্য প্রয়োজন হতে পারে।
  • যদি স্টেরিওকেমিস্ট্রি নির্ধারণ করা হয়, তবে সামঞ্জস্য করতে হবে; নিচে § Stereochemistry দেখুন।

একমাত্র শাখার ধরন যা বন্ধনী প্রয়োজন না তা হল রিং-ক্লোজিং বন্ধনগুলি: SMILES টুকরা C1N C(1)N এর সমতুল্য, উভয়ই C এবং N এর মধ্যে একটি বন্ধন প্রকাশ করে। শাখা পয়েন্টগুলির কাছে রিং-ক্লোজিং বন্ধনগুলি নির্বাচন করলে প্রয়োজনীয় বন্ধনীর সংখ্যা কমানো যায়। উদাহরণস্বরূপ, toluene সাধারণত Cc1ccccc1 বা c1ccccc1C হিসেবে লেখা হয়, c1cc(C)ccc1 অথবা c1cc(ccc1)C হিসাবে লেখা হলে যা বন্ধনীগুলি প্রয়োজন।

স্টেরিওকেমিস্ট্রি

[সম্পাদনা]
trans-1,2-difluoroethylene

SMILES স্টেরিওআইসোমারগুলি নির্দিষ্ট করতে অনুমোদন দেয়, কিন্তু এটি বাধ্যতামূলক নয়।

ডবল বন্ডের চারপাশে কনফিগারেশন নির্দিষ্ট করতে / এবং \ চিহ্নগুলি ব্যবহার করা হয়, যা ডবল বন্ডের পাশে একক বন্ডের দিক নির্দেশনা প্রদর্শন করে। উদাহরণস্বরূপ, F/C=C/F (দেখুন চিত্র) হল এক ধরনের উপস্থাপনা trans-1,2-difluoroethylene এর, যেখানে ফ্লুরিন অ্যাটমগুলি ডবল বন্ডের বিপরীত দিকে থাকে (যেমন চিত্রে দেখানো হয়েছে), যেখানে F/C=C\F (দেখুন চিত্র) হল এক সম্ভাব্য উপস্থাপনা cis-1,2-difluoroethylene এর, যেখানে ফ্লুরিন অ্যাটমগুলি একই পাশে থাকে।

বন্ডের দিক নির্দেশনা চিহ্নগুলি সবসময় অন্তত দুটি গ্রুপে আসে, যার প্রথমটি ইচ্ছামত। অর্থাৎ, F\C=C\F হল F/C=C/F এর সমান। যখন একক-ডবল বন্ড পালাবদল হয়, গ্রুপগুলি দুটি থেকে বড় হয়, যেখানে মাঝের দিক নির্দেশনা চিহ্ন দুটি ডবল বন্ডের পাশে থাকে। উদাহরণস্বরূপ, (২,৪)-হেক্সাডাইইনের সাধারণ রূপ লেখা হয় C/C=C/C=C/C

Beta-carotene, যেটিতে এগারোটি ডবল বন্ড হাইলাইট করা হয়েছে।

একটি আরও জটিল উদাহরণ, beta-carotene এর একটি দীর্ঘ ব্যাকবোন রয়েছে যা একক এবং ডবল বন্ডের পালাবদল ধারণ করে, যা লেখা যেতে পারে CC1CCC/C(C)=C1/C=C/C(C)=C/C=C/C(C)=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C2=C(C)/CCCC2(C)C

টেট্রাহেড্রাল কার্বন এ কনফিগারেশন নির্দিষ্ট করতে @ বা @@ ব্যবহার করা হয়। SMILES ফর্মে বাম থেকে ডান দিকে প্রদর্শিত হওয়া চারটি বন্ডের ক্রম অনুসরণ করুন। প্রথম বন্ডের দিক থেকে কেন্দ্রীয় কার্বনের দিকে তাকালে, অন্যান্য তিনটি বা ঘূর্ণায়মান বা বিপরীত ঘূর্ণায়মান হতে পারে। এই ক্ষেত্রে @@ এবং @ চিহ্নগুলি নির্দেশ করে (কারণ @ চিহ্নটি নিজেই একটি বিপরীত ঘূর্ণায়মান স্পাইরাল)।

L-Alanine

উদাহরণস্বরূপ, amino acid alanine বিবেচনা করুন। এর একটি SMILES রূপ হল NC(C)C(=O)O, যা আরও পূর্ণরূপে লেখা হয় N[CH](C)C(=O)OL-Alanine, যেটি সাধারণত বেশি পরিচিত enantiomer, লেখা হয় N[C@@H](C)C(=O)O (দেখুন চিত্র)। নাইট্রোজেন-কার্বন বন্ডের দিক থেকে তাকালে, হাইড্রোজেন (H), মিথাইল (C), এবং কার্বক্সিলেট (C(=O)O) গ্রুপগুলি ঘূর্ণায়মানভাবে প্রদর্শিত হয়। D-Alanine লেখা হতে পারে N[C@H](C)C(=O)O (দেখুন চিত্র)।

যদিও SMILES-এ শাখাগুলির নির্দিষ্ট করা সাধারণত গুরুত্বপূর্ণ নয়, এই ক্ষেত্রে এটি গুরুত্বপূর্ণ; কোনো দুটি গ্রুপ স্থানান্তরিত করলে চিরলিটি নির্দেশকটি উল্টে যায়। যদি শাখাগুলি উল্টে লেখা হয়, যেমন NC(C(=O)O)C, তাহলে কনফিগারেশনও উল্টে যাবে; L-alanine লেখা হবে N[C@H](C(=O)O)C (দেখুন চিত্র)। অন্যান্য উপায়ে এটি লেখা হতে পারে C[C@H](N)C(=O)O, OC(=O)[C@@H](N)C এবং OC(=O)[C@H](C)N

সাধারণত, চারটি বন্ডের মধ্যে প্রথমটি কার্বন পরমাণুর বাম পাশে প্রদর্শিত হয়, তবে যদি SMILES চিরাল কার্বন দিয়ে শুরু হয়, যেমন C(C)(N)C(=O)O, তবে সবগুলি ডান দিকে প্রদর্শিত হয়, কিন্তু প্রথম প্রদর্শিত বন্ড ([CH] বন্ড এই ক্ষেত্রে) পরবর্তী তিনটি গ্রুপের আদেশ নির্ধারণ করতে রেফারেন্স হিসেবে ব্যবহৃত হয়: L-alanine এছাড়াও লেখা হতে পারে [C@@H](C)(N)C(=O)O

SMILES স্পেসিফিকেশনটি আরও জটিল চিরাল সেন্টারগুলির চারপাশে স্টেরিওকেমিস্ট্রি নির্দেশ করতে @ চিহ্নের ওপর বিস্তারিত বিবরণ অন্তর্ভুক্ত করেছে, যেমন trigonal bipyramidal molecular geometry

আইসোটোপ

[সম্পাদনা]

আইসোটোপগুলো নির্দিষ্ট করা হয় সংখ্যার মাধ্যমে, যা আণবিক চিহ্নের আগে থাকা পূর্ণসংখ্যার আণবিক ভর সমান। উদাহরণস্বরূপ, বেনজিন যেখানে একটি পরমাণু কার্বন-১৪ রয়েছে, তা লেখা হয় [14c]1ccccc1 এবং ডিউটারোক্লোরোফর্ম হলো [2H]C(Cl)(Cl)Cl

উদাহরণ

[সম্পাদনা]
অণু রচনাবিন্যাস SMILES সূত্র
ডাইনাইট্রোজেন N≡N N#N
মিথাইল আইসোস্যানেট (MIC) CN=C=O
কপারের(II) সালফেট Cu2+SO2−
4
[Cu+2].[O-]S(=O)(=O)[O-]
ভ্যানিলিন ভ্যানিলিনের আণবিক রচনাবিন্যাস O=Cc1ccc(O)c(OC)c1
COc1cc(C=O)ccc1O
মেলাটোনিন (C13H16N2O2) মেলাটোনিনের আণবিক রচনাবিন্যাস CC(=O)NCCC1=CNc2c1cc(OC)cc2
CC(=O)NCCc1c[nH]c2ccc(OC)cc12
ফ্লাভোপেরেইরিন (C17H15N2) ফ্লাভোপেরেইরিনের আণবিক রচনাবিন্যাস CCc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4
CCc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1
নিকোটিন (C10H14N2) নিকোটিনের আণবিক রচনাবিন্যাস CN1CCC[C@H]1c2cccnc2
ওএন্যান্থোটক্সিন (C17H22O2) ওএন্যান্থোটক্সিনের আণবিক রচনাবিন্যাস CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
CCC[C@@H](O)CC/C=C/C=C/C#CC#C/C=C/CO
পিরেথ্রিন II (C22H28O5) পিরেথ্রিন II-এর আণবিক রচনাবিন্যাস CC1=C(C(=O)C[C@@H]1OC(=O)[C@@H]2[C@H](C2(C)C)/C=C(\C)/C(=O)OC)C/C=C\C=C
অ্যাফলাটক্সিন B1 (C17H12O6) অ্যাফলাটক্সিন B1-এর আণবিক রচনাবিন্যাস O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
গ্লুকোজ (β-D-গ্লুকোপাইরানোজ) (C6H12O6) গ্লুকোপাইরানোজের আণবিক রচনাবিন্যাস OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@H](O)1
বেরগেনিন (কুসকুটিন, একটি রেসিন) (C14H16O9) কুসকুটিন (বেরগেনিন)-এর আণবিক রচনাবিন্যাস OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
একটি ফেরোমোন ক্যালিফোর্নিয়ার স্কেল কীট (3Z,6R)-3-মিথাইল-৬-(প্রোপ-১-এন-২-ইল)ডেকা-৩,৯-ডিন-১-ইল অ্যাসিটেট CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
(2S,5R)-চালকোগ্রান: স্কোলাইটিনPityogenes chalcographus এর একটি ফেরোমোন[১১] (2S,5R)-২-ইথাইল-১,৬-ডাইঅক্সাস্পাইরো[৪.৪]নোনান CC[C@H](O1)CC[C@@]12CCCO2
α-থুজন (C10H16O) থুজনের আণবিক রচনাবিন্যাস CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
থায়ামিন (ভিটামিন B1, C12H17N4OS+) থায়ামিনের আণবিক রচনাবিন্যাস OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N

এটি আরও বোঝাতে যে একটি অণু ৯টি রিংয়ের বেশি রয়েছে, ধরা যাক সেফালোস্ট্যাটিন-১,[১২] একটি ১৩-রিংযুক্ত পাইরাজিন যা ভারত মহাসাগরের হেমিচর্ডেট Cephalodiscus gilchristi থেকে বিচ্ছিন্ন হয়:

সেফালোস্ট্যাটিন-১-এর আণবিক রচনাবিন্যাস

ছবির বাম দিকের মিথাইল গ্রুপ থেকে শুরু করা হয়েছে:

CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO

% রিং ক্লোজার লেবেলগুলো ৯ এর বেশি হওয়া সূচকটির আগে আসে; দেখুন § Rings উপরের।

অন্যান্য SMILES উদাহরণ

[সম্পাদনা]

SMILES নোটেশন ব্যাপকভাবে Daylight কেমিক্যাল ইনফরমেশন সিস্টেমের দ্বারা প্রদত্ত SMILES থিওরি ম্যানুয়ালে বর্ণিত হয়েছে এবং বেশ কিছু উদাহরণ দেয়া হয়েছে। Daylight এর ডিপিক্ট ইউটিলিটি ব্যবহারকারীদের তাদের SMILES উদাহরণ যাচাই করার জন্য সুযোগ দেয় এবং এটি একটি মূল্যবান শিক্ষামূলক টুল।

এক্সটেনশন

[সম্পাদনা]

SMARTS হল একটি লাইন নোটেশন যা অণুতে উপগঠনগত প্যাটার্ন নির্ধারণের জন্য ব্যবহৃত হয়। যদিও এটি SMILES-এর অনেক প্রতীক ব্যবহার করে, তবে এটি ওয়াইল্ডকার্ড পরমাণু এবং বন্ধন নির্ধারণের অনুমতি দেয়, যা কেমিক্যাল ডেটাবেস অনুসন্ধানের জন্য উপগঠনগত অনুসন্ধান নির্ধারণ করতে ব্যবহৃত হতে পারে। একটি সাধারণ ভুল ধারণা হল যে SMARTS-ভিত্তিক উপগঠনগত অনুসন্ধানে SMILES এবং SMARTS স্ট্রিংয়ের মিল মেলা যুক্ত থাকে। আসলে, SMILES এবং SMARTS স্ট্রিং উভয়কে প্রথমে অভ্যন্তরীণ গ্রাফ রূপান্তরে রূপান্তর করা হয়, যা সাবগ্রাফ isomorphism খুঁজতে ব্যবহার করা হয়।

SMIRKS, যা "প্রতিক্রিয়া SMILES"-এর একটি সুপারসেট এবং "প্রতিক্রিয়া SMARTS"-এর একটি সাবসেট, একটি লাইন নোটেশন যা প্রতিক্রিয়া রূপান্তর নির্দিষ্ট করার জন্য ব্যবহৃত হয়। প্রতিক্রিয়া এক্সটেনশনের সাধারণ সিনট্যাক্স হল REACTANT>AGENT>PRODUCT (স্পেস ছাড়া), যেখানে যে কোনও ক্ষেত্র খালি রাখা যেতে পারে অথবা একটি ডট (.) দিয়ে বিভক্ত একাধিক অণু দ্বারা পূর্ণ হতে পারে, এবং অন্যান্য বর্ণনা যা ভিত্তি ভাষার উপর নির্ভর করে। পরমাণু সংখ্যা সহ চিহ্নিত করা যেতে পারে (যেমন [C:1]) ম্যাপিংয়ের জন্য,[১৩] উদাহরণস্বরূপ .[১৪]

SMILES বৈচিত্র্যপূর্ণ অণু গঠনের সাথে সম্পর্কিত। তবে অনেক উপকরণ ম্যাক্রোমলিকিউল, যা অত্যন্ত বড় (এবং প্রায়শই স্টোকাস্টিক) এবং যেগুলির জন্য SMILES তৈরি করা সুবিধাজনক নয়। BigSMILES হল SMILES-এর একটি এক্সটেনশন যা ম্যাক্রোমলিকিউলের জন্য একটি কার্যকরী প্রতিনিধিত্ব সিস্টেম প্রদান করতে লক্ষ্য করে।[১৫]

রূপান্তর

[সম্পাদনা]

SMILES স্ট্রিংগুলোকে দুটি মাত্রিক উপস্থাপনায় রূপান্তরিত করা যায় গঠন চিত্র প্রজন্ম (Structure Diagram Generation - SDG) অ্যালগোরিদম ব্যবহার করে।[১৬] এই রূপান্তর কখনো কখনো অস্পষ্ট হতে পারে। ত্রি-মাত্রিক উপস্থাপনায় রূপান্তর প্রাপ্ত হয় শক্তি-সর্বনিম্নকরণ পদ্ধতির মাধ্যমে। রূপান্তরের জন্য অনেক ডাউনলোডযোগ্য এবং ওয়েব-ভিত্তিক ইউটিলিটি পাওয়া যায়।

দেখুন এছাড়া

[সম্পাদনা]

তথ্যসূত্র

[সম্পাদনা]
  1. Weininger D (ফেব্রুয়ারি ১৯৮৮)। "SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules"। Journal of Chemical Information and Computer Sciences28 (1): 31–6। ডিওআই:10.1021/ci00057a005 
  2. Weininger D, Weininger A, Weininger JL (মে ১৯৮৯)। "SMILES. 2. Algorithm for generation of unique SMILES notation"। Journal of Chemical Information and Modeling29 (2): 97–101। ডিওআই:10.1021/ci00062a008 
  3. Weininger D (আগস্ট ১৯৯০)। "SMILES. 3. DEPICT. Graphical depiction of chemical structures"। Journal of Chemical Information and Modeling30 (3): 237–43। ডিওআই:10.1021/ci00067a005 
  4. Swanson RP (২০০৪)। "The Entrance of Informatics into Combinatorial Chemistry" (পিডিএফ)। Rayward WB, Bowden ME। The History and Heritage of Scientific and Technological Information Systems: Proceedings of the 2002 Conference of the American Society of Information Science and Technology and the Chemical Heritage Foundation। Medford, NJ: Information Today। পৃষ্ঠা 205। আইএসবিএন 978-1-57387-229-4 
  5. Weininger D (১৯৯৮)। "Acknowledgements on Daylight Tutorial smiles-etc page"। সংগ্রহের তারিখ ২৪ জুন ২০১৩ 
  6. Anderson E, Veith GD, Weininger D (১৯৮৭)। SMILES: A line notation and computerized interpreter for chemical structures (পিডিএফ)। Duluth, MN: U.S. EPA, Environmental Research Laboratory-Duluth। Report No. EPA/600/M-87/021। 
  7. "SMILES Tutorial: What is SMILES?"U.S. EPA। ২৮ মার্চ ২০০৮ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০১২-০৯-২৩ 
  8. Neglur G, Grossman RL, Liu B (২০০৫)। "Assigning Unique Keys to Chemical Compounds for Data Integration: Some Interesting Counter Examples"। Ludäscher B। Data Integration in the Life Sciences। Lecture Notes in Computer Science। 3615। Berlin: Springer। পৃষ্ঠা 145–157। আইএসবিএন 978-3-540-27967-9ডিওআই:10.1007/11530084_13। সংগ্রহের তারিখ ২০১৩-০২-১২ 
  9. Sidorova J, Anisimova M (আগস্ট ২০১৪)। "NLP-inspired structural pattern recognition in chemical application."। Pattern Recognition Letters45: 11–16। ডিওআই:10.1016/j.patrec.2014.02.012বিবকোড:2014PaReL..45...11S 
  10. Sidorova J, Garcia J (নভেম্বর ২০১৫)। "Bridging from syntactic to statistical methods: Classification with automatically segmented features from sequences."। Pattern Recognition48 (11): 3749–3756। hdl:10016/33552অবাধে প্রবেশযোগ্যডিওআই:10.1016/j.patcog.2015.05.001বিবকোড:2015PatRe..48.3749S 
  11. Byers JA, Birgersson G, Löfqvist J, Appelgren M, Bergström G (মার্চ ১৯৯০)। "Isolation of pheromone synergists of bark beetle, Pityogenes chalcographus, from complex insect-plant odors by fractionation and subtractive-combination bioassay"। Journal of Chemical Ecology16 (3): 861–876। এসটুসিআইডি 226090ডিওআই:10.1007/BF01016496পিএমআইডি 24263601বিবকোড:1990JCEco..16..861B 
  12. "CID 183413"PubChem (ইংরেজি ভাষায়)। সংগ্রহের তারিখ মে ১২, ২০১২ 
  13. "SMIRKS Tutorial"। Daylight Chemical Information Systems, Inc.। সংগ্রহের তারিখ ২৯ অক্টোবর ২০১৮ 
  14. "Reaction SMILES and SMIRKS"। Daylight Chemical Information Systems, Inc.। সংগ্রহের তারিখ ২৯ অক্টোবর ২০১৮ 
  15. Lin TS, Coley CW, Mochigase H, Beech HK, Wang W, Wang Z, ও অন্যান্য (সেপ্টেম্বর ২০১৯)। "BigSMILES: A Structurally-Based Line Notation for Describing Macromolecules"ACS Central Science5 (9): 1523–1531। ডিওআই:10.1021/acscentsci.9b00476পিএমআইডি 31572779পিএমসি 6764162অবাধে প্রবেশযোগ্য 
  16. Helson HE (১৯৯৯)। "Structure Diagram Generation"। Lipkowitz KB, Boyd DB। Reviews in Computational Chemistry13। New York: Wiley-VCH। পৃষ্ঠা 313–398। আইএসবিএন 978-0-470-12590-8ডিওআই:10.1002/9780470125908.ch6 

টেমপ্লেট:Molecular visualization টেমপ্লেট:Chemistry software