সরলীকৃত আণবিক ইনপুট লাইন এন্ট্রি সিস্টেম
ফাইলনাম এক্সটেনশন |
.smi |
---|---|
ইন্টারনেট মাধ্যমের ধরন | chemical/x-daylight-smiles |
বিন্যাসের ধরন | chemical file format |

সরলীকৃত আণবিক ইনপুট লাইন এন্ট্রি সিস্টেম হলো এমন একটি স্পেসিফিকেশন যা সংক্ষিপ্ত ASCII স্ট্রিং ব্যবহার করে chemical species এর গঠন বর্ণনা করার জন্য line notation আকারে প্রদান করা হয়েছে। SMILES স্ট্রিংগুলোকে বেশিরভাগ molecule editor দ্বারা ইম্পোর্ট করে, পুনরায় two-dimensional চিত্র বা three-dimensional মডেলে রূপান্তরিত করা যায়।
মূল SMILES স্পেসিফিকেশনটি ১৯৮০-এর দশকে শুরু করা হয়েছিল। এরপর থেকে এটি সংশোধিত ও সম্প্রসারিত করা হয়েছে। ২০০৭ সালে, open source রসায়ন কমিউনিটিতে OpenSMILES নামে একটি open standard তৈরি করা হয়।
ইতিহাস
[সম্পাদনা]মূল SMILES স্পেসিফিকেশনটি ১৯৮০-এর দশকে David Weininger দ্বারা USEPA Mid-Continent Ecology Division Laboratory-তে Duluth এ শুরু করা হয়েছিল।[১][২][৩][৪]
প্রাথমিক উন্নয়নে অবদান রাখার জন্য "Gilman Veith এবং Rose Russo (USEPA) এবং Albert Leo ও Corwin Hansch (Pomona College)" কে স্বীকৃতি দেওয়া হয়, যারা এই কাজে সহায়তা করেছিলেন। এছাড়া, Arthur Weininger (Pomona; Daylight CIS) এবং Jeremy Scofield (Cedar River Software, Renton, WA) প্রোগ্রামিং সহায়তা প্রদান করেছিলেন।[৫] Environmental Protection Agency SMILES বিকাশের জন্য প্রাথমিক প্রকল্পটি অর্থায়ন করেছিল।[৬][৭]
এরপর থেকে এটি সংশোধিত ও সম্প্রসারিত হয়েছে, বিশেষত Daylight Chemical Information Systems দ্বারা। ২০০৭ সালে, Blue Obelisk ওপেন-সোর্স রসায়ন সম্প্রদায় "OpenSMILES" নামে একটি open standard তৈরি করে। অন্যান্য 'লিনিয়ার' নোটেশনের মধ্যে রয়েছে Wiswesser Line Notation (WLN), ROSDAL এবং SLN (Tripos Inc)।
জুলাই ২০০৬ সালে, IUPAC InChI কে রাসায়নিক সূত্র উপস্থাপনের একটি মান হিসেবে প্রবর্তন করে। SMILES সাধারণত InChI-এর তুলনায় আরও সহজবোধ্য হিসেবে বিবেচিত হয়, পাশাপাশি এতে সফটওয়্যার সমর্থনও বেশি এবং graph theory-এর মতো বিস্তৃত তাত্ত্বিক ভিত্তি রয়েছে।
পরিভাষা
[সম্পাদনা]SMILES শব্দটি একটি রেখা নোটেশনকে বোঝায় যা দ্বারা আণবিক গঠন এনকোড করা হয়, এবং নির্দিষ্ট ক্ষেত্রে এটিকে যথাযথভাবে SMILES স্ট্রিং বলা উচিত। তবে, SMILES শব্দটি সাধারণত একক SMILES স্ট্রিং এবং একাধিক SMILES স্ট্রিং উভয়ের ক্ষেত্রেই ব্যবহৃত হয়; প্রসঙ্গ অনুযায়ী এর সঠিক অর্থ পরিষ্কার হয়ে যায়। "ক্যানোনিকাল" এবং "আইসোমেরিক" শব্দদ্বয় SMILES এর ক্ষেত্রে কিছু বিভ্রান্তি সৃষ্টি করতে পারে। এই শব্দগুলো SMILES স্ট্রিংয়ের বিভিন্ন বৈশিষ্ট্য বর্ণনা করে এবং পরস্পর পরস্পরের বিপরীত নয়।
সাধারণত, একটি অণুর জন্য সমানভাবে বৈধ একাধিক SMILES স্ট্রিং লেখা যেতে পারে। উদাহরণস্বরূপ, CCO
, OCC
, এবং C(O)C
সকলই ethanol এর গঠন নির্ধারণ করে। নির্দিষ্ট অণুর জন্য একই SMILES স্ট্রিং উৎপন্ন করতে অ্যালগরিদম তৈরি করা হয়েছে; অসংখ্য সম্ভাব্য স্ট্রিংয়ের মধ্যে এই অ্যালগরিদম কেবল একটি নির্বাচন করে। এই নির্দিষ্ট SMILES প্রতিটি গঠনের জন্য অনন্য, যদিও এটি যে canonicalization অ্যালগরিদম দ্বারা তৈরি করা হয়েছে তার উপর নির্ভর করে, এবং এটিকে ক্যানোনিকাল SMILES বলা হয়। এই অ্যালগরিদম প্রথমে SMILES-কে একটি অভ্যন্তরীণ আণবিক গঠন উপস্থাপনায় রূপান্তরিত করে; এরপর একটি অ্যালগরিদম সেই গঠন পরীক্ষা করে একটি অনন্য SMILES স্ট্রিং তৈরি করে। বিভিন্ন ক্যানোনিকাল SMILES তৈরি করার জন্য বিভিন্ন অ্যালগরিদম বিকশিত হয়েছে, যার মধ্যে রয়েছে Daylight Chemical Information Systems, OpenEye Scientific Software, MEDIT, Chemical Computing Group, MolSoft LLC, এবং Chemistry Development Kit। ক্যানোনিকাল SMILES-এর একটি সাধারণ প্রয়োগ হলো এটি রাসায়নিক ডাটাবেস-এ অণুগুলোর সূচীকরণ এবং অনন্যতা নিশ্চিত করতে ব্যবহৃত হয়।
CANGEN[২] অ্যালগরিদম বর্ণনা করা মূল গবেষণাপত্রটি দাবি করেছিল যে এটি অণুর প্রতিনিধিত্বকারী গ্রাফের জন্য অনন্য SMILES স্ট্রিং তৈরি করে, তবে এই অ্যালগরিদম কিছু সাধারণ ক্ষেত্রে (যেমন cuneane, ১,২-ডাইসাইক্লোপ্রোপাইলইথেন) ব্যর্থ হয় এবং একে গ্রাফের জন্য একটি সঠিক ক্যানোনিকাল উপস্থাপন পদ্ধতি হিসেবে বিবেচনা করা যায় না।[৮] বর্তমানে বাণিজ্যিক সফটওয়্যারের মধ্যে এ ধরনের ত্রুটি বিদ্যমান কিনা তা পরীক্ষার জন্য কোনো পদ্ধতিগত তুলনা নেই।
SMILES নোটেশন টেট্রাহেড্রাল কেন্দ্রের কনফিগারেশন এবং ডাবল বন্ড জ্যামিতি নির্দিষ্ট করার অনুমতি দেয়। এগুলি এমন কাঠামোগত বৈশিষ্ট্য যা কেবল সংযোগ দ্বারা নির্দিষ্ট করা যায় না, তাই যে SMILES এই তথ্য এনকোড করে তাকে আইসোমেরিক SMILES বলা হয়। এই নিয়মগুলোর একটি উল্লেখযোগ্য বৈশিষ্ট্য হলো এগুলো কাইরালিটির আংশিক নির্দিষ্টকরণের অনুমতি দেয়। "আইসোমেরিক SMILES" শব্দটি সেই SMILES-এর ক্ষেত্রেও প্রযোজ্য যেখানে আইসোমার নির্দিষ্ট করা হয়েছে।
গ্রাফ-ভিত্তিক সংজ্ঞা
[সম্পাদনা]একটি গ্রাফ-ভিত্তিক গণনাকৌশলের পরিপ্রেক্ষিতে, SMILES হল একটি স্ট্রিং যা একটি ডেপথ-ফার্স্ট ট্রি ট্রাভার্সাল এর সময় মুখোমুখি হওয়া প্রতীক নোডগুলি মুদ্রণ করে তৈরি করা হয়। রাসায়নিক গ্রাফটি প্রথমে সংক্ষিপ্ত করা হয় যাতে হাইড্রোজেন পরমাণু সরানো হয় এবং এটি একটি স্প্যানিং ট্রি তে রূপান্তরিত করার জন্য চক্র ভাঙা হয়। যেখানে চক্র ভাঙা হয়েছে, সেখানে সংযুক্ত নোড নির্দেশ করতে সংখ্যাসূচক উপসর্গ লেবেল যোগ করা হয়। গাছের মধ্যে শাখাগুলোর অবস্থান চিহ্নিত করতে বন্ধনী ব্যবহার করা হয়।
ফলস্বরূপ SMILES ফর্মটি নিম্নলিখিত পছন্দগুলোর উপর নির্ভর করে:
- কোন বন্ধনগুলো চক্র ভাঙার জন্য নির্বাচিত হয়েছে,
- ডেপথ-ফার্স্ট ট্রাভার্সালের জন্য কোন প্রারম্ভিক পরমাণু ব্যবহার করা হয়েছে, এবং
- শাখাগুলি যখন মুখোমুখি হয়, তখন কোন ক্রমে তালিকাভুক্ত করা হয়েছে।
SMILES কে প্রসঙ্গ-মুক্ত ভাষার স্ট্রিং হিসেবে সংজ্ঞায়িত করা
[সম্পাদনা]প্রাতিষ্ঠানিক ভাষাতত্ত্বের দৃষ্টিকোণ থেকে, SMILES একটি শব্দ। এটি একটি প্রসঙ্গ-মুক্ত পার্সারের মাধ্যমে বিশ্লেষণযোগ্য। এই উপস্থাপনাটি মূলত রাসায়নিক তথ্যবিজ্ঞানের মূল নীতির উপর ভিত্তি করে রাসায়নিক বৈশিষ্ট্য (যেমন, বিষাক্ততা এবং বায়োডিগ্রেডেবিলিটি) পূর্বানুমানের জন্য ব্যবহৃত হয়েছে, যেখানে বলা হয় যে একই ধরনের অণুগুলোর বৈশিষ্ট্যও একরকম হয়ে থাকে।
এই পূর্বানুমান মডেলটি একটি গঠনতান্ত্রিক প্যাটার্ন শনাক্তকরণ পদ্ধতি প্রয়োগ করেছিল (যা একটি আণবিক দূরত্ব নির্ধারণ করেছিল)[৯] এবং একইসঙ্গে পরিসংখ্যানগত প্যাটার্ন শনাক্তকরণের ওপর ভিত্তি করে আরও শক্তিশালী একটি পদ্ধতি অনুসরণ করেছিল।[১০]
বিবরণ
[সম্পাদনা]পরমাণু
[সম্পাদনা]পরমাণুগুলোকে রাসায়নিক উপাদানগুলোর মানক সংক্ষিপ্ত রূপ ব্যবহার করে বর্ণনা করা হয়, যা চারকোণা বন্ধনীর মধ্যে থাকে, যেমন সোনার জন্য [Au]
। সাধারণ ক্ষেত্রে নিম্নলিখিত শর্তগুলো পূরণ হলে বন্ধনী বাদ দেওয়া যেতে পারে:
- যদি পরমাণুটি "জৈব উপসেট" এর অংশ হয়, যা বোরন (B), কার্বন (C), নাইট্রোজেন (N), অক্সিজেন (O), ফসফরাস (P), সালফার (S), ফ্লোরিন (F), ক্লোরিন (Cl), ব্রোমিন (Br) বা আয়োডিন (I) হতে পারে, এবং
- যদি এর কোনো সরল আনবিক চার্জ না থাকে, এবং
- যদি SMILES মানের উপর ভিত্তি করে এটিতে স্বাভাবিক সংখ্যক হাইড্রোজেন যুক্ত থাকে (সাধারণত স্বাভাবিক যোজনী অনুযায়ী, তবে নাইট্রোজেন ও ফসফরাসের ক্ষেত্রে এটি ৩ বা ৫, আর সালফারের জন্য ২, ৪ বা ৬), এবং
- যদি এটি স্বাভাবিক সমস্থানিক হয়, এবং
- যদি এটি চিরাল কেন্দ্র না হয়।
অন্য সব মৌলিক উপাদানগুলোর ক্ষেত্রে অবশ্যই বন্ধনী ব্যবহার করতে হবে এবং এর চার্জ ও হাইড্রোজেন স্পষ্টভাবে উল্লেখ করতে হবে। উদাহরণস্বরূপ, জলের জন্য SMILES লেখা যেতে পারে O
অথবা [OH2]
। হাইড্রোজেনকে আলাদা পরমাণু হিসেবেও লেখা যেতে পারে, যেমন: [H]O[H]
।
যখন বন্ধনী ব্যবহার করা হয়, তখন H
প্রতীকটি যোগ করা হয় যদি বন্ধনীর মধ্যে থাকা পরমাণুর সাথে এক বা একাধিক হাইড্রোজেন যুক্ত থাকে। একাধিক হাইড্রোজেন থাকলে সংখ্যাটি দেখানো হয়, এরপর +
চিহ্নটি পজিটিভ চার্জ বোঝাতে এবং -
চিহ্নটি নেগেটিভ চার্জ বোঝাতে ব্যবহৃত হয়। উদাহরণস্বরূপ, অ্যামোনিয়াম (NH+
4) এর জন্য SMILES হবে [NH4+]
। যদি একাধিক চার্জ থাকে, তবে এটি সাধারণত একটি সংখ্যা দ্বারা প্রকাশ করা হয়; তবে চার্জের সংখ্যার সমান সংখ্যক +
বা -
চিহ্ন ব্যবহার করাও সম্ভব। যেমন, টাইটানিয়াম(IV) Ti4+ এর জন্য লেখা যেতে পারে [Ti+4]
বা [Ti++++]
। একইভাবে, হাইড্রোক্সাইড অ্যানিয়ন ( OH−) কে [OH-]
, হাইড্রোনিয়াম ক্যাটিয়ন (টেমপ্লেট:H3O+) কে [OH3+]
এবং কোবাল্ট(III) ক্যাটিয়ন (Co3+) কে [Co+3]
বা [Co+++]
দ্বারা প্রকাশ করা যায়।
বন্ধন
[সম্পাদনা]একটি বন্ধন নিম্নলিখিত চিহ্নগুলোর মাধ্যমে প্রকাশ করা হয়: . - = # $ : / \
।
অ্যালিফ্যাটিক পরমাণুগুলোর মধ্যে বন্ধন স্বাভাবিকভাবে একক বন্ধন হিসাবে গণ্য করা হয় যদি না অন্যভাবে নির্দিষ্ট করা হয় এবং SMILES স্ট্রিং-এ সংলগ্নতা দ্বারা ইঙ্গিত করা হয়। যদিও একক বন্ধন -
দ্বারা লেখা যেতে পারে, সাধারণত এটি বাদ দেওয়া হয়। উদাহরণস্বরূপ, ethanol-এর SMILES C-C-O
, CC-O
বা C-CO
আকারে লেখা যেতে পারে, তবে সাধারণত এটি CCO
আকারে লেখা হয়।
দ্বৈত, ত্রৈত এবং চতুর্ভুজ বন্ধন যথাক্রমে =
, #
, এবং $
চিহ্ন দ্বারা প্রকাশ করা হয়। যেমন, O=C=O
(carbon dioxide CO
২), C#N
(hydrogen cyanide HCN) এবং [Ga+]$[As-]
(gallium arsenide)।
আরেকটি বিশেষ ধরনের বন্ধন হলো "non-bond", যা .
চিহ্ন দ্বারা প্রকাশ করা হয়, যাতে বোঝানো হয় যে দুটি অংশ একে অপরের সাথে সংযুক্ত নয়। উদাহরণস্বরূপ, পানির মধ্যে দ্রবীভূত sodium chloride-কে [Na+].[Cl-]
আকারে লেখা যেতে পারে যাতে এর বিচ্ছেদ বোঝানো যায়।
একটি অ্যারোমেটিক "দেড় বন্ধন" :
চিহ্ন দ্বারা নির্দেশ করা যেতে পারে; বিস্তারিত জানতে § Aromaticity অংশটি দেখুন।
দ্বৈত বন্ধনের সংলগ্ন একক বন্ধনগুলো /
বা \
চিহ্ন দ্বারা প্রদর্শন করা যেতে পারে যাতে স্টেরিওরসায়ন বোঝানো যায়; বিস্তারিত জানতে § Stereochemistry অংশটি দেখুন।
রিং
[সম্পাদনা]রিং স্ট্রাকচার লিখতে প্রতিটি রিংকে একটি ইচ্ছামতো বিন্দুতে ভেঙে অ্যাসাইক্লিক কাঠামোতে রূপান্তর করা হয় এবং সংখ্যাসূচক রিং ক্লোজার লেবেল যোগ করা হয় যাতে সংযোগগুলি বোঝানো যায়।
উদাহরণস্বরূপ, cyclohexane এবং dioxane-কে যথাক্রমে C1CCCCC1
এবং O1CCOCC1
আকারে লেখা যেতে পারে। দ্বিতীয় রিংয়ের জন্য লেবেল হবে 2। উদাহরণস্বরূপ, decalin (decahydronaphthalene) কে C1CCCC2C1CCCC2
আকারে লেখা যেতে পারে।
SMILES-এ নির্দিষ্ট কোনো ক্রমানুসারে রিং নম্বর ব্যবহারের প্রয়োজন নেই এবং এটি শূন্য নম্বরের রিংকেও অনুমতি দেয়, যদিও এটি খুব কম ব্যবহৃত হয়। এছাড়াও, একটি রিং বন্ধ হওয়ার পর পূর্ববর্তী নম্বর পুনরায় ব্যবহার করা যেতে পারে, তবে এটি সাধারণত ফর্মুলা বোঝার ক্ষেত্রে অসুবিধা সৃষ্টি করে। উদাহরণস্বরূপ, bicyclohexyl সাধারণত C1CCCCC1C2CCCCC2
আকারে লেখা হয়, তবে এটি C0CCCCC0C0CCCCC0
আকারেও লেখা যেতে পারে।
একটি একক পরমাণুর পরে একাধিক সংখ্যা থাকলে তা একাধিক রিং-ক্লোজিং বন্ধন নির্দেশ করে। উদাহরণস্বরূপ, decalin-এর একটি বিকল্প SMILES হলো C1CCCC2CCCCC12
, যেখানে চূড়ান্ত কার্বন উভয় রিং-ক্লোজিং বন্ধন 1 এবং 2-এ অংশগ্রহণ করে। যদি দুই-সংখ্যার রিং নম্বর প্রয়োজন হয়, তবে লেবেলের আগে %
ব্যবহৃত হয়, যেমন C%12
দ্বারা রিং 12-এর একক রিং-ক্লোজিং বন্ধন বোঝানো হয়।
কোনো রিং-ক্লোজিং বন্ধনের ধরণ নির্দেশ করতে সংখ্যা পূর্বে একটি বন্ধন টাইপ ব্যবহার করা যেতে পারে। উদাহরণস্বরূপ, cyclopropene সাধারণত C1=CC1
আকারে লেখা হয়, তবে যদি দ্বৈত বন্ধনটি রিং-ক্লোজিং বন্ধন হিসাবে নির্ধারণ করা হয়, তবে এটি C=1CC1
, C1CC=1
, বা C=1CC=1
আকারেও লেখা যেতে পারে (প্রথমটি সর্বাধিক ব্যবহৃত)। তবে, C=1CC-1
অবৈধ, কারণ এটি একাধিক ভিন্ন বন্ধন প্রকার নির্ধারণ করছে।
রিং-ক্লোজিং বন্ধন একাধিক বন্ধন নির্দেশ করতে ব্যবহৃত হতে পারে না। উদাহরণস্বরূপ, ethylene-এর জন্য C1C1
একটি বৈধ বিকল্প নয়; C=C
ব্যবহার করাই সঠিক। তবে, রিং-ক্লোজিং বন্ধন non-bond-এর সাথে ব্যবহার করা যেতে পারে; C1.C2.C12
হলো propane লেখার একটি অস্বাভাবিক কিন্তু বৈধ বিকল্প, যা সাধারণত CCC
আকারে লেখা হয়।
রিং-ব্রেকের অবস্থান বেছে নেওয়া হলে এটি একটি সরল SMILES গঠনে সাহায্য করতে পারে। উদাহরণস্বরূপ, cyclohexane-1,2-diol সর্বোত্তমভাবে OC1CCCCC1O
আকারে লেখা হয়; অন্য কোনো রিং-ব্রেক পয়েন্ট নির্বাচন করলে এটি একটি শাখাযুক্ত কাঠামো তৈরি করতে পারে, যা লিখতে অতিরিক্ত বন্ধনী প্রয়োজন হতে পারে।
অ্যারোমেটিসিটি
[সম্পাদনা]অ্যারোমেটিক রিংগুলি যেমন benzene তিনটি ফর্মে লেখা যেতে পারে:
- কেকিউলে ফর্মে একক এবং দ্বৈত বন্ধনের বিকল্পে, যেমন
C1=CC=CC=C1
, - অ্যারোমেটিক বন্ধন চিহ্ন
:
ব্যবহার করে, যেমনC:1:C:C:C:C:C1
, অথবা - সবচেয়ে সাধারণভাবে, নিম্ন-অক্ষরে গঠিত B, C, N, O, P এবং S পরমাণু
b
,c
,n
,o
,p
এবংs
যথাক্রমে লেখা হয়।
শেষোক্ত ক্ষেত্রে, যদি বন্ধনগুলি স্পষ্টভাবে প্রদর্শিত না হয়, তবে দুটি অ্যারোমেটিক পরমাণুর মধ্যে বন্ধনকে অ্যারোমেটিক বন্ধন হিসেবে ধরা হয়। সুতরাং, benzene, pyridine এবং furan যথাক্রমে SMILES c1ccccc1
, n1ccccc1
এবং o1cccc1
দ্বারা উপস্থাপন করা যেতে পারে।
অ্যারোমেটিক নাইট্রোজেন যা হাইড্রোজেনের সাথে বন্ধিত থাকে, যেমন pyrrole তাতে [nH]
হিসেবে উপস্থাপন করতে হবে; সুতরাং imidazole SMILES নোটেশনে n1c[nH]cc1
হিসেবে লেখা হয়।
যখন অ্যারোমেটিক পরমাণুগুলি এককভাবে একে অপরের সাথে বন্ধিত হয়, যেমন biphenyl-এ, তখন একক বন্ধনটি স্পষ্টভাবে দেখানো আবশ্যক: c1ccccc1-c2ccccc2
। এটি একমাত্র কিছু ক্ষেত্রে যেখানে একক বন্ধন চিহ্ন -
প্রয়োজন। (এটি প্রকৃতপক্ষে, বেশিরভাগ SMILES সফটওয়্যার সঠিকভাবে অনুমান করতে পারে যে দুটি রিংয়ের মধ্যে বন্ধনটি অ্যারোমেটিক নয় এবং তাই অস্বাভাবিক ফর্ম c1ccccc1c2ccccc2
গ্রহণ করবে।)
Daylight এবং OpenEye অ্যালগরিদমগুলি ক্যানোনিক SMILES তৈরি করার ক্ষেত্রে অ্যারোমেটিসিটি নিয়ে তাদের আচরণে পার্থক্য রয়েছে।

COc(c1)cccc1C#N
হিসেবে।শাখা
[সম্পাদনা]শাখাগুলি বন্ধনী দিয়ে বর্ণনা করা হয়, যেমন CCC(=O)O
propionic acid এবং FC(F)F
fluoroform এর জন্য। বন্ধনীগুলির মধ্যে প্রথম পরমাণু এবং বন্ধনীযুক্ত গ্রুপের পরবর্তী প্রথম পরমাণু একই শাখা পয়েন্ট পরমাণুর সাথে বন্ধিত থাকে। বন্ধন চিহ্নটি অবশ্যই বন্ধনীর মধ্যে থাকতে হবে; বাহিরে (যেমন CCC=(O)O
) এটি অবৈধ।
বিকৃত রিংগুলি শাখা পয়েন্টটি রিংয়ের মধ্যে উল্লেখ করে লেখা যেতে পারে, যেমন SMILES COc(c1)cccc1C#N
(depiction দেখুন) এবং COc(cc1)ccc1C#N
(depiction দেখুন) যা 3 এবং 4-cyanoanisole আইজোমারগুলিকে এনকোড করে। এইভাবে বিকৃত রিংয়ের জন্য SMILES লেখা তাদের আরও মানব-পাঠযোগ্য করে তুলতে পারে।
শাখাগুলি যেকোনো অর্ডারে লেখা যেতে পারে। উদাহরণস্বরূপ, bromochlorodifluoromethane FC(Br)(Cl)F
, BrC(F)(F)Cl
, C(F)(Cl)(F)Br
অথবা এর মতো লেখা যেতে পারে। সাধারণত, SMILES ফর্মটি পড়তে সবচেয়ে সহজ হয় যদি সহজ শাখাটি প্রথমে আসে, এবং সর্বশেষ অ-বন্ধনী অংশটি সবচেয়ে জটিল হয়। তবে এমন পুনর্বিন্যাসের কিছু সতর্কতা রয়েছে:
- যদি রিং নম্বরগুলি পুনঃব্যবহার করা হয়, তবে সেগুলি SMILES স্ট্রিংয়ের মধ্যে তাদের আবির্ভাবের অনুযায়ী জোড়া হতে হয়। সঠিক জোড়া রক্ষা করতে কিছু সামঞ্জস্য প্রয়োজন হতে পারে।
- যদি স্টেরিওকেমিস্ট্রি নির্ধারণ করা হয়, তবে সামঞ্জস্য করতে হবে; নিচে § Stereochemistry দেখুন।
একমাত্র শাখার ধরন যা বন্ধনী প্রয়োজন না তা হল রিং-ক্লোজিং বন্ধনগুলি: SMILES টুকরা C1N
C(1)N
এর সমতুল্য, উভয়ই C
এবং N
এর মধ্যে একটি বন্ধন প্রকাশ করে। শাখা পয়েন্টগুলির কাছে রিং-ক্লোজিং বন্ধনগুলি নির্বাচন করলে প্রয়োজনীয় বন্ধনীর সংখ্যা কমানো যায়। উদাহরণস্বরূপ, toluene সাধারণত Cc1ccccc1
বা c1ccccc1C
হিসেবে লেখা হয়, c1cc(C)ccc1
অথবা c1cc(ccc1)C
হিসাবে লেখা হলে যা বন্ধনীগুলি প্রয়োজন।
স্টেরিওকেমিস্ট্রি
[সম্পাদনা]
SMILES স্টেরিওআইসোমারগুলি নির্দিষ্ট করতে অনুমোদন দেয়, কিন্তু এটি বাধ্যতামূলক নয়।
ডবল বন্ডের চারপাশে কনফিগারেশন নির্দিষ্ট করতে /
এবং \
চিহ্নগুলি ব্যবহার করা হয়, যা ডবল বন্ডের পাশে একক বন্ডের দিক নির্দেশনা প্রদর্শন করে। উদাহরণস্বরূপ, F/C=C/F
(দেখুন চিত্র) হল এক ধরনের উপস্থাপনা trans-1,2-difluoroethylene এর, যেখানে ফ্লুরিন অ্যাটমগুলি ডবল বন্ডের বিপরীত দিকে থাকে (যেমন চিত্রে দেখানো হয়েছে), যেখানে F/C=C\F
(দেখুন চিত্র) হল এক সম্ভাব্য উপস্থাপনা cis-1,2-difluoroethylene এর, যেখানে ফ্লুরিন অ্যাটমগুলি একই পাশে থাকে।
বন্ডের দিক নির্দেশনা চিহ্নগুলি সবসময় অন্তত দুটি গ্রুপে আসে, যার প্রথমটি ইচ্ছামত। অর্থাৎ, F\C=C\F
হল F/C=C/F
এর সমান। যখন একক-ডবল বন্ড পালাবদল হয়, গ্রুপগুলি দুটি থেকে বড় হয়, যেখানে মাঝের দিক নির্দেশনা চিহ্ন দুটি ডবল বন্ডের পাশে থাকে। উদাহরণস্বরূপ, (২,৪)-হেক্সাডাইইনের সাধারণ রূপ লেখা হয় C/C=C/C=C/C
।

একটি আরও জটিল উদাহরণ, beta-carotene এর একটি দীর্ঘ ব্যাকবোন রয়েছে যা একক এবং ডবল বন্ডের পালাবদল ধারণ করে, যা লেখা যেতে পারে CC1CCC/C(C)=C1/C=C/C(C)=C/C=C/C(C)=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C2=C(C)/CCCC2(C)C
।
টেট্রাহেড্রাল কার্বন এ কনফিগারেশন নির্দিষ্ট করতে @
বা @@
ব্যবহার করা হয়। SMILES ফর্মে বাম থেকে ডান দিকে প্রদর্শিত হওয়া চারটি বন্ডের ক্রম অনুসরণ করুন। প্রথম বন্ডের দিক থেকে কেন্দ্রীয় কার্বনের দিকে তাকালে, অন্যান্য তিনটি বা ঘূর্ণায়মান বা বিপরীত ঘূর্ণায়মান হতে পারে। এই ক্ষেত্রে @@
এবং @
চিহ্নগুলি নির্দেশ করে (কারণ @
চিহ্নটি নিজেই একটি বিপরীত ঘূর্ণায়মান স্পাইরাল)।

উদাহরণস্বরূপ, amino acid alanine বিবেচনা করুন। এর একটি SMILES রূপ হল NC(C)C(=O)O
, যা আরও পূর্ণরূপে লেখা হয় N[CH](C)C(=O)O
। L-Alanine, যেটি সাধারণত বেশি পরিচিত enantiomer, লেখা হয় N[C@@H](C)C(=O)O
(দেখুন চিত্র)। নাইট্রোজেন-কার্বন বন্ডের দিক থেকে তাকালে, হাইড্রোজেন (H
), মিথাইল (C
), এবং কার্বক্সিলেট (C(=O)O
) গ্রুপগুলি ঘূর্ণায়মানভাবে প্রদর্শিত হয়। D-Alanine লেখা হতে পারে N[C@H](C)C(=O)O
(দেখুন চিত্র)।
যদিও SMILES-এ শাখাগুলির নির্দিষ্ট করা সাধারণত গুরুত্বপূর্ণ নয়, এই ক্ষেত্রে এটি গুরুত্বপূর্ণ; কোনো দুটি গ্রুপ স্থানান্তরিত করলে চিরলিটি নির্দেশকটি উল্টে যায়। যদি শাখাগুলি উল্টে লেখা হয়, যেমন NC(C(=O)O)C
, তাহলে কনফিগারেশনও উল্টে যাবে; L-alanine লেখা হবে N[C@H](C(=O)O)C
(দেখুন চিত্র)। অন্যান্য উপায়ে এটি লেখা হতে পারে C[C@H](N)C(=O)O
, OC(=O)[C@@H](N)C
এবং OC(=O)[C@H](C)N
।
সাধারণত, চারটি বন্ডের মধ্যে প্রথমটি কার্বন পরমাণুর বাম পাশে প্রদর্শিত হয়, তবে যদি SMILES চিরাল কার্বন দিয়ে শুরু হয়, যেমন C(C)(N)C(=O)O
, তবে সবগুলি ডান দিকে প্রদর্শিত হয়, কিন্তু প্রথম প্রদর্শিত বন্ড ([CH]
বন্ড এই ক্ষেত্রে) পরবর্তী তিনটি গ্রুপের আদেশ নির্ধারণ করতে রেফারেন্স হিসেবে ব্যবহৃত হয়: L-alanine এছাড়াও লেখা হতে পারে [C@@H](C)(N)C(=O)O
।
SMILES স্পেসিফিকেশনটি আরও জটিল চিরাল সেন্টারগুলির চারপাশে স্টেরিওকেমিস্ট্রি নির্দেশ করতে @
চিহ্নের ওপর বিস্তারিত বিবরণ অন্তর্ভুক্ত করেছে, যেমন trigonal bipyramidal molecular geometry।
আইসোটোপ
[সম্পাদনা]আইসোটোপগুলো নির্দিষ্ট করা হয় সংখ্যার মাধ্যমে, যা আণবিক চিহ্নের আগে থাকা পূর্ণসংখ্যার আণবিক ভর সমান। উদাহরণস্বরূপ, বেনজিন যেখানে একটি পরমাণু কার্বন-১৪ রয়েছে, তা লেখা হয় [14c]1ccccc1
এবং ডিউটারোক্লোরোফর্ম হলো [2H]C(Cl)(Cl)Cl
।
উদাহরণ
[সম্পাদনা]অণু | রচনাবিন্যাস | SMILES সূত্র |
---|---|---|
ডাইনাইট্রোজেন | N≡N | N#N
|
মিথাইল আইসোস্যানেট (MIC) | ![]() |
CN=C=O
|
কপারের(II) সালফেট | Cu2+SO2− 4 |
[Cu+2].[O-]S(=O)(=O)[O-]
|
ভ্যানিলিন | ![]() |
O=Cc1ccc(O)c(OC)c1 COc1cc(C=O)ccc1O
|
মেলাটোনিন (C13H16N2O2) | ![]() |
CC(=O)NCCC1=CNc2c1cc(OC)cc2 CC(=O)NCCc1c[nH]c2ccc(OC)cc12
|
ফ্লাভোপেরেইরিন (C17H15N2) | ![]() |
CCc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4 CCc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1
|
নিকোটিন (C10H14N2) | ![]() |
CN1CCC[C@H]1c2cccnc2
|
ওএন্যান্থোটক্সিন (C17H22O2) | ![]() |
CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO CCC[C@@H](O)CC/C=C/C=C/C#CC#C/C=C/CO
|
পিরেথ্রিন II (C22H28O5) | ![]() |
CC1=C(C(=O)C[C@@H]1OC(=O)[C@@H]2[C@H](C2(C)C)/C=C(\C)/C(=O)OC)C/C=C\C=C
|
অ্যাফলাটক্সিন B1 (C17H12O6) | ![]() |
O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
|
গ্লুকোজ (β-D-গ্লুকোপাইরানোজ) (C6H12O6) | ![]() |
OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@H](O)1
|
বেরগেনিন (কুসকুটিন, একটি রেসিন) (C14H16O9) | ![]() |
OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
|
একটি ফেরোমোন ক্যালিফোর্নিয়ার স্কেল কীট | ![]() |
CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
|
(2S,5R)-চালকোগ্রান: স্কোলাইটিনPityogenes chalcographus এর একটি ফেরোমোন[১১] | ![]() |
CC[C@H](O1)CC[C@@]12CCCO2
|
α-থুজন (C10H16O) | ![]() |
CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
|
থায়ামিন (ভিটামিন B1, C12H17N4OS+) | ![]() |
OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N
|
এটি আরও বোঝাতে যে একটি অণু ৯টি রিংয়ের বেশি রয়েছে, ধরা যাক সেফালোস্ট্যাটিন-১,[১২] একটি ১৩-রিংযুক্ত পাইরাজিন যা ভারত মহাসাগরের হেমিচর্ডেট Cephalodiscus gilchristi থেকে বিচ্ছিন্ন হয়:
ছবির বাম দিকের মিথাইল গ্রুপ থেকে শুরু করা হয়েছে:
CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO
%
রিং ক্লোজার লেবেলগুলো ৯ এর বেশি হওয়া সূচকটির আগে আসে; দেখুন § Rings উপরের।
অন্যান্য SMILES উদাহরণ
[সম্পাদনা]SMILES নোটেশন ব্যাপকভাবে Daylight কেমিক্যাল ইনফরমেশন সিস্টেমের দ্বারা প্রদত্ত SMILES থিওরি ম্যানুয়ালে বর্ণিত হয়েছে এবং বেশ কিছু উদাহরণ দেয়া হয়েছে। Daylight এর ডিপিক্ট ইউটিলিটি ব্যবহারকারীদের তাদের SMILES উদাহরণ যাচাই করার জন্য সুযোগ দেয় এবং এটি একটি মূল্যবান শিক্ষামূলক টুল।
এক্সটেনশন
[সম্পাদনা]SMARTS হল একটি লাইন নোটেশন যা অণুতে উপগঠনগত প্যাটার্ন নির্ধারণের জন্য ব্যবহৃত হয়। যদিও এটি SMILES-এর অনেক প্রতীক ব্যবহার করে, তবে এটি ওয়াইল্ডকার্ড পরমাণু এবং বন্ধন নির্ধারণের অনুমতি দেয়, যা কেমিক্যাল ডেটাবেস অনুসন্ধানের জন্য উপগঠনগত অনুসন্ধান নির্ধারণ করতে ব্যবহৃত হতে পারে। একটি সাধারণ ভুল ধারণা হল যে SMARTS-ভিত্তিক উপগঠনগত অনুসন্ধানে SMILES এবং SMARTS স্ট্রিংয়ের মিল মেলা যুক্ত থাকে। আসলে, SMILES এবং SMARTS স্ট্রিং উভয়কে প্রথমে অভ্যন্তরীণ গ্রাফ রূপান্তরে রূপান্তর করা হয়, যা সাবগ্রাফ isomorphism খুঁজতে ব্যবহার করা হয়।
SMIRKS, যা "প্রতিক্রিয়া SMILES"-এর একটি সুপারসেট এবং "প্রতিক্রিয়া SMARTS"-এর একটি সাবসেট, একটি লাইন নোটেশন যা প্রতিক্রিয়া রূপান্তর নির্দিষ্ট করার জন্য ব্যবহৃত হয়। প্রতিক্রিয়া এক্সটেনশনের সাধারণ সিনট্যাক্স হল REACTANT>AGENT>PRODUCT
(স্পেস ছাড়া), যেখানে যে কোনও ক্ষেত্র খালি রাখা যেতে পারে অথবা একটি ডট (.
) দিয়ে বিভক্ত একাধিক অণু দ্বারা পূর্ণ হতে পারে, এবং অন্যান্য বর্ণনা যা ভিত্তি ভাষার উপর নির্ভর করে। পরমাণু সংখ্যা সহ চিহ্নিত করা যেতে পারে (যেমন [C:1]
) ম্যাপিংয়ের জন্য,[১৩] উদাহরণস্বরূপ .[১৪]
SMILES বৈচিত্র্যপূর্ণ অণু গঠনের সাথে সম্পর্কিত। তবে অনেক উপকরণ ম্যাক্রোমলিকিউল, যা অত্যন্ত বড় (এবং প্রায়শই স্টোকাস্টিক) এবং যেগুলির জন্য SMILES তৈরি করা সুবিধাজনক নয়। BigSMILES হল SMILES-এর একটি এক্সটেনশন যা ম্যাক্রোমলিকিউলের জন্য একটি কার্যকরী প্রতিনিধিত্ব সিস্টেম প্রদান করতে লক্ষ্য করে।[১৫]
রূপান্তর
[সম্পাদনা]SMILES স্ট্রিংগুলোকে দুটি মাত্রিক উপস্থাপনায় রূপান্তরিত করা যায় গঠন চিত্র প্রজন্ম (Structure Diagram Generation - SDG) অ্যালগোরিদম ব্যবহার করে।[১৬] এই রূপান্তর কখনো কখনো অস্পষ্ট হতে পারে। ত্রি-মাত্রিক উপস্থাপনায় রূপান্তর প্রাপ্ত হয় শক্তি-সর্বনিম্নকরণ পদ্ধতির মাধ্যমে। রূপান্তরের জন্য অনেক ডাউনলোডযোগ্য এবং ওয়েব-ভিত্তিক ইউটিলিটি পাওয়া যায়।
দেখুন এছাড়া
[সম্পাদনা]- SMILES আর্বিট্রারি টার্গেট স্পেসিফিকেশন (SMARTS), SMILES এর একটি সম্প্রসারণ যা সাবস্ট্রাকচারাল কোয়েরি নির্দিষ্ট করার জন্য ব্যবহৃত হয়
- SYBYL Line Notation, আরেকটি লাইন নোটেশন
- International Chemical Identifier (InChI), SMILES এর বিকল্প হিসেবে IUPAC এর পদ্ধতি
- Molecular Query Language, একটি query language যা সংখ্যাসূচক বৈশিষ্ট্যও অনুমোদন করে, যেমন রসায়নগত মান অথবা দুরত্ব
- Chemistry Development Kit, 2D লে আউট এবং কনভার্শন সফটওয়্যার
- OpenBabel, JOELib, OELib (কনভার্শন)
তথ্যসূত্র
[সম্পাদনা]- ↑ Weininger D (ফেব্রুয়ারি ১৯৮৮)। "SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules"। Journal of Chemical Information and Computer Sciences। 28 (1): 31–6। ডিওআই:10.1021/ci00057a005।
- ↑ ক খ Weininger D, Weininger A, Weininger JL (মে ১৯৮৯)। "SMILES. 2. Algorithm for generation of unique SMILES notation"। Journal of Chemical Information and Modeling। 29 (2): 97–101। ডিওআই:10.1021/ci00062a008।
- ↑ Weininger D (আগস্ট ১৯৯০)। "SMILES. 3. DEPICT. Graphical depiction of chemical structures"। Journal of Chemical Information and Modeling। 30 (3): 237–43। ডিওআই:10.1021/ci00067a005।
- ↑ Swanson RP (২০০৪)। "The Entrance of Informatics into Combinatorial Chemistry" (পিডিএফ)। Rayward WB, Bowden ME। The History and Heritage of Scientific and Technological Information Systems: Proceedings of the 2002 Conference of the American Society of Information Science and Technology and the Chemical Heritage Foundation। Medford, NJ: Information Today। পৃষ্ঠা 205। আইএসবিএন 978-1-57387-229-4।
- ↑ Weininger D (১৯৯৮)। "Acknowledgements on Daylight Tutorial smiles-etc page"। সংগ্রহের তারিখ ২৪ জুন ২০১৩।
- ↑ Anderson E, Veith GD, Weininger D (১৯৮৭)। SMILES: A line notation and computerized interpreter for chemical structures (পিডিএফ)। Duluth, MN: U.S. EPA, Environmental Research Laboratory-Duluth। Report No. EPA/600/M-87/021।
- ↑ "SMILES Tutorial: What is SMILES?"। U.S. EPA। ২৮ মার্চ ২০০৮ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০১২-০৯-২৩।
- ↑ Neglur G, Grossman RL, Liu B (২০০৫)। "Assigning Unique Keys to Chemical Compounds for Data Integration: Some Interesting Counter Examples"। Ludäscher B। Data Integration in the Life Sciences। Lecture Notes in Computer Science। 3615। Berlin: Springer। পৃষ্ঠা 145–157। আইএসবিএন 978-3-540-27967-9। ডিওআই:10.1007/11530084_13। সংগ্রহের তারিখ ২০১৩-০২-১২।
- ↑ Sidorova J, Anisimova M (আগস্ট ২০১৪)। "NLP-inspired structural pattern recognition in chemical application."। Pattern Recognition Letters। 45: 11–16। ডিওআই:10.1016/j.patrec.2014.02.012। বিবকোড:2014PaReL..45...11S।
- ↑ Sidorova J, Garcia J (নভেম্বর ২০১৫)। "Bridging from syntactic to statistical methods: Classification with automatically segmented features from sequences."। Pattern Recognition। 48 (11): 3749–3756। hdl:10016/33552
। ডিওআই:10.1016/j.patcog.2015.05.001। বিবকোড:2015PatRe..48.3749S।
- ↑ Byers JA, Birgersson G, Löfqvist J, Appelgren M, Bergström G (মার্চ ১৯৯০)। "Isolation of pheromone synergists of bark beetle, Pityogenes chalcographus, from complex insect-plant odors by fractionation and subtractive-combination bioassay"। Journal of Chemical Ecology। 16 (3): 861–876। এসটুসিআইডি 226090। ডিওআই:10.1007/BF01016496। পিএমআইডি 24263601। বিবকোড:1990JCEco..16..861B।
- ↑ "CID 183413"। PubChem (ইংরেজি ভাষায়)। সংগ্রহের তারিখ মে ১২, ২০১২।
- ↑ "SMIRKS Tutorial"। Daylight Chemical Information Systems, Inc.। সংগ্রহের তারিখ ২৯ অক্টোবর ২০১৮।
- ↑ "Reaction SMILES and SMIRKS"। Daylight Chemical Information Systems, Inc.। সংগ্রহের তারিখ ২৯ অক্টোবর ২০১৮।
- ↑ Lin TS, Coley CW, Mochigase H, Beech HK, Wang W, Wang Z, ও অন্যান্য (সেপ্টেম্বর ২০১৯)। "BigSMILES: A Structurally-Based Line Notation for Describing Macromolecules"। ACS Central Science। 5 (9): 1523–1531। ডিওআই:10.1021/acscentsci.9b00476। পিএমআইডি 31572779। পিএমসি 6764162
।
- ↑ Helson HE (১৯৯৯)। "Structure Diagram Generation"। Lipkowitz KB, Boyd DB। Reviews in Computational Chemistry। 13। New York: Wiley-VCH। পৃষ্ঠা 313–398। আইএসবিএন 978-0-470-12590-8। ডিওআই:10.1002/9780470125908.ch6।
টেমপ্লেট:Molecular visualization টেমপ্লেট:Chemistry software