বিষয়বস্তুতে চলুন

কম্পিউটার ভিশন

উইকিপিডিয়া, মুক্ত বিশ্বকোষ থেকে

কম্পিউটার ভিশন একটি গবেষণা ও প্রযুক্তিনির্ভর শাখা, যার কাজ হলো ডিজিটাল চিত্র সংগ্রহ, চিত্র প্রক্রিয়াকরণ, চিত্র বিশ্লেষণ এবং সেই চিত্র থেকে অর্থপূর্ণ তথ্য আহরণ। এর মাধ্যমে বাস্তব জগৎ থেকে উচ্চ-মাত্রিক ডেটা বিশ্লেষণ করে তা সংখ্যাগত বা প্রতীকী তথ্য হিসেবে রূপান্তর করা হয়—যেমন সিদ্ধান্ত নেওয়ার মতো তথ্য।[] এখানে "বোঝা" বলতে বোঝানো হয়, চোখে দেখা চিত্রকে এমনভাবে বিশ্লেষণ করা, যা চিন্তা-প্রক্রিয়ায় অর্থবোধক হয়ে ওঠে এবং উপযুক্ত প্রতিক্রিয়া জানাতে সক্ষম হয়। এই ধরনের চিত্র-বোঝাপড়াকে ব্যাখ্যা করা যায় চিত্র ডেটা থেকে প্রতীকী তথ্য আলাদা করার প্রক্রিয়া হিসেবে, যেখানে জ্যামিতি, পদার্থবিদ্যা, পরিসংখ্যান এবং লার্নিং তত্ত্বের সহায়তায় নির্মিত মডেল ব্যবহৃত হয়।[]

কম্পিউটার ভিশনের বৈজ্ঞানিক শাখা কৃত্রিম প্রণালির জন্য এমন তাত্ত্বিক কাঠামো গড়ে তোলে, যা চিত্র থেকে তথ্য আহরণে সক্ষম। চিত্র ডেটা বিভিন্ন রূপে আসতে পারে—যেমন ভিডিও সিকোয়েন্স, একাধিক ক্যামেরার দৃশ্য, ত্রিমাত্রিক (3D) স্ক্যানার দ্বারা সংগৃহীত বহু-মাত্রিক ডেটা, LiDaR সেন্সরের 3D পয়েন্ট ক্লাউড, কিংবা চিকিৎসা-ভিত্তিক স্ক্যানিং যন্ত্রের চিত্র।[] কম্পিউটার ভিশনের প্রযুক্তিগত শাখা এই তত্ত্ব ও মডেল ব্যবহার করে ব্যবহারিক চিত্র বিশ্লেষণ ব্যবস্থা নির্মাণে কাজ করে।

এই শাখার বিভিন্ন উপ-ক্ষেত্র রয়েছে, যেমন: ত্রিমাত্রিক দৃশ্য পুনর্গঠন, বস্তু শনাক্তকরণ, ঘটনা শনাক্তকরণ, ক্রিয়াকলাপ সনাক্তকরণ, ভিডিও ট্র্যাকিং, বস্তু স্বীকৃতি, ত্রিমাত্রিক ভঙ্গি নির্ধারণ, শেখা (লার্নিং), ইনডেক্সিং, গতি নির্ধারণ, ভিজ্যুয়াল সার্ভোয়িং, 3D দৃশ্য মডেলিং এবং চিত্র পুনরুদ্ধার[]

সংজ্ঞা

[সম্পাদনা]

কম্পিউটার ভিশন একটি আন্তঃবিষয়ক ক্ষেত্র, যা কম্পিউটার কীভাবে ডিজিটাল চিত্র বা ভিডিও থেকে উচ্চস্তরের জ্ঞান অর্জন করতে পারে, তা নিয়ে কাজ করে। প্রকৌশলগত দৃষ্টিকোণ থেকে এটি এমন কাজগুলো স্বয়ংক্রিয় করার চেষ্টা করে, যা সাধারণত মানব দৃষ্টি পদ্ধতি সম্পাদন করে থাকে।[][][]

কম্পিউটার ভিশন মূলত চিত্র বা চিত্রের ধারাবাহিকতা থেকে প্রয়োজনীয় তথ্য স্বয়ংক্রিয়ভাবে আহরণ, বিশ্লেষণ এবং ব্যাখ্যা করার প্রক্রিয়া নিয়ে কাজ করে। এটি এমন তাত্ত্বিক কাঠামো এবং অ্যালগরিদম নির্মাণের সঙ্গে সম্পর্কিত, যা স্বয়ংক্রিয়ভাবে দৃশ্য বোঝার সক্ষমতা অর্জন করে।[]

একটি বৈজ্ঞানিক শাখা হিসেবে, কম্পিউটার ভিশন কৃত্রিম ব্যবস্থার জন্য এমন তত্ত্ব নিয়ে কাজ করে, যা চিত্র থেকে তথ্য আহরণ করতে পারে। এই চিত্র ডেটা বিভিন্ন রূপে থাকতে পারে—যেমন ভিডিও ধারাবাহিকতা, একাধিক ক্যামেরা থেকে নেওয়া দৃশ্য, অথবা চিকিৎসাবিষয়ক স্ক্যানার থেকে প্রাপ্ত বহু-মাত্রিক তথ্য।[]

একটি প্রযুক্তিগত শাখা হিসেবে, কম্পিউটার ভিশন তার তত্ত্ব ও মডেলসমূহ ব্যবহার করে কার্যকর চিত্র বিশ্লেষণ ব্যবস্থা গঠনের লক্ষ্যে কাজ করে। মেশিন ভিশন এক্ষেত্রে একটি প্রকৌশল ভিত্তিক শাখা হিসেবে বিবেচিত হয়, বিশেষত শিল্প উৎপাদন ও স্বয়ংক্রিয়করণের প্রেক্ষাপটে। সাম্প্রতিক সময়ে "কম্পিউটার ভিশন" এবং "মেশিন ভিশন" শব্দদ্বয়ের মধ্যে পার্থক্য অনেকটা হ্রাস পেয়েছে এবং এদের ব্যবহার ক্রমশ একীভূত হয়েছে।[১০]:১৩

ইতিহাস

[সম্পাদনা]

১৯৬০-এর দশকের শেষ দিকে, কম্পিউটার ভিশনের সূচনা হয় বিশ্ববিদ্যালয়গুলোতে, যেখানে কৃত্রিম বুদ্ধিমত্তা গবেষণায় অগ্রণী ভূমিকা পালন করা হচ্ছিল। এই গবেষণার উদ্দেশ্য ছিল মানব দৃষ্টিশক্তিকে অনুকরণ করে বুদ্ধিদীপ্ত রোবট তৈরি করা।[১১] ১৯৬৬ সালে, ধারণা করা হয়েছিল যে একটি গ্রীষ্মকালীন স্নাতক গবেষণা প্রকল্পের মাধ্যমেই এই লক্ষ্য অর্জন করা সম্ভব—যেখানে একটি ক্যামেরাকে কম্পিউটারে সংযুক্ত করে, সেটিকে "যা দেখছে তা বর্ণনা করতে" শেখানো হবে।[১২][১৩][১৪]

তৎকালীন জনপ্রিয় ডিজিটাল চিত্র প্রক্রিয়াকরণ ক্ষেত্র থেকে কম্পিউটার ভিশনের মূল পার্থক্য ছিল চিত্র থেকে ত্রিমাত্রিক গঠন আহরণের চেষ্টা, যাতে একটি পূর্ণাঙ্গ দৃশ্য বোঝার সক্ষমতা অর্জন করা যায়। ১৯৭০-এর দশকের গবেষণায় আজকের অনেক গুরুত্বপূর্ণ কম্পিউটার ভিশন অ্যালগরিদমের ভিত্তি তৈরি হয়, যার মধ্যে ছিল: প্রান্ত সনাক্তকরণ, রেখা লেবেলিং, নন-পলিহেড্রাল ও পলিহেড্রাল মডেলিং, জটিল গঠনকে ছোট গঠনের সংযোগরূপে উপস্থাপন, অপটিক্যাল ফ্লো, এবং গতির হিসাব।[১১]

১৯৮০-এর দশকে গবেষণায় আরও কঠোর গাণিতিক বিশ্লেষণ এবং পরিমাণগত দৃষ্টিভঙ্গি গ্রহণ করা হয়। এই সময়ে স্কেল স্পেস তত্ত্ব, ছায়া, টেক্সচার ও ফোকাসের মাধ্যমে আকার নির্ধারণ এবং স্নেইক নামে পরিচিত সক্রিয় কনট্যুর মডেল নিয়ে কাজ হয়। গবেষকরা বুঝতে পারেন যে এই সমস্ত গাণিতিক বিষয়বস্তু নিয়মিতকরণমারকভ র‍্যান্ডম ফিল্ড এর মতো অপ্টিমাইজেশন কাঠামোর মধ্যেই ব্যাখ্যা করা সম্ভব।[১৫]

১৯৯০-এর দশকে, কিছু পূর্ববর্তী গবেষণাক্ষেত্র আরও সক্রিয় হয়ে ওঠে। প্রজেক্টিভ জ্যামিতি ব্যবহার করে ত্রিমাত্রিক পুনর্গঠন বিষয়ে অগ্রগতি ঘটে এবং এর মাধ্যমে ক্যামেরা রিসেকশনিং ও ক্যালিব্রেশন সম্পর্কে আরও ভালো ধারণা তৈরি হয়। ক্যামেরা ক্যালিব্রেশনের জন্য অপ্টিমাইজেশন পদ্ধতির আবির্ভাবে জানা যায়, এই ধরনের অনেক ধারণা আগেই ফটোগ্রামেট্রি শাস্ত্রে বান্ডেল অ্যাডজাস্টমেন্ট হিসেবে ব্যবহৃত হয়ে আসছে। এর ফলে একাধিক চিত্র থেকে দৃশ্যের ক্ষুদ্র ত্রিমাত্রিক পুনর্গঠন সম্ভব হয়। সেই সময় ডেন্স স্টেরিও মিল, মাল্টি-ভিউ স্টেরিও, এবং গ্রাফ কাট ভিত্তিক চিত্র বিভাজন পদ্ধতিরও উন্নয়ন ঘটে। এছাড়া, প্রথমবারের মতো পরিসংখ্যানগত শেখা পদ্ধতি ব্যবহার করে চিত্রে মুখ চিনে নেওয়ার প্রযুক্তি বাস্তবে ব্যবহার শুরু হয় (দেখুন: আইগেনফেস পদ্ধতি)। দশকের শেষভাগে কম্পিউটার গ্রাফিকস এবং কম্পিউটার ভিশনের মধ্যে আন্তঃক্রিয়া উল্লেখযোগ্যভাবে বেড়ে যায়। এর ফলে চিত্র-ভিত্তিক রেন্ডারিং, চিত্র রূপান্তর (মর্ফিং), দৃশ্য মধ্যবর্তী রূপান্তর, প্যানোরামিক চিত্র সেলাই, এবং প্রাথমিক লাইট-ফিল্ড রেন্ডারিং নিয়ে কাজ শুরু হয়।[১১]

সাম্প্রতিক সময়ে, ফিচার-ভিত্তিক পদ্ধতিগুলো পুনরায় জনপ্রিয়তা পায়, যেখানে মেশিন লার্নিং এবং জটিল অপ্টিমাইজেশন কাঠামোর সংমিশ্রণ ব্যবহৃত হয়।[১৬][১৭]

বিশেষ করে ডিপ লার্নিং পদ্ধতির অগ্রগতির ফলে কম্পিউটার ভিশন ক্ষেত্রে নতুন গতি এসেছে। চিত্র শ্রেণিবিন্যাস, বিভাজন এবং অপটিক্যাল ফ্লো সংক্রান্ত বিভিন্ন বেঞ্চমার্ক ডেটাসেটে ডিপ লার্নিং অ্যালগরিদমের সাফল্য আগের অনেক পদ্ধতিকে ছাড়িয়ে গেছে।[১৮][১৯]

সংশ্লিষ্ট ক্ষেত্র

[সম্পাদনা]
ছবিতে বস্তু শনাক্তকরণ প্রদর্শন

কঠিন-অবস্থা পদার্থবিজ্ঞান

[সম্পাদনা]

কঠিন-অবস্থা পদার্থবিজ্ঞান (solid-state physics) হলো একটি ক্ষেত্র যা কম্পিউটার ভিশনের সঙ্গে ঘনিষ্ঠভাবে সম্পর্কিত। অধিকাংশ কম্পিউটার ভিশন ব্যবস্থা চিত্র সেন্সরের উপর নির্ভর করে, যা সাধারণত দৃশ্যমান আলো, ইনফ্রারেড আলো অথবা অতিবেগুনি আলো রূপে তড়িচ্চুম্বকীয় বিকিরণ শনাক্ত করে। এসব সেন্সর কোয়ান্টাম পদার্থবিজ্ঞানের সাহায্যে ডিজাইন করা হয়। আলো যেভাবে কোনো পৃষ্ঠের সঙ্গে মিথস্ক্রিয়া করে, তা ব্যাখ্যা করতে পদার্থবিজ্ঞান ব্যবহৃত হয়। চিত্র সংগ্রহ ব্যবস্থার প্রধান উপাদান হিসেবে অপটিক্সের আচরণও পদার্থবিজ্ঞান দ্বারা ব্যাখ্যা করা হয়। উন্নত মানের ইমেজ সেন্সর বিশ্লেষণের জন্য কখনও কখনও কোয়ান্টাম বলবিদ্যা পর্যন্ত প্রয়োগ করতে হয়।[১১] এছাড়াও, পদার্থবিজ্ঞানের বিভিন্ন মাপজোক সংক্রান্ত সমস্যার সমাধানে কম্পিউটার ভিশন ব্যবহৃত হতে পারে—যেমন তরল পদার্থে গতির বিশ্লেষণ।

স্নায়ুবিজ্ঞান

[সম্পাদনা]
একটি নিউরাল নেটওয়ার্ক প্রশিক্ষণের সরল উদাহরণ: বিভিন্ন ছবিতে থাকা তারামাছ এবং সামুদ্রিক সুঁই শনাক্ত করে সেগুলোর ভিজ্যুয়াল ফিচার-এর সঙ্গে সম্পর্ক তৈরি করা হয়। তারামাছের সঙ্গে বৃত্তাকার টেক্সচার ও তারা-আকৃতির মিল থাকে, আর সামুদ্রিক সুঁইয়ের সঙ্গে ডোরা টেক্সচার ও ডিম্বাকার আকারের মিল দেখা যায়।
প্রশিক্ষণের পর নিউরাল নেটওয়ার্কের কার্যকারিতা:[২০] ইনপুট ছবিতে তারামাছকে সঠিকভাবে শনাক্ত করা হয়। কিন্তু সামুদ্রিক সুঁইয়ের টেক্সচার ও ডিম্বাকার আকারের সাদৃশ্য থাকার কারণে, একটি দুর্বল সিগন্যাল তার দিকেও পাঠানো হয়, যা একটি মিথ্যা ধনাত্মক ফলাফলের সম্ভাবনা তৈরি করে।

স্নায়ুবিজ্ঞান (neurobiology) কম্পিউটার ভিশন অ্যালগরিদমের বিকাশে ব্যাপক প্রভাব ফেলেছে। গত শতকে, মানব ও প্রাণীর চক্ষু, নিউরন এবং মস্তিষ্কের কাঠামো নিয়ে ব্যাপক গবেষণা হয়েছে, যার ফলে প্রাকৃতিক দৃষ্টিব্যবস্থার কার্যপদ্ধতি নিয়ে একটি জটিল কিন্তু সামগ্রিক ব্যাখ্যা গড়ে উঠেছে। এর ফলস্বরূপ, কম্পিউটার ভিশনে একটি উপ-ক্ষেত্র তৈরি হয়েছে যেখানে কৃত্রিম ব্যবস্থা জীববৈজ্ঞানিক প্রক্রিয়াকে বিভিন্ন মাত্রায় অনুকরণ করার জন্য তৈরি করা হয়।

এছাড়াও, কম্পিউটার ভিশনের যেসব শেখাভিত্তিক (learning-based) পদ্ধতি রয়েছে, যেমন নিউরাল নেটওয়ার্ক এবং ডিপ লার্নিং ভিত্তিক চিত্র বিশ্লেষণ ও শ্রেণিবিন্যাস, তার অনেক ভিত্তি স্নায়ুবিজ্ঞানে নিহিত। ১৯৭০-এর দশকে কুনিহিকো ফুকুশিমা কর্তৃক উন্নীত নিওকগনিট্রন ছিল এমন একটি প্রাথমিক নিউরাল নেটওয়ার্ক যা সরাসরি প্রাথমিক ভিজ্যুয়াল কর্টেক্স অনুপ্রাণিত হয়ে তৈরি হয়েছিল।

কম্পিউটার ভিশনের কিছু গবেষণা শাখা জৈবিক দৃষ্টি নিয়ে গবেষণার সঙ্গে সরাসরি সম্পর্কযুক্ত, যেমনটা কৃত্রিম বুদ্ধিমত্তা গবেষণার বহু শাখা মানব বুদ্ধিমত্তা ও স্মৃতিনির্ভর বিশ্লেষণ প্রক্রিয়ার সঙ্গে সম্পর্কিত। জৈবিক দৃষ্টি ক্ষেত্রে মানুষ ও অন্যান্য প্রাণীর দৃষ্টিগত উপলব্ধি প্রক্রিয়ার শারীরবৃত্তীয় দিকগুলো নিয়ে গবেষণা করা হয়। অপরদিকে, কম্পিউটার ভিশন সেইসব অ্যালগরিদম ও প্রযুক্তি তৈরি করে যা সফটওয়্যার ও হার্ডওয়্যারভিত্তিক কৃত্রিম দৃষ্টি ব্যবস্থাকে কার্যকর করে তোলে। এই দুই ক্ষেত্রের মধ্যে আন্তঃবিষয়ক বিনিময় উভয়ের জন্যই ফলপ্রসূ হয়েছে।[২১]

সংকেত প্রক্রিয়াকরণ

[সম্পাদনা]

কম্পিউটার ভিশনের সঙ্গে ঘনিষ্ঠভাবে সম্পর্কিত আরেকটি ক্ষেত্র হলো সংকেত প্রক্রিয়াকরণ (signal processing)। সাধারণত একমাত্রিক (যেমন: সময়-ভিত্তিক) সংকেত প্রক্রিয়াকরণের জন্য ব্যবহৃত অনেক পদ্ধতি সহজেই দ্বিমাত্রিক বা বহু-মাত্রিক সংকেত বিশ্লেষণের ক্ষেত্রে, অর্থাৎ কম্পিউটার ভিশনে, প্রয়োগ করা যায়। তবে, চিত্রের স্বতন্ত্র প্রকৃতির কারণে কম্পিউটার ভিশনে এমন অনেক পদ্ধতির বিকাশ হয়েছে যার একমাত্রিক সংকেত প্রক্রিয়াকরণে কোনো সরাসরি সমতুল্য নেই। সংকেতের এই বহু-মাত্রিক প্রকৃতির সাথে মিলে, সংকেত প্রক্রিয়াকরণের একটি উপ-ক্ষেত্র হিসেবে কম্পিউটার ভিশন গড়ে উঠেছে।

রোবোটিক ন্যাভিগেশন

[সম্পাদনা]

রোবটিক ন্যাভিগেশন ক্ষেত্রে অনেক সময় স্বয়ংক্রিয় পথ পরিকল্পনা এবং পরিবেশে চলাচলের জন্য রোবটের নিজস্ব বিচারক্ষমতার উপর নির্ভর করতে হয়।[২২] পরিবেশের বিস্তারিত বোঝাপড়া ছাড়া এই চলাচল সম্ভব নয়। এই পরিবেশ সম্পর্কিত তথ্য কম্পিউটার ভিশন ব্যবস্থা সরবরাহ করতে পারে, যা একপ্রকার চাক্ষুষ সেন্সরের মতো কাজ করে এবং রোবট ও পরিবেশ সম্পর্কে উচ্চস্তরের তথ্য প্রদান করে।

অন্যান্য ক্ষেত্র

[সম্পাদনা]

উপরোক্ত ক্ষেত্রগুলোর পাশাপাশি, অনেক সম্পর্কিত গবেষণাক্ষেত্রকে সম্পূর্ণ গাণিতিক দৃষ্টিকোণ থেকেও বিশ্লেষণ করা যায়। উদাহরণস্বরূপ, কম্পিউটার ভিশনের বহু পদ্ধতির ভিত্তি পরিসংখ্যান, অনুকূলায়ন বা জ্যামিতির উপর নির্ভরশীল। এছাড়াও, এই ক্ষেত্রের একটি বড় অংশ কম্পিউটার ভিশনের বাস্তবায়ন সংক্রান্ত দিক নিয়ে কাজ করে—যেমন, বিদ্যমান পদ্ধতিগুলিকে কীভাবে সফটওয়্যার ও হার্ডওয়্যারের বিভিন্ন সংমিশ্রণে কার্যকরভাবে বাস্তবায়ন করা যায়, কিংবা কীভাবে এসব পদ্ধতিকে এমনভাবে পরিবর্তন করা যায় যাতে প্রক্রিয়াকরণ গতি বাড়ানো যায় এবং কর্মদক্ষতায় বড় ধরনের আপস না হয়।

কম্পিউটার ভিশন বর্তমানে ফ্যাশন ই-কমার্স, মজুদ ব্যবস্থাপনা, পেটেন্ট অনুসন্ধান, আসবাবপত্র শিল্প এবং সৌন্দর্য পণ্যের মতো বাণিজ্যিক ক্ষেত্রেও ব্যবহৃত হচ্ছে।[২৩]

পার্থক্য

[সম্পাদনা]

কম্পিউটার ভিশনের সবচেয়ে ঘনিষ্ঠভাবে সম্পর্কিত ক্ষেত্রসমূহ হলো চিত্র প্রক্রিয়াকরণ, চিত্র বিশ্লেষণ এবং মেশিন ভিশন। এই ক্ষেত্রগুলোর প্রযুক্তি ও প্রয়োগে ব্যাপক মাত্রায় মিল রয়েছে। অনেক সময় এগুলো একই মূল ক্ষেত্রের ভিন্ন নাম বলেও মনে হতে পারে। তবে গবেষণা গোষ্ঠী, বৈজ্ঞানিক সাময়িকী, সম্মেলন ও শিল্পপ্রতিষ্ঠানগুলো প্রায়শই নিজেদের কোনো একটি নির্দিষ্ট শাখার সঙ্গে যুক্ত হিসেবে উপস্থাপন করে, যার ফলে প্রতিটি ক্ষেত্রকে পৃথকভাবে চিহ্নিত করার জন্য নির্দিষ্ট বৈশিষ্ট্য উল্লেখ করা হয়ে থাকে।

চিত্র প্রক্রিয়াকরণে ইনপুট ও আউটপুট উভয়ই চিত্র। অন্যদিকে, কম্পিউটার ভিশনে ইনপুট চিত্র বা ভিডিও হতে পারে, কিন্তু আউটপুট হতে পারে উন্নত করা চিত্র, চিত্রের বিষয়বস্তু বিশ্লেষণ, বা সেই বিশ্লেষণের ভিত্তিতে কোনো প্রণালির আচরণ।

কম্পিউটার গ্রাফিকস ত্রিমাত্রিক মডেল থেকে চিত্র তৈরি করে, আর কম্পিউটার ভিশন প্রায়শই চিত্র থেকে ত্রিমাত্রিক মডেল তৈরি করে থাকে।[২৪] অ্যাগমেন্টেড রিয়েলিটি-এর মতো ক্ষেত্রগুলোতে এই দুই শাখার সমন্বয়ের প্রবণতা লক্ষ্য করা যায়।

নিচের শ্রেণিবিন্যাসগুলো প্রাসঙ্গিক হিসেবে বিবেচিত হলেও সর্বজনগ্রাহ্য নয়:

  • চিত্র প্রক্রিয়াকরণচিত্র বিশ্লেষণ সাধারণত দ্বিমাত্রিক চিত্র নিয়ে কাজ করে, যেখানে একটি চিত্রকে অন্যরূপে রূপান্তরের উপর গুরুত্ব থাকে—যেমন পিক্সেলভিত্তিক কনট্রাস্ট বাড়ানো, প্রান্ত নির্ণয় বা শব্দ অপসারণ, কিংবা ঘূর্ণনমূলক জ্যামিতিক রূপান্তর। এই ব্যাখ্যায় বোঝানো হয়, চিত্র প্রক্রিয়াকরণ বা বিশ্লেষণ চিত্রের বিষয়বস্তু নিয়ে ব্যাখ্যা প্রদান করে না, এবং কোনো পূর্বধারণার উপর নির্ভর করে না।
  • কম্পিউটার ভিশন ২ডি চিত্র থেকে ৩ডি বিশ্লেষণ অন্তর্ভুক্ত করে। এটি এমন ৩ডি দৃশ্য বিশ্লেষণ করে যা এক বা একাধিক চিত্রে প্রতিফলিত হয়েছে, যেমন কাঠামো পুনর্গঠন বা দৃশ্য সম্পর্কিত অন্যান্য তথ্য আহরণ। এটি প্রায়শই দৃশ্য সম্পর্কে অপেক্ষাকৃত জটিল কিছু পূর্বধারণার উপর ভিত্তি করে কাজ করে।
  • মেশিন ভিশন শিল্প খাতে চিত্রভিত্তিক স্বয়ংক্রিয় পরিদর্শন, প্রক্রিয়া নিয়ন্ত্রণ এবং রোবটিক নির্দেশনার জন্য বিভিন্ন প্রযুক্তি ও পদ্ধতির প্রয়োগ নিয়ে কাজ করে।[২৫][২১] এটি প্রায়শই উৎপাদনশিল্প-ভিত্তিক, যেখানে ভিশন-নির্ভর রোবট এবং পরিদর্শন, পরিমাপ বা বস্তু নির্বাচন সংক্রান্ত ব্যবস্থা ব্যবহৃত হয় (যেমন বিন পিকিং পদ্ধতি)।[২৬] এটি বোঝায় যে, চিত্র সেন্সর প্রযুক্তি ও নিয়ন্ত্রণ তত্ত্বের সঙ্গে চিত্র ডেটা প্রক্রিয়াকরণ একত্রে বাস্তবায়িত হয় এবং হার্ডওয়্যার ও সফটওয়্যারে দক্ষ বাস্তবায়নের মাধ্যমে রিয়েল-টাইম প্রক্রিয়াকরণে জোর দেওয়া হয়। সাধারণত মেশিন ভিশনে আলোর মতো বাইরের পরিবেশনীয় বিষয় বেশি নিয়ন্ত্রিত হয়, যা বিভিন্ন অ্যালগরিদম ব্যবহারের সুযোগ তৈরি করে।
  • ইমেজিং বিজ্ঞান (imaging science) নামক আরেকটি ক্ষেত্র বিদ্যমান, যার প্রাথমিক লক্ষ্য হলো চিত্র তৈরি করা। তবে এটি অনেক সময় চিত্রের প্রক্রিয়াকরণ ও বিশ্লেষণ সম্পর্কেও কাজ করে। উদাহরণস্বরূপ, চিকিৎসা-চিত্রায়ন (medical imaging) ক্ষেত্রে চিত্র ডেটার বিশ্লেষণ একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। কনভলিউশনাল নিউরাল নেটওয়ার্কের (CNN) অগ্রগতির ফলে হৃদরোগ, চর্মরোগ, বিকৃতিবিদ্যা এবং রেডিওলজির মতো চিকিৎসাক্ষেত্রে রোগ সনাক্তকরণে উল্লেখযোগ্য অগ্রগতি হয়েছে।[২৭]

ফটোগ্রামেট্রি ক্ষেত্রটিও কম্পিউটার ভিশনের সঙ্গে অনেক ক্ষেত্রে ওভারল্যাপ করে, যেমন স্টেরিওফটোগ্রামেট্রি বনাম কম্পিউটার স্টেরিও ভিশন

প্রয়োগ

[সম্পাদনা]

কম্পিউটার ভিশনের প্রয়োগ ক্ষেত্র অত্যন্ত বিস্তৃত। এর মধ্যে রয়েছে শিল্পক্ষেত্রে মেশিন ভিশন ব্যবস্থা, যেমন উৎপাদন লাইনে দ্রুতগতিতে চলমান বোতল পর্যবেক্ষণ, আবার কৃত্রিম বুদ্ধিমত্তা এবং এমন কম্পিউটার বা রোবট নিয়ে গবেষণাও রয়েছে যা তাদের চারপাশের বিশ্ব বুঝতে সক্ষম। কম্পিউটার ভিশন ও মেশিন ভিশন ক্ষেত্রের মধ্যে উল্লেখযোগ্য মাত্রায় ওভারল্যাপ রয়েছে।

কম্পিউটার ভিশন মূলত স্বয়ংক্রিয় চিত্র বিশ্লেষণের প্রযুক্তি নিয়ে কাজ করে, যা নানা ক্ষেত্রে ব্যবহৃত হয়। অপরদিকে, মেশিন ভিশন সাধারণত এমন একটি প্রক্রিয়াকে বোঝায়, যেখানে স্বয়ংক্রিয় চিত্র বিশ্লেষণ অন্যান্য পদ্ধতি ও প্রযুক্তির সঙ্গে একত্রিত হয়ে শিল্পক্ষেত্রে স্বয়ংক্রিয় পরিদর্শন ও রোবট নির্দেশনার জন্য ব্যবহৃত হয়।

অনেক কম্পিউটার ভিশন ভিত্তিক অ্যাপ্লিকেশনে কম্পিউটারকে নির্দিষ্ট একটি কাজের জন্য পূর্বনির্ধারিতভাবে প্রোগ্রাম করা হয়। তবে, বর্তমানে শেখাভিত্তিক পদ্ধতির ব্যবহার দিনদিন বৃদ্ধি পাচ্ছে।

কম্পিউটার ভিশনে ৩ডি আকার শেখা একটি চ্যালেঞ্জিং কাজ। সাম্প্রতিক ডিপ লার্নিং অগ্রগতির ফলে একক বা বহু ভিউ ডেপথ ম্যাপ ও সিলুয়েট থেকে ৩ডি গঠন তৈরি ও পুনর্গঠনে সক্ষম মডেল তৈরি সম্ভব হয়েছে।[২৪]

কম্পিউটার ভিশনের কিছু উল্লেখযোগ্য প্রয়োগের মধ্যে রয়েছে:

চিকিৎসাবিজ্ঞান

[সম্পাদনা]
DARPA'র ভিজ্যুয়াল মিডিয়া রিজনিং ধারণাভিত্তিক ভিডিও

কম্পিউটার ভিশনের অন্যতম গুরুত্বপূর্ণ প্রয়োগ ক্ষেত্র হলো চিকিৎসা-ভিত্তিক কম্পিউটার ভিশন বা চিকিৎসা চিত্র প্রক্রিয়াকরণ। এ ক্ষেত্রে চিত্র ডেটা থেকে রোগ নির্ণয়ের জন্য তথ্য আহরণ করা হয়। এর উদাহরণ হতে পারে টিউমার, ধমনীতে চর্বি জমা (arteriosclerosis) অথবা অন্যান্য ক্যানসারজাতীয় পরিবর্তন শনাক্তকরণ, এবং বিভিন্ন দাঁতের রোগ নির্ণয়। এছাড়া, অঙ্গপ্রত্যঙ্গের আকার, রক্তপ্রবাহ ইত্যাদির পরিমাপনও চিকিৎসা চিত্র বিশ্লেষণের অন্তর্ভুক্ত।

এছাড়া, চিকিৎসা গবেষণার ক্ষেত্রেও কম্পিউটার ভিশন সহায়ক—যেমন মস্তিষ্কের গঠন বা চিকিৎসার মান নিয়ে নতুন তথ্য প্রদান করে। মানুষের দ্বারা বিশ্লেষিত আল্ট্রাসাউন্ড বা এক্স-রে চিত্র উন্নত করার মাধ্যমেও এটি ব্যবহৃত হয়, যা চিত্রের শব্দ (noise) হ্রাসে সহায়তা করে।

মেশিন ভিশন

[সম্পাদনা]

কম্পিউটার ভিশনের আরেকটি গুরুত্বপূর্ণ প্রয়োগ ক্ষেত্র হলো শিল্পক্ষেত্রে ব্যবহৃত মেশিন ভিশন। এ ক্ষেত্রে চিত্র বিশ্লেষণের মাধ্যমে উৎপাদন প্রক্রিয়াকে সহায়তা করা হয়। একটি সাধারণ উদাহরণ হলো গুণমান নিরীক্ষণ, যেখানে উৎপাদিত পণ্যের ত্রুটি স্বয়ংক্রিয়ভাবে শনাক্ত করা হয়।

এই ধরনের পরিদর্শনের একটি পরিচিত ক্ষেত্র হলো ওয়েফার শিল্প, যেখানে প্রতিটি ওয়েফার খুঁটিনাটি পর্যবেক্ষণের মাধ্যমে ত্রুটি খোঁজা হয়, যাতে কম্পিউটার চিপ ত্রুটিপূর্ণ অবস্থায় বাজারে না আসে।

অন্য একটি উদাহরণ হলো কোনো বস্তুর অবস্থান ও অভিমুখ নির্ধারণ, যাতে রোবট বাহু তা তুলতে পারে। অপটিক্যাল বাছাই নামক প্রক্রিয়ায় মেশিন ভিশন কৃষি উৎপাদনে অবাঞ্ছিত খাদ্যবস্তু সরিয়ে ফেলতেও ব্যবহৃত হয়।[৩২]

সামরিক ক্ষেত্র

[সম্পাদনা]

সামরিক প্রয়োগ সম্ভবত কম্পিউটার ভিশনের অন্যতম বৃহৎ ক্ষেত্রগুলোর একটি।[তথ্যসূত্র প্রয়োজন] সাধারণ উদাহরণ হলো শত্রু সেনা বা যান শনাক্তকরণ এবং মিসাইল গাইডেন্স। আধুনিক মিসাইল ব্যবস্থায় লক্ষ্যবস্তুতে নয়, বরং একটি এলাকায় মিসাইল পাঠানো হয়, এবং সেখানে পৌঁছানোর পর স্থানীয়ভাবে প্রাপ্ত চিত্র ডেটার ভিত্তিতে লক্ষ্য নির্ধারণ করা হয়।

"যুদ্ধক্ষেত্র সচেতনতা" (battlefield awareness) নামক আধুনিক সামরিক ধারণায় বিভিন্ন সেন্সর, বিশেষত চিত্র সেন্সর, যুদ্ধক্ষেত্র সম্পর্কে ব্যাপক তথ্য সরবরাহ করে যা কৌশলগত সিদ্ধান্তে সহায়তা করে। এসব ক্ষেত্রে বিভিন্ন সেন্সর থেকে তথ্য একত্র করে স্বয়ংক্রিয়ভাবে বিশ্লেষণ করা হয়, যা তথ্য বিশ্লেষণকে সহজতর করে এবং নির্ভরযোগ্যতা বৃদ্ধি করে।

স্বয়ংক্রিয় যানবাহন

[সম্পাদনা]
মঙ্গলগ্রহে কর্মরত কিউরিওসিটি রোভার—একটি স্বয়ংক্রিয় স্থলযান। রোভারটির উপরের দিকে স্টেরিও ক্যামেরা স্থাপন করা আছে।

কম্পিউটার ভিশনের একটি অপেক্ষাকৃত নতুন প্রয়োগ ক্ষেত্র হলো স্বয়ংক্রিয় যানবাহন (autonomous vehicles)। এদের মধ্যে রয়েছে জলচর যান, স্থলভিত্তিক রোবট, গাড়ি ও ট্রাক, এবং মানববিহীন আকাশযান (UAV)। এদের স্বয়ংক্রিয়তার মাত্রা বিভিন্ন হতে পারে—সম্পূর্ণ স্বয়ংক্রিয় যান থেকে শুরু করে এমন যান পর্যন্ত, যেখানে কম্পিউটার ভিশন কেবলমাত্র চালক বা পাইলটকে সহায়তা করে।

সম্পূর্ণ স্বয়ংক্রিয় যান সাধারণত ন্যাভিগেশন-এর জন্য কম্পিউটার ভিশন ব্যবহার করে, যেমন: নিজের অবস্থান নির্ধারণ, পরিবেশের মানচিত্র তৈরি (SLAM), বা প্রতিবন্ধকতা শনাক্তকরণ। কোনো নির্দিষ্ট ঘটনা, যেমন বনাঞ্চলে আগুন শনাক্তকরণেও UAV ব্যবহার করা হয়।

সহায়ক প্রযুক্তির উদাহরণ হিসেবে গাড়ির অবস্ট্যাকল সতর্কীকরণ ব্যবস্থা, ক্যামেরা ও LiDAR সেন্সর, অথবা বিমান অবতরণে ব্যবহৃত স্বয়ংক্রিয় ব্যবস্থা উল্লেখযোগ্য। অনেক গাড়ি নির্মাতা সংস্থা ইতোমধ্যেই স্বয়ংচালিত গাড়ির প্রদর্শন সম্পন্ন করেছে।

সামরিকক্ষেত্রেও স্বয়ংক্রিয় যানবাহনের প্রয়োগ উল্লেখযোগ্য—উন্নত মিসাইল থেকে শুরু করে নজরদারি মিশনে ব্যবহৃত UAV পর্যন্ত। মহাকাশ অনুসন্ধানেও কম্পিউটার ভিশনভিত্তিক স্বয়ংক্রিয় যান ব্যবহৃত হচ্ছে, যেমন: নাসা-র কিউরিওসিটিCNSA-এর Yutu-2 রোভার।

স্পর্শ প্রতিক্রিয়া

[সম্পাদনা]
মাইক্রো-উন্ডুলেশন পৃষ্ঠের গঠন নির্ধারণের জন্য নমনীয় কাঠামোযুক্ত রাবার কৃত্রিম ত্বকের স্তর
সিলিকন সেন্সরের উপর একটি ক্যামেরা স্থাপিত আছে, যার চারপাশে অনেক বিন্দু মার্কার রয়েছে। যখন এটি কোনো পৃষ্ঠের উপর চাপানো হয়, তখন সিলিকন বিকৃত হয় এবং মার্কারগুলোর অবস্থান পরিবর্তিত হয়। এর মাধ্যমে রোবটিক হাতের স্পর্শ সংবেদন উন্নত করা যায়।

রাবার এবং সিলিকনের মতো উপকরণ ব্যবহার করে এমন সেন্সর তৈরি করা হচ্ছে যা মাইক্রো-অসামান্যতা শনাক্তকরণ ও রোবটিক হাতের ক্যালিব্রেশনের মতো প্রয়োগে ব্যবহৃত হয়।

রাবার দিয়ে আঙ্গুলের আকারের একটি ছাঁচ তৈরি করে তার ভিতরে একাধিক স্ট্রেইন গেজ বসানো যায়। এই ছাঁচটি একটি ছোট রাবার শিটের উপর বসানো যায়, যেখানে অসংখ্য রাবার পিন থাকে। ব্যবহারকারী এই আঙুল-আকৃতির সেন্সর পরে কোনো পৃষ্ঠ স্পর্শ করে চলতে পারে। তখন কম্পিউটার স্ট্রেইন গেজ থেকে ডেটা নিয়ে বুঝতে পারে কোনো পিন উপরের দিকে চাপ প্রাপ্ত হয়েছে কিনা—যা পৃষ্ঠে ত্রুটি হিসেবে শনাক্ত হয়। এই প্রযুক্তি বড় পৃষ্ঠে সূক্ষ্ম ত্রুটি নির্ণয়ে কার্যকর।[৩৩]

এছাড়াও, সিলিকনের ভিতরে স্থাপিত ক্যামেরাযুক্ত সেন্সরের একটি রূপ রয়েছে। এই সেন্সরের চারপাশে সিলিকনের গম্বুজে স্থাপিত থাকে সমান দূরত্বে বিন্দু মার্কার। যখন এটি কোনো পৃষ্ঠে চাপানো হয়, তখন ক্যামেরা এই অবস্থান পরিবর্তন পর্যবেক্ষণ করে, যা রোবটিক হাতের জন্য অতি সূক্ষ্ম স্পর্শগত তথ্য প্রদান করে।[৩৪]

অন্যান্য প্রয়োগ ক্ষেত্র

[সম্পাদনা]

কম্পিউটার ভিশনের আরও কিছু উল্লেখযোগ্য প্রয়োগ ক্ষেত্রের মধ্যে রয়েছে:

সাধারণ কাজসমূহ

[সম্পাদনা]

উপরোক্ত প্রতিটি প্রয়োগক্ষেত্রেই কম্পিউটার ভিশনের বিভিন্ন ধরনের কাজ ব্যবহৃত হয়—এসব কাজ নির্দিষ্ট পরিমাপ সমস্যা অথবা প্রক্রিয়াকরণ সমস্যা হিসেবে সংজ্ঞায়িত, যেগুলোর সমাধান নানাবিধ পদ্ধতির মাধ্যমে করা যায়। নিচে কম্পিউটার ভিশনের কয়েকটি সাধারণ কাজের উদাহরণ তুলে ধরা হলো।

কম্পিউটার ভিশন সংক্রান্ত কাজগুলোর মধ্যে রয়েছে চিত্র সংগ্রহ, চিত্র প্রক্রিয়াকরণ, চিত্র বিশ্লেষণ এবং চিত্র বোঝার মাধ্যমে বাস্তব জগত থেকে উচ্চ-মাত্রিক তথ্য আহরণ, যা সংখ্যাগত বা প্রতীকী রূপে ব্যবহৃত হয়—যেমন কোনো সিদ্ধান্ত।[][][][] এখানে "বোঝা" বলতে বোঝানো হয় চিত্র (যেমন রেটিনার ইনপুট) কে এমন একটি ব্যাখ্যাযোগ্য রূপে রূপান্তর, যা চিন্তন প্রক্রিয়ার সঙ্গে যুক্ত হতে পারে এবং যথাযথ প্রতিক্রিয়া সৃষ্টি করতে পারে। এই চিত্র-বোঝাপড়াকে বলা যায় চিত্র ডেটা থেকে প্রতীকী তথ্য আলাদা করার প্রক্রিয়া, যা জ্যামিতি, পদার্থবিজ্ঞান, পরিসংখ্যানলার্নিং তত্ত্ব দ্বারা নির্মিত মডেলের সাহায্যে সম্পন্ন হয়।[৩৯]

স্বীকৃতি (Recognition)

[সম্পাদনা]

কম্পিউটার ভিশন, চিত্র প্রক্রিয়াকরণ এবং মেশিন ভিশন-এর একটি মৌলিক কাজ হলো নির্ধারণ করা—চিত্র ডেটায় কোনো নির্দিষ্ট বস্তু, বৈশিষ্ট্য বা কর্মকাণ্ড বিদ্যমান কি না। সাহিত্যে এই স্বীকৃতি সমস্যার বিভিন্ন ধরন বর্ণনা করা হয়েছে।[৪০]

  • বস্তু স্বীকৃতি (বা বস্তু শ্রেণিবিন্যাস) — পূর্বনির্ধারিত বা শেখা একটি বা একাধিক বস্তু বা শ্রেণি চিহ্নিত করা হয়, সাধারণত চিত্রে তার ২ডি অবস্থান অথবা দৃশ্যে তার ৩ডি ভঙ্গি নির্ধারণসহ। উদাহরণ: Blippar, Google Goggles ও LikeThat অ্যাপ্লিকেশন।
  • পরিচয় নির্ধারণ — কোনো নির্দিষ্ট বস্তু বা তার স্বতন্ত্র রূপ চিহ্নিত করা। উদাহরণ: নির্দিষ্ট ব্যক্তির মুখ বা আঙুলের ছাপ শনাক্তকরণ, হস্তলিখিত সংখ্যা চেনা, বা নির্দিষ্ট যানবাহন চিহ্নিত করা।
  • বস্তু শনাক্তকরণ — চিত্র ডেটা স্ক্যান করে নির্দিষ্ট বস্তুর অবস্থানসহ শনাক্ত করা। উদাহরণ: গাড়ির সামনে বাধা শনাক্তকরণ, চিকিৎসা চিত্রে অস্বাভাবিক কোষ শনাক্তকরণ, অথবা স্বয়ংক্রিয় টোল ব্যবস্থায় গাড়ি চেনা।

এই ধরণের কাজের জন্য বর্তমানে সবচেয়ে উন্নত অ্যালগরিদমগুলো কনভলিউশনাল নিউরাল নেটওয়ার্ক (CNN)-ভিত্তিক। ImageNet Large Scale Visual Recognition Challenge হচ্ছে এমন একটি প্রতিযোগিতা যেখানে লক্ষ লক্ষ চিত্র এবং ১০০০টি বস্তুর শ্রেণি ব্যবহার করে এই অ্যালগরিদমগুলোর কার্যকারিতা মূল্যায়ন করা হয়।[৪১] এই পরীক্ষায় CNN-এর পারফরম্যান্স বর্তমানে প্রায় মানুষের সমতুল্য।[৪১]

তবে এখনও ছোট বা পাতলা বস্তুর ক্ষেত্রে (যেমন: ফুলের কাণ্ডে একটি পিঁপড়ে বা কারো হাতে একটি কলম) কিংবা ডিজিটাল ক্যামেরার ফিল্টারযুক্ত বিকৃত চিত্র বিশ্লেষণে এসব অ্যালগরিদম দুর্বলতা দেখায়—যেখানে মানুষ সাধারণত কম সমস্যার সম্মুখীন হয়। অন্যদিকে, মানুষ অনেক সময় সূক্ষ্ম শ্রেণি নির্ধারণে (যেমন কুকুরের প্রজাতি বা পাখির প্রজাতি) ভুল করে ফেললেও CNN তা বেশ দক্ষতার সঙ্গে করতে পারে।[তথ্যসূত্র প্রয়োজন]

স্বীকৃতির ভিত্তিতে আরও কয়েকটি বিশেষায়িত কাজের মধ্যে রয়েছে:

  • বিষয়বস্তুর ভিত্তিতে চিত্র অনুসন্ধান — বৃহৎ চিত্র সংগ্রহে নির্দিষ্ট বিষয়বস্তুর চিত্র খোঁজা। বিষয়বস্তু বিভিন্নভাবে নির্ধারণ করা যায়—যেমন কোনো নির্দিষ্ট চিত্রের সঙ্গে সাদৃশ্য অনুযায়ী (রিভার্স ইমেজ সার্চ), অথবা পাঠ্য ইনপুটের মাধ্যমে উচ্চ-স্তরের অনুসন্ধান শর্ত নির্ধারণ করে (যেমন: ‘‘যেসব চিত্রে অনেকগুলো ঘর আছে, শীতকালে তোলা হয়েছে এবং কোনো গাড়ি নেই’’)।
সার্বজনিক স্থান, বিপণিবিতান ও শপিং সেন্টারে মানুষ গণনার উদ্দেশ্যে কম্পিউটার ভিশনের প্রয়োগ
  • ভঙ্গি নির্ধারণ — কোনো নির্দিষ্ট বস্তুর অবস্থান বা অভিমুখ ক্যামেরার সাপেক্ষে নির্ধারণ করা। এর একটি উদাহরণ হলো রোবট বাহুকে সহায়তা করা যাতে এটি অ্যাসেম্বলি লাইনে কনভেয়র বেল্ট থেকে সুনির্দিষ্ট বস্তু তুলতে পারে।
  • মুখ স্বীকৃতি — এমন একটি প্রযুক্তি যার মাধ্যমে ডিজিটাল চিত্র বা ভিডিওর মুখাবয়ব চিহ্নিত করে একটি মুখ ডাটাবেসের সঙ্গে মিলিয়ে দেখা যায়। বর্তমানে এটি মোবাইল ফোনের ফেস আনলক, স্মার্ট দরজার লক ইত্যাদিতে বহুল ব্যবহৃত।[৪২]
  • আবেগ শনাক্তকরণ — এটি মুখ স্বীকৃতির একটি উপশাখা, যেখানে মানুষের আবেগ শনাক্ত করার চেষ্টা করা হয় মুখাবয়বের মাধ্যমে। তবে মনোবিজ্ঞানীরা সতর্ক করেন, অন্তর্নিহিত আবেগ শুধুমাত্র মুখভঙ্গি দেখে নির্ভরযোগ্যভাবে শনাক্ত করা যায় না।[৪৩]
  • মানব ক্রিয়াকলাপ শনাক্তকরণ — ধারাবাহিক ভিডিও ফ্রেম বিশ্লেষণের মাধ্যমে কোনো ব্যক্তির কার্যকলাপ শনাক্ত করা। যেমন: কেউ কোনো বস্তু তুলছে, হাঁটছে বা বসছে কি না তা নির্ধারণ করা।

গতি বিশ্লেষণ

[সম্পাদনা]

গতি নিরূপণ সম্পর্কিত একাধিক কাজ রয়েছে, যেখানে চিত্রের ধারাবাহিকতা বিশ্লেষণ করে চিত্রের প্রতিটি বিন্দু, ৩ডি দৃশ্য বা এমনকি চিত্র গ্রহণকারী ক্যামেরার গতি নির্ধারণের চেষ্টা করা হয়। এ ধরনের কাজের কয়েকটি উদাহরণ হলো:

  • ইগোমোশন — ক্যামেরার তৈরি ধারাবাহিক চিত্র বিশ্লেষণের মাধ্যমে ক্যামেরার ত্রিমাত্রিক কঠিন গতি (ঘূর্ণন ও অনুবাদ) নির্ধারণ করা।
  • ট্র্যাকিং — চিত্র ধারাবাহিকতায় একটি (সাধারণত ক্ষুদ্র) বিন্দু সেট বা বস্তু (যেমন: যানবাহন, বস্তু, মানুষ অথবা অন্যান্য জীব) অনুসরণ করা।[৩৮] এটি শিল্পক্ষেত্রে ব্যাপকভাবে ব্যবহৃত হয়, কারণ উচ্চগতির যন্ত্রপাতি এভাবে পর্যবেক্ষণ করা সম্ভব।
  • অপটিক্যাল ফ্লো — চিত্রের প্রতিটি বিন্দুর আপাত গতি নির্ধারণ করা, অর্থাৎ প্রতিটি বিন্দু কীভাবে চিত্র পৃষ্ঠের তুলনায় সরছে তা নির্ণয় করা। এই গতি দৃশ্যে সংশ্লিষ্ট ৩ডি বিন্দুর চলাচল এবং ক্যামেরার গতি—উভয়ের সম্মিলিত প্রভাব।

দৃশ্য পুনর্গঠন

[সম্পাদনা]

এক বা একাধিক চিত্র অথবা ভিডিও ধারাবাহিকতা থেকে কোনো দৃশ্যের ত্রিমাত্রিক মডেল তৈরি করার প্রক্রিয়াই দৃশ্য পুনর্গঠন। সহজতম ক্ষেত্রে এই মডেল একটি ৩ডি বিন্দুর সেট হতে পারে। আরও উন্নত পদ্ধতিগুলোর মাধ্যমে সম্পূর্ণ ৩ডি পৃষ্ঠ মডেল তৈরি করা যায়।

মোশন বা স্ক্যান ছাড়াই ত্রিমাত্রিক চিত্রগ্রহণ এবং সংশ্লিষ্ট প্রক্রিয়াজাতকরণ অ্যালগরিদমের আবির্ভাবে এই ক্ষেত্রে দ্রুত অগ্রগতি ঘটছে। গ্রিড-ভিত্তিক ৩ডি সেন্সিং পদ্ধতি ব্যবহার করে বিভিন্ন দিক থেকে ৩ডি চিত্র সংগ্রহ করা যায়। বর্তমানে এমন অ্যালগরিদম বিদ্যমান, যা একাধিক ৩ডি চিত্রকে পয়েন্ট ক্লাউড বা ৩ডি মডেলে রূপান্তর করতে সক্ষম।[২৪]

চিত্র পুনরুদ্ধার

[সম্পাদনা]

যখন কোনো চিত্র বাহ্যিক কারণবশত বিকৃত বা ক্ষতিগ্রস্ত হয়, যেমন: ভুল লেন্স অবস্থান, সিগন্যাল হস্তক্ষেপ, দুর্বল আলো, অথবা গতি-সংক্রান্ত ব্লার, তখন সেই বিকৃতিকে "নয়েজ" বলা হয়। এর ফলে চিত্র থেকে প্রয়োজনীয় তথ্যও বিকৃত হয়ে যায়। এই পরিস্থিতিতে, চিত্রটিকে তার মূল রূপে পুনরুদ্ধার বা পুনর্গঠন করা প্রয়োজন।

চিত্র পুনরুদ্ধারের লক্ষ্য হলো চিত্র থেকে নয়েজ (যেমন সেন্সর নয়েজ, মোশন ব্লার ইত্যাদি) সরিয়ে ফেলা। সবচেয়ে সহজ পদ্ধতি হলো বিভিন্ন ধরনের ফিল্টার ব্যবহার করা—যেমন লো-পাস ফিল্টার বা মিডিয়ান ফিল্টার। উন্নত পদ্ধতিগুলোতে স্থানীয় চিত্র কাঠামোর (যেমন: রেখা, প্রান্ত ইত্যাদি) মডেল তৈরি করে বোঝার চেষ্টা করা হয় যে, কোন অংশ নয়েজ এবং কোন অংশ আসল তথ্য। প্রথমে চিত্র বিশ্লেষণ করে স্থানীয় কাঠামো নির্ধারণ করা হয় এবং পরে সেই অনুযায়ী ফিল্টারিং করা হয়। এভাবে সাধারণ ফিল্টারিংয়ের তুলনায় অধিক কার্যকর নয়েজ অপসারণ সম্ভব হয়।

এই ক্ষেত্রের একটি উদাহরণ হলো ইনপেইন্টিং—যার মাধ্যমে চিত্রের অনুপস্থিত বা বিকৃত অংশ পুনরায় পূরণ করা হয়।

পদ্ধতিগত উপায়

[সম্পাদনা]

একটি কম্পিউটার ভিশন সিস্টেমের গঠন তার প্রয়োগভিত্তিক প্রয়োজনের উপর অত্যন্ত নির্ভরশীল। কিছু ব্যবস্থা সম্পূর্ণ স্বয়ংসম্পূর্ণ অ্যাপ্লিকেশন হিসেবে নির্দিষ্ট পরিমাপ বা শনাক্তকরণ সমস্যা সমাধানে ব্যবহৃত হয়, আবার কিছু ব্যবস্থা বৃহত্তর নকশার একটি উপ-ব্যবস্থা হিসেবে কাজ করে—যার মধ্যে থাকতে পারে যান্ত্রিক অ্যাকচুয়েটরের নিয়ন্ত্রণ, পরিকল্পনা, তথ্য ডেটাবেস, মানব-কম্পিউটার ইন্টারফেস ইত্যাদি। সিস্টেমের বাস্তবায়ন নির্ভর করে এর কার্যকারিতা পূর্বনির্ধারিত কি না, বা চলাকালীন শেখা বা পরিবর্তনের উপযোগিতা আছে কি না। যদিও অনেক ফাংশন নির্দিষ্ট প্রয়োগের জন্য আলাদা হয়ে থাকে, তবুও কিছু সাধারণ কার্যপ্রবাহ বেশিরভাগ কম্পিউটার ভিশন সিস্টেমেই দেখা যায়:

  • চিত্র সংগ্রহচিত্র সেন্সরের মাধ্যমে একটি বা একাধিক ডিজিটাল চিত্র তৈরি হয়। এই সেন্সরের মধ্যে থাকে আলো সংবেদী ক্যামেরা, রেঞ্জ সেন্সর, টমোগ্রাফি ডিভাইস, রাডার, আল্ট্রাসনিক ক্যামেরা ইত্যাদি। সেন্সরের ধরন অনুযায়ী চিত্র ডেটা হতে পারে সাধারণ ২ডি চিত্র, একটি ৩ডি ভলিউম বা চিত্র ধারাবাহিকতা। পিক্সেল মান সাধারণত এক বা একাধিক বর্ণালির আলো তীব্রতা বোঝায়, তবে তা বিভিন্ন ভৌত পরিমাপকেও প্রতিনিধিত্ব করতে পারে, যেমন গভীরতা, শোষণ, প্রতিফলন, বা ম্যাগনেটিক রেজোন্যান্স ইমেজিং[৩২]
  • পূর্ব-প্রক্রিয়াকরণ — চিত্র থেকে নির্দিষ্ট তথ্য আহরণের পূর্বে ডেটাকে এমনভাবে প্রস্তুত করা হয় যাতে তা ব্যবহৃত পদ্ধতির পূর্বধারণাগুলোর সঙ্গে সামঞ্জস্যপূর্ণ হয়। যেমন:
    • কোঅর্ডিনেট সিস্টেম সঠিক রাখতে রি-স্যাম্পলিং।
    • সেন্সর নয়েজ দূরীকরণ।
    • কনট্রাস্ট বৃদ্ধির মাধ্যমে তথ্য স্পষ্ট করা।
    • স্থানীয় কাঠামো অনুযায়ী চিত্রের স্কেল স্পেস উপস্থাপন।
উন্নত ফিচার হতে পারে টেক্সচার, আকৃতি বা গতির উপর ভিত্তি করে।
  • শনাক্তকরণ/বিভাজন — প্রক্রিয়ার কোনো পর্যায়ে নির্ধারণ করা হয় কোন পয়েন্ট বা অঞ্চলটি পরবর্তী বিশ্লেষণের জন্য গুরুত্বপূর্ণ। উদাহরণ:
    • নির্দিষ্ট বিন্দু নির্বাচন।
    • নির্দিষ্ট বস্তু ধারণকারী চিত্র অঞ্চল বিভাজন।
    • দৃশ্যের স্তরবিন্যাসে বিভাজন—যেমন: পটভূমি, বস্তু গোষ্ঠী, পৃথক বস্তু বা বিশিষ্ট বস্তুর অংশ।[৪৪][৪৫]
    • একাধিক ভিডিওতে ধারাবাহিকভাবে সামনের অংশ শনাক্ত করে ভিডিও বিভাজন বা বস্তু সহ-বিভাজন করা।[৪৬][৪৭]
  • উচ্চ-স্তরের প্রক্রিয়াকরণ — এখানে ইনপুট হয় অল্প কিছু তথ্য, যেমন কোনো বস্তু ধারণকারী অঞ্চল বা বিন্দুসমূহ। প্রক্রিয়ায় অন্তর্ভুক্ত:
    • মডেলভিত্তিক বা প্রয়োগভিত্তিক শর্ত পর্যালোচনা।
    • বস্তুর ভঙ্গি, আকার ইত্যাদি নির্ধারণ।
    • চিত্র স্বীকৃতি — শনাক্ত বস্তুকে শ্রেণিবিন্যাসে ফেলা।
    • চিত্র নিবন্ধন — একই বস্তুর ভিন্ন চিত্র মেলানো ও একত্র করা।
  • সিদ্ধান্ত গ্রহণ — চূড়ান্ত সিদ্ধান্ত যা নির্দিষ্ট প্রয়োগের জন্য প্রয়োজনীয়। উদাহরণ:
    • স্বয়ংক্রিয় পরিদর্শনে পাশ/ফেল।
    • স্বীকৃতি অ্যাপ্লিকেশনে মিল আছে/নেই।
    • চিকিৎসা, সামরিক বা নিরাপত্তা ব্যবস্থায় পর্যালোচনার জন্য ফ্ল্যাগ করা।

চিত্র-বোঝাপড়া ব্যবস্থা

[সম্পাদনা]

চিত্র-বোঝাপড়া ব্যবস্থা (Image-understanding systems বা IUS) সাধারণত তিনটি বিমূর্ত স্তরে গঠিত:

  • নিম্ন স্তর — চিত্রের প্রাথমিক উপাদান যেমন প্রান্ত, টেক্সচার উপাদান বা অঞ্চল;
  • মধ্য স্তর — সীমারেখা, পৃষ্ঠ ও ভলিউম;
  • উচ্চ স্তর — বস্তু, দৃশ্য বা ঘটনা।

এই প্রতিটি স্তরের অনেক উপাদানই এখনও গবেষণার গুরুত্বপূর্ণ বিষয় হিসেবে বিবেচিত।

এই স্তরগুলোর জন্য IUS নকশার উপস্থাপনাগত চাহিদাগুলোর মধ্যে রয়েছে: আদর্শিক ধারণার উপস্থাপন, ধারণার সংগঠন, স্থানিক জ্ঞান, কালিক জ্ঞান, স্কেলিং এবং তুলনা ও পার্থক্যের ভিত্তিতে বর্ণনা প্রদান।

ইনফারেন্স বলতে বোঝায়—বর্তমানে বিদ্যমান তথ্য থেকে নতুন, কিন্তু সরাসরি উপস্থাপিত নয় এমন তথ্য ব্যখ্যা করার প্রক্রিয়া। আর কন্ট্রোল বোঝায়—বিভিন্ন ইনফারেন্স, অনুসন্ধান ও মিল নির্ধারণ কৌশলের মধ্যে থেকে কোনটি নির্দিষ্ট প্রক্রিয়ার ধাপে প্রয়োগ করা হবে তা নির্ধারণের প্রক্রিয়া।

IUS-এর ইনফারেন্স ও কন্ট্রোল সংক্রান্ত প্রয়োজনীয়তা হলো:

  • অনুসন্ধান ও অনুমান সক্রিয়করণ,
  • মিল খোঁজা ও অনুমান যাচাই,
  • প্রত্যাশার সৃষ্টি ও প্রয়োগ,
  • মনোযোগ পরিবর্তন ও কেন্দ্রীকরণ,
  • বিশ্বাসের মান ও দৃঢ়তা নির্ধারণ,
  • ইনফারেন্স এবং লক্ষ্য অর্জনের মূল্যায়ন।[৪৮]

হার্ডওয়্যার

[সম্পাদনা]
আইপ্যাড প্রো (৪র্থ প্রজন্ম)-এর একটি ২০২০ মডেল, যাতে LiDAR সেন্সর যুক্ত রয়েছে

কম্পিউটার ভিশন সিস্টেমের বিভিন্ন রকমফের থাকলেও প্রতিটিতে কিছু মৌলিক উপাদান থাকে: একটি বিদ্যুৎ সরবরাহ ব্যবস্থা, অন্তত একটি চিত্র অধিগ্রহণ ডিভাইস (যেমন ক্যামেরা, CCD ইত্যাদি), একটি প্রসেসর এবং নিয়ন্ত্রণ ও যোগাযোগের তার কিংবা কোনো ওয়্যারলেস সংযোগ পদ্ধতি। বাস্তবসম্মত একটি ভিশন সিস্টেমে সফটওয়্যার ও একটি প্রদর্শনী ব্যবস্থা থাকে, যাতে সিস্টেম পর্যবেক্ষণ করা যায়। অভ্যন্তরীণ স্থানে ব্যবহৃত ভিশন সিস্টেমগুলোর মধ্যে—যেমন শিল্পক্ষেত্রে ব্যবহৃত বেশিরভাগ—আলোকসজ্জা ব্যবস্থাও থাকে এবং এগুলো নিয়ন্ত্রিত পরিবেশে স্থাপিত হয়। একটি পূর্ণাঙ্গ সিস্টেমে আরও অনেক আনুষঙ্গিক উপাদান থাকে, যেমন ক্যামেরা ধারক, তার ও সংযোজক।

বেশিরভাগ কম্পিউটার ভিশন সিস্টেম সাধারণ দৃশ্য দেখার জন্য দৃশ্যমান আলো ভিত্তিক ক্যামেরা ব্যবহার করে, যেগুলো সর্বোচ্চ ৬০ ফ্রেম প্রতি সেকেন্ড গতিতে চিত্র ধারণ করে (প্রায়ই এর চেয়েও ধীরে)।

তবে কিছু কম্পিউটার ভিশন সিস্টেম সক্রিয় আলোকসজ্জাসহ চিত্র অধিগ্রহণ হার্ডওয়্যার বা দৃশ্যমান আলোর বাইরে অন্যান্য কৌশল ব্যবহার করে থাকে, অথবা উভয়ই। এর মধ্যে রয়েছে স্ট্রাকচার্ড লাইট ৩ডি স্ক্যানার, থার্মোগ্রাফিক ক্যামেরা, হাইপারস্পেকট্রাল ইমেজার, রাডার ইমেজিং, LiDAR স্ক্যানার, ম্যাগনেটিক রেজোন্যান্স ইমেজিং, সাইড-স্ক্যান সোনার, সিন্থেটিক অ্যাপারচার সোনার ইত্যাদি। এসব যন্ত্র "চিত্র" সংগ্রহ করে যা পরবর্তীতে ঐসব কম্পিউটার ভিশন অ্যালগরিদম দ্বারা প্রক্রিয়াকৃত হয়, যেগুলো দৃশ্যমান আলোর চিত্রের জন্য ব্যবহৃত হয়।

যখন প্রচলিত সম্প্রচার ও কনজিউমার ভিডিও সিস্টেম ৩০ ফ্রেম প্রতি সেকেন্ড হারে কাজ করে, তখন ডিজিটাল সিগন্যাল প্রক্রিয়াকরণ এবং গ্রাফিক্স হার্ডওয়্যার-এর অগ্রগতির ফলে শত শত বা হাজার হাজার ফ্রেম প্রতি সেকেন্ড গতিতে দ্রুত চিত্র অধিগ্রহণ, প্রক্রিয়াকরণ এবং প্রদর্শন সম্ভব হয়েছে। রোবোটিক্সে এই ধরণের রিয়েল-টাইম ভিডিও সিস্টেম অত্যন্ত গুরুত্বপূর্ণ, কারণ এটি নির্দিষ্ট অ্যালগরিদমের জন্য প্রয়োজনীয় প্রক্রিয়াকরণ সহজ করে তোলে। যখন এটি উচ্চ-গতির প্রজেক্টরের সঙ্গে মিলিত হয়, তখন দ্রুত চিত্র সংগ্রহের মাধ্যমে ৩ডি পরিমাপন ও বৈশিষ্ট্য ট্র্যাকিং সম্ভব হয়।[৪৯]

ইগোসেন্ট্রিক ভিশন সিস্টেম হলো এমন একধরনের ব্যবস্থা, যেখানে একজন ব্যবহারকারীর দৃষ্টিকোণ থেকে স্বয়ংক্রিয়ভাবে ছবি তুলতে সক্ষম একটি পরিধেয় ক্যামেরা ব্যবহৃত হয়।

২০১৬ সালের পর থেকে ভিশন প্রসেসিং ইউনিট (VPU) একটি নতুন ধরনের প্রসেসর হিসেবে আবির্ভূত হয়েছে, যা এই ভূমিকায় CPU ও গ্রাফিক্স প্রসেসিং ইউনিট (GPU)-এর পরিপূরক হিসেবে কাজ করছে।[৫০]

আরও দেখুন

[সম্পাদনা]

তালিকা

[সম্পাদনা]

তথ্যসূত্র

[সম্পাদনা]
  1. Klette, Reinhard (2014). Concise Computer Vision: An Introduction into Theory and Algorithms. Springer. ISBN 978-1-4471-6329-3.
  2. Shapiro, Linda G.; Stockman, George C. (2001). Computer Vision. Prentice Hall. ISBN 978-0-13-030796-5.
  3. Morris, T. (2004). Computer Vision and Image Processing. Palgrave Macmillan. ISBN 978-0-333-99451-9.
  4. Jähne, Bernd; Haussecker, Horst (2000). Computer Vision and Applications: A Guide for Students and Practitioners. Academic Press. ISBN 978-0-12-379770-7.
  5. Ballard, D. H.; Brown, C. M. (1982). Computer Vision. Prentice Hall. ISBN 978-0-13-165316-0.
  6. Huang, T. S. (1996). Computer Vision: Evolution and Promise. Computer Vision Laboratory, University of Illinois.
  7. Sonka, M.; Hlavac, V.; Boyle, R. (2008). Image Processing, Analysis, and Machine Vision. Cengage Learning. ISBN 978-0-495-38289-9.
  8. The British Machine Vision Association and Society for Pattern Recognition ওয়েব্যাক মেশিনে আর্কাইভকৃত ২০১৭-০২-১৬ তারিখে। উদ্ধৃত তারিখ: ২০ ফেব্রুয়ারি ২০১৭।
  9. Murphy, Mike (১৩ এপ্রিল ২০১৭)। "Star Trek's "tricorder" medical scanner just got closer to becoming a reality"। ২ জুলাই ২০১৭ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ১৮ জুলাই ২০১৭ 
  10. Davies, E. R. (2018). Computer Vision: Principles, Algorithms, Applications, Learning (5th Edition). Academic Press, Elsevier. ISBN 978-0-12-809284-2
  11. Szeliski, Richard (2010). Computer Vision: Algorithms and Applications. Springer. ISBN 978-1-84882-934-3.
  12. Sejnowski, Terrence J. (2018). The Deep Learning Revolution. MIT Press. পৃ. ২৮। ISBN 978-0-262-03803-4.
  13. Papert, Seymour (1966). The Summer Vision Project. MIT AI Memo.
  14. Boden, Margaret A. (2006). Mind as Machine: A History of Cognitive Science. Oxford University Press. ISBN 978-0-19-924144-6.
  15. Kanade, Takeo (2012). Three-Dimensional Machine Vision. Springer Science & Business Media. ISBN 978-1-4613-1981-8.
  16. Sebe, Nicu; Cohen, Ira; Garg, Ashutosh; Huang, Thomas S. (2005). Machine Learning in Computer Vision. Springer. ISBN 978-1-4020-3274-5.
  17. Freeman, William; Perona, Pietro; Scholkopf, Bernhard (2008). "Guest Editorial: Machine Learning for Computer Vision". International Journal of Computer Vision. 77 (1): 1. doi:10.1007/s11263-008-0127-7.
  18. LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). "Deep Learning". Nature. 521 (7553): 436–444. doi:10.1038/nature14539. PMID 26017442.
  19. Jiao, Licheng; Zhang, Fan; Liu, Fang; et al. (2019). "A Survey of Deep Learning-Based Object Detection". IEEE Access. 7: 128837–128868. doi:10.1109/ACCESS.2019.2939201.
  20. Ferrie, C.; Kaiser, S. (২০১৯)। Neural Networks for Babies। Sourcebooks। আইএসবিএন 978-1492671206 
  21. Szeliski, Richard (2010). Computer Vision: Algorithms and Applications. Springer.
  22. Murray, Don, and Cullen Jennings. "Stereo vision-based mapping and navigation for mobile robots ওয়েব্যাক মেশিনে আর্কাইভকৃত ২০২০-১০-৩১ তারিখে।" আন্তর্জাতিক রোবোটিক্স ও অটোমেশন সম্মেলনে উপস্থাপিত। IEEE, ১৯৯৭।
  23. Andrade, Norberto Almeida। "Computational Vision and Business Intelligence in the Beauty Segment - An Analysis through Instagram" (পিডিএফ)Journal of Marketing Management। American Research Institute for Policy Development। সংগ্রহের তারিখ ১১ মার্চ ২০২৪ 
  24. Soltani, A. A. et al. (2017). "Synthesizing 3D Shapes via Modeling Multi-view Depth Maps and Silhouettes with Deep Generative Networks". IEEE CVPR. পৃ. 1511–1519. doi:10.1109/CVPR.2017.269
  25. Turek, Fred (জুন ২০১১)। "Machine Vision Fundamentals, How to Make Robots See"। NASA Tech Briefs Magazine35 (6): 60–62। 
  26. "The Future of Automated Random Bin Picking"। ২০১৮-০১-১১ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০১৮-০১-১০ 
  27. Esteva, Andre; Chou, Katherine; Yeung, Serena; Naik, Nikhil; Madani, Ali; Mottaghi, Ali; Liu, Yun; Topol, Eric; Dean, Jeff; Socher, Richard (২০২১-০১-০৮)। "Deep learning-enabled medical computer vision"। npj Digital Medicine (১): ৫। ডিওআই:10.1038/s41746-020-00376-2পিএমআইডি 33420381 
  28. Chervyakov, N. I.; Lyakhov, P. A.; Deryabin, M. A.; Nagornov, N. N.; Valueva, M. V.; Valuev, G. V. (২০২০)। "Residue Number System-Based Solution for Reducing the Hardware Cost of a Convolutional Neural Network"। Neurocomputing৪০৭: ৪৩৯–৪৫৩। ডিওআই:10.1016/j.neucom.2020.04.018 
  29. Wäldchen, Jana; Mäder, Patrick (২০১৭-০১-০৭)। "Plant Species Identification Using Computer Vision Techniques: A Systematic Literature Review"Archives of Computational Methods in Engineering২৫ (২): ৫০৭–৫৪৩। আইএসএসএন 1134-3060ডিওআই:10.1007/s11831-016-9206-zপিএমআইডি 29962832পিএমসি 6003396অবাধে প্রবেশযোগ্য 
  30. Aghamohammadesmaeilketabforoosh, Kimia; Nikan, Soodeh; Antonini, Giorgio; Pearce, Joshua M. (জানুয়ারি ২০২৪)। "Optimizing Strawberry Disease and Quality Detection with Vision Transformers and Attention-Based Convolutional Neural Networks"Foods13 (12): 1869। আইএসএসএন 2304-8158ডিওআই:10.3390/foods13121869অবাধে প্রবেশযোগ্যপিএমআইডি 38928810পিএমসি 11202458অবাধে প্রবেশযোগ্য 
  31. "New AI model developed at Western detects strawberry diseases, takes aim at waste"London। ২০২৪-০৯-১৩। সংগ্রহের তারিখ ২০২৪-০৯-১৯ 
  32. Davies, E. R. (2005). Machine Vision: Theory, Algorithms, Practicalities. Morgan Kaufmann.
  33. Ando, Mitsuhito; Takei, Toshinobu; Mochiyama, Hiromi (2020). "Rubber artificial skin layer with flexible structure for shape estimation of micro-undulation surfaces". ROBOMECH Journal. 7 (1): 11. doi:10.1186/s40648-020-00159-0.
  34. Choi, Seung-hyun; Tahara, Kenji (2020). "Dexterous object manipulation by a multi-fingered robotic hand with visual-tactile fingertip sensors". ROBOMECH Journal. 7 (1): 14. doi:10.1186/s40648-020-00162-5.
  35. Garg, Hitendra (২০২০-০২-২৯)। "Drowsiness Detection of a Driver using Conventional Computer Vision Application"2020 International Conference on Power Electronics & IoT Applications in Renewable Energy and its Control (PARC)। পৃষ্ঠা ৫০–৫৩। ডিওআই:10.1109/PARC49193.2020.236556 
  36. Hasan, Fudail; Kashevnik, Alexey (২০২১-০৫-১৪)। "State-of-the-Art Analysis of Modern Drowsiness Detection Algorithms Based on Computer Vision"2021 29th Conference of Open Innovations Association (FRUCT)। পৃষ্ঠা ১৪১–১৪৯। ডিওআই:10.23919/FRUCT52173.2021.9435480 
  37. Balasundaram, A; Ashokkumar, S; Kothandaraman, D; kora, SeenaNaik; Sudarshan, E; Harshaverdhan, A (২০২০-১২-০১)। "Computer vision based fatigue detection using facial parameters"। IOP Conference Series: Materials Science and Engineering৯৮১ (২): ০২২০০৫। ডিওআই:10.1088/1757-899x/981/2/022005 
  38. Bruijning, Marjolein; Visser, Marco D.; Hallmann, Caspar A.; Jongejans, Eelke; Golding, Nick (২০১৮). "trackdem: Automated particle tracking to obtain population counts and size distributions from videos in R". Methods in Ecology and Evolution. 9 (4): 965–973. doi:10.1111/2041-210X.12975.
  39. Forsyth, David; Ponce, Jean (2003). Computer Vision: A Modern Approach. Pearson.
  40. Forsyth, David; Ponce, Jean (2012). Computer Vision: A Modern Approach. Pearson.
  41. Russakovsky, Olga et al. (2015). "ImageNet Large Scale Visual Recognition Challenge". International Journal of Computer Vision. 115 (3): 211–252. doi:10.1007/s11263-015-0816-y.
  42. Quinn, Arthur (2022). "AI Image Recognition: Inevitable Trending of Modern Lifestyle". TopTen.ai. ওয়েব্যাক মেশিনে আর্কাইভকৃত ২০২২-১২-০২ তারিখে
  43. Barrett, Lisa Feldman et al. (2019). "Emotional Expressions Reconsidered: Challenges to Inferring Emotion From Human Facial Movements". Psychological Science in the Public Interest. 20 (1): 1–68. doi:10.1177/1529100619832930.
  44. A. Maity (২০১৫)। "Improvised Salient Object Detection and Manipulation"। arXiv:1511.02999অবাধে প্রবেশযোগ্য [cs.CV]। 
  45. Barghout, Lauren. "Visual Taxometric Approach to Image Segmentation Using Fuzzy-Spatial Taxon Cut Yields Contextually Relevant Regions"
  46. Liu, Ziyi; Wang, Le; Hua, Gang; Zhang, Qilin; Niu, Zhenxing; Wu, Ying; Zheng, Nanning (২০১৮)। "Joint Video Object Discovery and Segmentation by Coupled Dynamic Markov Networks" (পিডিএফ)IEEE Transactions on Image Processing27 (12): 5840–5853। এসটুসিআইডি 51867241ডিওআই:10.1109/tip.2018.2859622পিএমআইডি 30059300বিবকোড:2018ITIP...27.5840L। ২০১৮-০৯-০৭ তারিখে মূল (পিডিএফ) থেকে আর্কাইভ করা। সংগ্রহের তারিখ ২০১৮-০৯-১৪ 
  47. Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (২০১৮-০৫-২২)। "Segment-Tube: Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation" (পিডিএফ)Sensors18 (5): 1657। ডিওআই:10.3390/s18051657পিএমআইডি 29789447পিএমসি 5982167অবাধে প্রবেশযোগ্যবিবকোড:2018Senso..18.1657W। ২০১৮-০৯-০৭ তারিখে মূল (পিডিএফ) থেকে আর্কাইভ করা। 
  48. Shapiro, Stuart C. (১৯৯২)। Encyclopedia of Artificial Intelligence, Volume 1। New York: John Wiley & Sons, Inc.। পৃষ্ঠা 643–646। আইএসবিএন 978-0-471-50306-4 
  49. Kagami, Shingo (২০১০)। "High-speed vision systems and projectors for real-time perception of the world"। 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Workshops2010। পৃষ্ঠা 100–107। আইএসবিএন 978-1-4244-7029-7এসটুসিআইডি 14111100ডিওআই:10.1109/CVPRW.2010.5543776 
  50. Seth Colaner (জানুয়ারি ৩, ২০১৬)। "A Third Type Of Processor For VR/AR: Movidius' Myriad 2 VPU"www.tomshardware.com। মার্চ ১৫, ২০২৩ তারিখে মূল থেকে আর্কাইভ করা। সংগ্রহের তারিখ মে ৩, ২০১৬ 

আরও পড়ুন

[সম্পাদনা]

বহিঃসংযোগ

[সম্পাদনা]