সববাংলায়

AI ছবি চেনে কীভাবে?

ফেসলক শব্দটি ইদানিং সুপরিচিত – আপনার স্মার্ট ফোনের সামনে মুখ নিয়ে এলেন আর সেটি খুলে গেল। অথবা ধরুন, গুগল লেন্স দিয়ে একটু অচেনা ফুলের ছবি তুলে সার্চ করে পেয়ে গেলেন ফুলটির নাম-ধাম-গোত্র পরিচয়। এই সবই ঘটছে কারণ এই টেকনোলজিগুলি ছবি চিনতে পারছে। ছবি চেনার এই ঘটনাকে ইমেজ রেকগনিশন বলে (Image Recognition)। ইমেজ রেকগনিশন বর্তমান আর্টিফিশিয়াল ইন্টেলিজেন্সের যুগে খুব গুরুত্বপূর্ণ একটি বিষয়। ইমেজ রেকগনিশন টেকনোলজি ড্রাইভারহীন গাড়ি চালানো, স্বাস্থ্য পরিষেবা, সাইবার সিকিউরিটি ইত্যাদি নানা গুরুত্বপূর্ণ বিষয়ে ব্যবহার হচ্ছে। এখন প্রশ্ন হল AI ছবি চেনে কীভাবে? এখানে যতটা সম্ভব সহজভাবে বিষয়টি ব্যাখ্যা করা হল।

AI ছবির প্রতিটি পিক্সেলের মধ্যে থাকা তথ্য বিশ্লেষণ করে, এবং সেই তথ্যের ভিত্তিতে নির্দিষ্ট প্যাটার্ন বা বস্তু শনাক্ত করে ছবি চিনতে পারে। এর জন্য সবচেয়ে কার্যকর প্রযুক্তি হল কনভলুশনাল নিউরাল নেটওয়ার্ক বা সিএনএন (Convolutional Neural Networks, CNN), যা মানুষের চোখের মতো করে ছবি বিশ্লেষণ করতে পারে। তবে মানুষের চোখের মতো করে দেখার কথা বললেও কম্পিউটার ভিসন বা AI এর ছবি দেখার পদ্ধতি মানুষের মতো নয়। এখানে AI ছবি চেনে কীভাবে তার পর্যায়ক্রমিক ব্যাখ্যা দেওয়া হল।

1. ছবির গঠন: পিক্সেল ও ম্যাট্রিক্স

  • প্রতিটি ছবি অসংখ্য পিক্সেল দিয়ে গঠিত। একটি পিক্সেল হল ছবির ক্ষুদ্রতম অংশ।
  • একটি ছবি হল অসংখ্য পিক্সেলের একটি 2D ম্যাট্রিক্স, যেখানে প্রতিটি পিক্সেল একটি রঙ বা উজ্জ্বলতার মান বহন করে।
  • একটি ছবিকে বুঝতে এই পিক্সেলগুলির প্যাটার্ন খুবই গুরুত্বপূর্ণ কারণ এই প্যাটার্ন বুঝতে পারলেই মানুষের চোখের মত করে ছবির বস্তুটিকে বোঝা সম্ভব হবে।
  • AI প্রথমে এই পিক্সেল ডেটা সংগ্রহ করে এবং সংখ্যায় রূপান্তরিত করে।

2. ফিচার এক্সট্রাকশন (Feature Extraction)

  • AI ছবির মধ্যে থাকা রেখা, আকৃতি, রঙ, টেক্সচার ইত্যাদি শনাক্ত করে।
  • এটি মানুষের চোখের মতো করে ছবি বিশ্লেষণ করে না, বরং গাণিতিক প্যাটার্ন খুঁজে বের করে।

3. কনভলুশনাল নিউরাল নেটওয়ার্ক (CNN)

  • CNN হল এমন এক ধরনের নিউরাল নেটওয়ার্ক যা ছবির বিভিন্ন অংশে ফিল্টার প্রয়োগ করে।
  • প্রতিটি ফিল্টার ছবির নির্দিষ্ট বৈশিষ্ট্য (যেমন চোখ, মুখ, গাড়ির চাকা) শনাক্ত করতে সাহায্য করে।
  • CNN ধাপে ধাপে ছবি বিশ্লেষণ করে এবং বস্তুর উপস্থিতি ও অবস্থান নির্ধারণ করে।

4. ট্রেনিং ও লেবেলিং

  • AI-কে হাজার হাজার ছবি দেখিয়ে শেখানো হয় — যাকে বলে ট্রেনিং।
  • ট্রেনিং-এর সময় প্রতিটি ছবিতে লেবেল থাকে (যেমন: “বিড়াল”, “গাড়ি”, “মানুষ”)। AI কোন প্যাটার্ন কোন লেবেলের সঙ্গে মিলে যায় সেগুলি শিখতে থাকে।

5. ক্লাসিফিকেশন ও প্রেডিকশন

  • এর পরের ধাপে নতুন ছবি দেখলে AI তার শেখা প্যাটার্নের সঙ্গে মিলিয়ে বস্তু শনাক্ত করে।
  • এটি বলে দিতে পারে: “এই ছবিতে একটি বিড়াল আছে”, বা “এটি একটি ট্রাফিক সাইন”।

বাস্তব উদাহরণ

AI এর ছবি চেনার কিছু ব্যবহারিক প্রয়োগের উদাহরণ এখানে দেওয়া হল যা আমরা বর্তমান দুনিয়ায় দেখে থাকি। আগেই বলা হয়েছে, ফেস রেকগনিশন পদ্ধতিতে মুখের বৈশিষ্ট্য দেখে ফোন আনলক করার কথা। এছাড়া, এক্স-রে বা এমআরআই দেখে AI রোগ নির্ণয় করতে পারে। স্বয়ংচালিত গাড়ির ক্ষেত্রে রাস্তা, সিগ্ন্যাল, মানুষ ইত্যাদি সনাক্ত করতে পারে। সামাজিক মাধ্যমে কোন ছবি থেকে বন্ধুবান্ধবদের ট্যাগ করার সাজেশন দেয় এই পদ্ধতি ব্যবহার করেই। রিভার্স ইমেজ সার্চ পদ্ধতিতে কেউ কোন ছবি আপলোড করে সেটি কিসের তা চিন্তে পারে।

চ্যালেঞ্জ ও সীমাবদ্ধতা

AI ছবি চেনার ক্ষেত্রে এখনও ১০০ শতাংশ নির্ভুল নয়। এর বেশ কিছু কারণ আছে –

  • প্রদত্ত ছবির (Input Image) কোয়ালিটি খারাপ হলে AI ভুল করতে পারে।
  • নতুন বা অচেনা বস্তু AI চিনতে পারে না যদি ট্রেনিং ডেটায় না থাকে।
  • যদি ট্রেনিং ডেটা পক্ষপাতদুষ্ট হয়, AI-ও পক্ষপাত দেখাতে পারে।

তবে AI যেহেতু প্রতি মুহূর্তেই লাইভ ডেটা থেকে শিখছে তাই AI ক্রমেই নির্ভুল হয়ে উঠছে। অর্থাৎ AI এর সঙ্গে আমাদের যেকোন আলোচনা বা ইন্টার‍্যাকশন AI কে আরও উন্নত করে তুলছে।


সববাংলায়-এর উদ্যোগ ভাল লাগলে আপনার সাধ্য মতো অনুদান দিয়ে সাহায্য করুন।  যেকোন অর্থমূল্য দিয়ে সাহায্য করতে এখানে ক্লিক করুন। 


 

error: লেখা নয়, লিঙ্কটি কপি করে শেয়ার করুন।

Discover more from সববাংলায়

Subscribe now to keep reading and get access to the full archive.

Continue reading