Skip to content

Latest commit

 

History

History
114 lines (65 loc) · 13 KB

File metadata and controls

114 lines (65 loc) · 13 KB

مقدمه‌ای بر بینایی کامپیوتر

بینایی کامپیوتر شاخه‌ای از علوم است که هدف آن این است که کامپیوترها بتوانند درک سطح بالایی از تصاویر دیجیتال داشته باشند. این تعریف بسیار گسترده است، زیرا درک می‌تواند معانی مختلفی داشته باشد، از جمله پیدا کردن یک شیء در تصویر (تشخیص شیء)، فهمیدن اینکه چه اتفاقی در حال رخ دادن است (تشخیص رویداد)، توصیف یک تصویر به صورت متنی، یا بازسازی یک صحنه به صورت سه‌بعدی. همچنین وظایف خاصی مرتبط با تصاویر انسانی وجود دارد: تخمین سن و احساسات، تشخیص و شناسایی چهره، و تخمین وضعیت سه‌بعدی، تنها چند نمونه از این وظایف هستند.

یکی از ساده‌ترین وظایف بینایی کامپیوتر طبقه‌بندی تصویر است.

بینایی کامپیوتر اغلب به عنوان شاخه‌ای از هوش مصنوعی در نظر گرفته می‌شود. امروزه، بیشتر وظایف بینایی کامپیوتر با استفاده از شبکه‌های عصبی حل می‌شوند. در این بخش، بیشتر با نوع خاصی از شبکه‌های عصبی که برای بینایی کامپیوتر استفاده می‌شوند، یعنی شبکه‌های عصبی کانولوشنی، آشنا خواهیم شد.

با این حال، پیش از اینکه تصویر را به یک شبکه عصبی بدهید، در بسیاری از موارد منطقی است که از تکنیک‌های الگوریتمی برای بهبود تصویر استفاده کنید.

چندین کتابخانه پایتون برای پردازش تصویر وجود دارد:

  • imageio برای خواندن/نوشتن فرمت‌های مختلف تصویر استفاده می‌شود. همچنین از ffmpeg پشتیبانی می‌کند، که ابزاری مفید برای تبدیل فریم‌های ویدئو به تصاویر است.
  • Pillow (که به عنوان PIL نیز شناخته می‌شود) قدرتمندتر است و از برخی تغییرات تصویر مانند تغییر شکل، تنظیم پالت و موارد دیگر پشتیبانی می‌کند.
  • OpenCV یک کتابخانه قدرتمند پردازش تصویر است که به زبان C++ نوشته شده و به استاندارد de facto برای پردازش تصویر تبدیل شده است. این کتابخانه دارای یک رابط کاربری راحت برای پایتون است.
  • dlib یک کتابخانه C++ است که بسیاری از الگوریتم‌های یادگیری ماشین، از جمله برخی از الگوریتم‌های بینایی کامپیوتر را پیاده‌سازی می‌کند. این کتابخانه نیز دارای یک رابط پایتون است و می‌تواند برای وظایف چالش‌برانگیزی مانند تشخیص چهره و نقاط کلیدی چهره استفاده شود.

OpenCV

OpenCV به عنوان استاندارد de facto برای پردازش تصویر در نظر گرفته می‌شود. این کتابخانه شامل بسیاری از الگوریتم‌های مفید است که به زبان C++ پیاده‌سازی شده‌اند. شما می‌توانید از OpenCV در پایتون نیز استفاده کنید.

یک منبع خوب برای یادگیری OpenCV این دوره آموزشی است. در این دوره، هدف ما یادگیری کامل OpenCV نیست، بلکه نشان دادن چند مثال از کاربردهای آن و نحوه استفاده از آن است.

بارگذاری تصاویر

تصاویر در پایتون به راحتی می‌توانند با استفاده از آرایه‌های NumPy نمایش داده شوند. برای مثال، تصاویر سیاه و سفید با اندازه 320x200 پیکسل به صورت یک آرایه 200x320 ذخیره می‌شوند، و تصاویر رنگی با همان ابعاد به صورت آرایه‌ای با شکل 200x320x3 (برای سه کانال رنگی) ذخیره می‌شوند. برای بارگذاری یک تصویر، می‌توانید از کد زیر استفاده کنید:

import cv2
import matplotlib.pyplot as plt

im = cv2.imread('image.jpeg')
plt.imshow(im)

به طور سنتی، OpenCV از کدگذاری BGR (آبی-سبز-قرمز) برای تصاویر رنگی استفاده می‌کند، در حالی که سایر ابزارهای پایتون از کدگذاری سنتی‌تر RGB (قرمز-سبز-آبی) استفاده می‌کنند. برای اینکه تصویر به درستی نمایش داده شود، باید آن را به فضای رنگی RGB تبدیل کنید، یا با جابجایی ابعاد در آرایه NumPy، یا با استفاده از یک تابع OpenCV:

im = cv2.cvtColor(im,cv2.COLOR_BGR2RGB)

همین تابع cvtColor می‌تواند برای انجام تبدیل‌های دیگر فضای رنگی مانند تبدیل تصویر به سیاه و سفید یا فضای رنگی HSV (رنگ-اشباع-مقدار) استفاده شود.

شما همچنین می‌توانید از OpenCV برای بارگذاری فریم‌های ویدئو به صورت فریم به فریم استفاده کنید - یک مثال در تمرین دفترچه OpenCV آورده شده است.

پردازش تصویر

پیش از اینکه یک تصویر را به شبکه عصبی بدهید، ممکن است بخواهید چندین مرحله پیش‌پردازش را اعمال کنید. OpenCV می‌تواند کارهای زیادی انجام دهد، از جمله:

  • تغییر اندازه تصویر با استفاده از im = cv2.resize(im, (320,200),interpolation=cv2.INTER_LANCZOS)
  • تار کردن تصویر با استفاده از im = cv2.medianBlur(im,3) یا im = cv2.GaussianBlur(im, (3,3), 0)
  • تغییر روشنایی و کنتراست تصویر که می‌تواند با دستکاری آرایه‌های NumPy انجام شود، همانطور که در این یادداشت Stackoverflow توضیح داده شده است.
  • استفاده از آستانه‌گذاری با فراخوانی توابع cv2.threshold/cv2.adaptiveThreshold، که اغلب به تنظیم روشنایی یا کنتراست ترجیح داده می‌شود.
  • اعمال تبدیلات مختلف به تصویر:
    • تبدیلات آفین می‌توانند مفید باشند اگر نیاز به ترکیب چرخش، تغییر اندازه و کج کردن تصویر داشته باشید و مکان سه نقطه در تصویر را بدانید. تبدیلات آفین خطوط موازی را موازی نگه می‌دارند.
    • تبدیلات پرسپکتیو می‌توانند مفید باشند زمانی که مکان چهار نقطه در تصویر را بدانید. برای مثال، اگر از یک سند مستطیلی با دوربین گوشی هوشمند از زاویه‌ای عکس بگیرید و بخواهید تصویری مستطیلی از خود سند ایجاد کنید.
  • درک حرکت درون تصویر با استفاده از جریان نوری.

مثال‌هایی از استفاده از بینایی کامپیوتر

در دفترچه OpenCV، چند مثال از کاربردهای بینایی کامپیوتر برای انجام وظایف خاص آورده شده است:

  • پیش‌پردازش عکس یک کتاب بریل. ما بر روی استفاده از آستانه‌گذاری، تشخیص ویژگی، تبدیل پرسپکتیو و دستکاری‌های NumPy تمرکز می‌کنیم تا نمادهای بریل جداگانه را برای طبقه‌بندی بیشتر توسط یک شبکه عصبی جدا کنیم.
تصویر بریل تصویر پیش‌پردازش شده بریل نمادهای بریل

تصویر از OpenCV.ipynb

  • تشخیص حرکت در ویدئو با استفاده از تفاوت فریم‌ها. اگر دوربین ثابت باشد، فریم‌های ویدئو باید بسیار مشابه یکدیگر باشند. از آنجا که فریم‌ها به صورت آرایه نمایش داده می‌شوند، با کم کردن آرایه‌های دو فریم متوالی می‌توان تفاوت پیکسلی را به دست آورد، که برای فریم‌های ثابت کم است و با وجود حرکت در تصویر افزایش می‌یابد.

تصویر فریم‌های ویدئو و تفاوت فریم‌ها

تصویر از OpenCV.ipynb

  • تشخیص حرکت با استفاده از جریان نوری. جریان نوری به ما اجازه می‌دهد بفهمیم که پیکسل‌های جداگانه در فریم‌های ویدئو چگونه حرکت می‌کنند. دو نوع جریان نوری وجود دارد:

    • جریان نوری متراکم میدان برداری را محاسبه می‌کند که نشان می‌دهد هر پیکسل به کجا حرکت می‌کند.
    • جریان نوری پراکنده بر اساس گرفتن برخی ویژگی‌های متمایز در تصویر (مانند لبه‌ها) و ساختن مسیر آن‌ها از فریم به فریم است.

تصویر جریان نوری

تصویر از OpenCV.ipynb

✍️ دفترچه‌های مثال: OpenCV OpenCV را در عمل امتحان کنید

بیایید با بررسی دفترچه OpenCV چند آزمایش با OpenCV انجام دهیم.

نتیجه‌گیری

گاهی اوقات، وظایف نسبتاً پیچیده‌ای مانند تشخیص حرکت یا تشخیص نوک انگشتان می‌توانند صرفاً با استفاده از بینایی کامپیوتر حل شوند. بنابراین، آشنایی با تکنیک‌های پایه‌ای بینایی کامپیوتر و قابلیت‌های کتابخانه‌هایی مانند OpenCV بسیار مفید است.

🚀 چالش

این ویدئو از برنامه AI Show را تماشا کنید تا درباره پروژه Cortic Tigers و نحوه ساخت یک راه‌حل مبتنی بر بلوک برای دموکراتیزه کردن وظایف بینایی کامپیوتر از طریق یک ربات بیشتر بدانید. درباره پروژه‌های مشابه تحقیق کنید که به تازه‌واردان کمک می‌کنند وارد این حوزه شوند.

مرور و مطالعه شخصی

بیشتر درباره جریان نوری در این آموزش عالی بخوانید.

در این آزمایشگاه، شما یک ویدئو با حرکات ساده ضبط خواهید کرد و هدف شما استخراج حرکات بالا/پایین/چپ/راست با استفاده از جریان نوری است.

فریم حرکت کف دست