تعلم قواعد الأنشطة المعقدة عبر الشبكات العصبية العميقة

تقرير نظري حول استخدام الشبكات العصبية العميقة في تعلم الفيديو تحت قيود التصنيف، مع تحليل للأداء وآليات التحسين المقترحة.
computecoin.net | PDF Size: 0.6 MB
تعلم قواعد الأنشطة المعقدة عبر الشبكات العصبية العميقة

تعلم قواعد الأنشطة المعقدة عبر الشبكات العصبية العميقة

1. المقدمة والدافع

يستكشف هذا التقرير النظري استخدام الشبكات العصبية العميقة في تعلم الفيديو تحت قيود التصنيف، مستوحى من تزايد كمية بيانات الفيديو المتاحة علنًا على خدمات البث عبر الإنترنت والاهتمام المتزايد بالتطبيقات التي تحلل تدفقات الفيديو المستمرة مثل القيادة الذاتية.

1.1 ما هي المشكلة؟

أصبح تعلم الفيديو جزءًا كبيرًا من أتمتة مهام رؤية الحاسوب، ولكن مع تزايد كمية بيانات الفيديو المتاحة علنًا، تأتي مشكلة البيانات غير المنظمة. يتم معالجة هذه المشكلة من خلال البناء على بنية شبكة عصبية عميقة (مقترحة من Zijia Lu) تتنبأ بمهمة الفيديو والإجراءات التي تحدث فيه. على غرار التعلم متعدد العينات، فإن تصنيفات مستوى الفيديو هنا يمكن الوصول إليها، لكن التنبؤات الدقيقة للإجراءات تتطلب العثور على تصنيفات مستوى الإطار. لذلك، يعتمد هذا النموذج على إيجاد المراسلة بين تصنيفات مستوى الفيديو ومستوى الإطار.

1.2 لماذا هي مثيرة ومهمة؟ ولماذا هي صعبة؟

هذه المهمة قابلة للتطبيق على العديد من المواضيع الأخرى مثل تقسيم الإجراءات ضعيف الإشراف. في وقت الاختبار، يجب على تقسيم الإجراءات ضعيف الإشراف تحليل العلاقة بين فيديو الاختبار وجميع تسلسلات الإجراءات الممكنة من جميع المهام. هذا معقد حسابيًا وعرضة للخطأ. لذلك، يُقترح النموذج في هذا المشروع لتقليل التعقيد من خلال التنبؤ بالمهام الأكثر صلة وتضييق نطاق تسلسلات الإجراءات الممكنة. لهذه الغاية، نجرب بنيات شبكية مختلفة، وميزات الحركة، والميزات البصرية، واستراتيجيات تدريب مختلفة.

1.4 مكونات النهج والنتائج الرئيسية

  • يتكون النموذج الأساسي من وحدة متكررة مسيجة (GRU) وطبقة انتباه (متصلة بالكامل) كما هو موضح في الشكل 2
  • يتم تغذية إطارات الفيديو في طبقة GRU كميزات، وبالتالي من خلال طبقة انتباه الإجراء
  • يتم إنشاء مجموع مرجح وتمرير ميزات الإجراء الناتجة لاحقًا through طبقة انتباه الوصفة
  • نقوم أيضًا بتوليد متجه انتباه زمني كإخراج لطبقة انتباه الإجراء
  • نحسب softmax لتحويل السجلات (من طبقة انتباه الوصفة) إلى احتمالات
  • نستخدم متجه الانتباه الزمني من الجزء 4 لتحليل أداء آلية الانتباه، كما هو مفصل في قسم النتائج 2.3
  • ندرب ونختبر نموذجنا على مجموعتي ميزات موضحة في قسم مجموعة البيانات 2.1 ومع كل تجربة، نلاحظ دقتنا
  • نجرب طرقًا مختلفة لتحسين دقة نموذجنا ونكتب ملاحظاتنا
  • أخيرًا، نقدم توصيات للخطوات التالية، بناءً على ملاحظاتنا

أداء النموذج لم يتحسن. سنتعمق في هذا، بنهاية هذا التقرير.

2. التجارب والنتائج

2.1 مجموعة البيانات

يتضمن هذا المشروع العمل على مجموعة بيانات الإفطار التي تتكون من مهام متنوعة:

  • 48 إجراء و 10 وصفات تتعلق بإعداد الإفطار، نفذها 52 فردًا مختلفًا في 18 مطبخًا مختلفًا

نعمل مع مجموعتين من الميزات:

  • الحركة: Improved Dense Trajectory + PCA؛ I3D Motion Feature
  • البصرية: I3D Visual Feature؛ pretrained ResNet Feature

2.2 الإعداد التجريبي

لجميع التجارب، تم كتابة الكود في pytorch و numpy. تم استخدام شبكة عصبية تتكون من 1 طبقة مخفية تحتوي على 64 عصبونًا مخفيًا. الرجوع إلى الشكل 3 لشبكتنا. ندرب باستخدام 10,000 عصر وحجم دفعة 16، للمساعدة في مشاكل ذاكرة CUDA، على الرغم من إمكانية تغيير هذه الأوامر كما هو موضح في الشكل 3. network.py هو المكان الذي نضع فيه نموذجنا.

2.3 النتائج والتحليل

بناءً على التجارب، لم نلاحظ تحسنًا في أداء النموذج. تم تحليل متجه الانتباه الزمني لفهم كيفية توزيع الانتباه عبر الإطارات، وأظهرت النتائج أن آلية الانتباه لم تكن قادرة على التركيز بشكل فعال على الإطارات الرئيسية للإجراءات. تم اختبار مجموعات مختلفة من الميزات (الحركة والبصرية) واستراتيجيات التدريب، لكن الدقة ظلت منخفضة. تشير هذه النتائج إلى الحاجة إلى تحسينات في بنية النموذج أو استراتيجيات التدريب لمعالجة تعقيد بيانات الفيديو غير المنظمة.

3. الخلاصة والتوصيات

يقدم هذا التقرير نظرة ثاقبة نظرية حول استخدام الشبكات العصبية العميقة في تعلم الفيديو تحت قيود التصنيف. على الرغم من أن النموذج الأساسي لم يحسن الأداء، فإن الملاحظات تشير إلى مجالات للتحسين، مثل تحسين آلية الانتباه، أو دمج ميزات إضافية، أو استكشاف بنيات شبكية أكثر تعقيدًا. التوصيات للعمل المستقبلي تشمل تجربة طبقات انتباه متعددة الرؤوس، واستخدام مجموعات بيانات أكبر، وتحسين استراتيجيات التدريب لتعزيز الدقة في التنبؤ بالإجراءات ومهام الفيديو.