
sawtalarab.news صوت العرب نيوز
June 8, 2025 at 05:04 AM
فهم الاحتمالات هو العمود الفقري لأي تحليل علمي للبيانات.
وفي أقل من 4 دقائق، سأرشدك خلال أهم المفاهيم التي يجب أن يتقنها كل Data Scientist حقيقي.
🚀 دعنا نبدأ بالأساسيات التي ستُحدث فرقًا حقيقيًا في مشاريعك.
---
1️⃣ التوزيعات الإحصائية:
عندما تتعامل مع بيانات حقيقية، اختيار التوزيع الصحيح ليس رفاهية — إنه ضرورة.
التوزيع يحدد كيف "تتوقع" أن تتصرف البيانات. فهمه بشكل صحيح يعني نماذج تنبؤية أكثر دقة، وتحليل أكثر واقعية.
---
2️⃣ التوزيعات المتقطعة (Discrete Distributions):
تُستخدم عندما تكون القيم الممكنة محددة، وغالبًا أعداد صحيحة.
📌 أمثلة عملية:
▪️عدد العملاء الذين أتموا عملية شراء
▪️عدد مرات النقر على إعلان
غالبًا ما تُستخدم توزيعات مثل Binomial وPoisson في هذا السياق.
---
3️⃣ التوزيعات المستمرة (Continuous Distributions):
تُستخدم عندما تكون البيانات قادرة على أخذ أي قيمة ضمن نطاق معين.
📌 أمثلة عملية:
▪️الوقت الذي يقضيه العميل على الموقع
▪️الإيرادات الشهرية المتوقعة
أشهر هذه التوزيعات: Normal, Exponential, Log-Normal
---
4️⃣ دالة الكتلة الاحتمالية (PMF):
💡 تُستخدم مع المتغيرات المتقطعة.
PMF
تحدد احتمال ظهور كل قيمة بشكل منفصل.
تمثل غالبًا بأعمدة في الرسم البياني.
---
5️⃣ دالة الكثافة الاحتمالية (PDF):
💡 تُستخدم مع المتغيرات المستمرة.
الاحتمال هنا يُمثّل بالمساحة تحت المنحنى بين نقطتين. هذا يتيح حساب احتمالات مثل:
"ما احتمال أن يكون العمر بين 30 و40 سنة؟"
---
6️⃣ النماذج البارامترية (Parametric Models):
تفترض شكلًا محددًا للتوزيع (مثل التوزيع الطبيعي). هذا يتيح لها الكفاءة، لكنه يتطلب أن يكون الافتراض صحيحًا.
📌 أمثلة:
▪️Linear Regression:
يفترض توزيعًا طبيعيًا للأخطاء
▪️Logistic Regression:
يفترض توزيع Binomial للمتغير التابع
---
7️⃣ النماذج غير البارامترية (Non-Parametric Models):
لا تفترض أي توزيع. قوة هذه النماذج تكمن في مرونتها.
📌 أمثلة:
▪️Decision Trees
▪️K-Nearest Neighbors
▪️Support Vector Machines
مناسبة جدًا عندما تكون طبيعة البيانات غير معروفة أو معقدة.
---
8️⃣ دوال الخسارة وتوزيعاتها (Loss Functions & Distributions):
اختيار دالة الخسارة المناسبة = تحسين مباشر في أداء النموذج.
📌 أمثلة متقدمة مهمة جدًا:
▪️Poisson Loss:
ممتازة لبيانات العد (مثل عدد الطلبات).
▪️Tweedie Loss:
مثالية في التنبؤات التي تحتوي على كثير من الأصفار وقيم مستمرة، مثل الطلب المتقطع (Intermittent Demand).
هل تستخدم XGBoost أو LightGBM؟ هذه المفاهيم يجب أن تكون ضمن أدواتك الأساسية.
---
9️⃣ ⚠️