sawtalarab.news     صوت العرب نيوز
sawtalarab.news صوت العرب نيوز
June 8, 2025 at 05:04 AM
فهم الاحتمالات هو العمود الفقري لأي تحليل علمي للبيانات. وفي أقل من 4 دقائق، سأرشدك خلال أهم المفاهيم التي يجب أن يتقنها كل Data Scientist حقيقي. 🚀 دعنا نبدأ بالأساسيات التي ستُحدث فرقًا حقيقيًا في مشاريعك. --- 1️⃣ التوزيعات الإحصائية: عندما تتعامل مع بيانات حقيقية، اختيار التوزيع الصحيح ليس رفاهية — إنه ضرورة. التوزيع يحدد كيف "تتوقع" أن تتصرف البيانات. فهمه بشكل صحيح يعني نماذج تنبؤية أكثر دقة، وتحليل أكثر واقعية. --- 2️⃣ التوزيعات المتقطعة (Discrete Distributions): تُستخدم عندما تكون القيم الممكنة محددة، وغالبًا أعداد صحيحة. 📌 أمثلة عملية: ▪️عدد العملاء الذين أتموا عملية شراء ▪️عدد مرات النقر على إعلان غالبًا ما تُستخدم توزيعات مثل Binomial وPoisson في هذا السياق. --- 3️⃣ التوزيعات المستمرة (Continuous Distributions): تُستخدم عندما تكون البيانات قادرة على أخذ أي قيمة ضمن نطاق معين. 📌 أمثلة عملية: ▪️الوقت الذي يقضيه العميل على الموقع ▪️الإيرادات الشهرية المتوقعة أشهر هذه التوزيعات: Normal, Exponential, Log-Normal --- 4️⃣ دالة الكتلة الاحتمالية (PMF): 💡 تُستخدم مع المتغيرات المتقطعة. PMF تحدد احتمال ظهور كل قيمة بشكل منفصل. تمثل غالبًا بأعمدة في الرسم البياني. --- 5️⃣ دالة الكثافة الاحتمالية (PDF): 💡 تُستخدم مع المتغيرات المستمرة. الاحتمال هنا يُمثّل بالمساحة تحت المنحنى بين نقطتين. هذا يتيح حساب احتمالات مثل: "ما احتمال أن يكون العمر بين 30 و40 سنة؟" --- 6️⃣ النماذج البارامترية (Parametric Models): تفترض شكلًا محددًا للتوزيع (مثل التوزيع الطبيعي). هذا يتيح لها الكفاءة، لكنه يتطلب أن يكون الافتراض صحيحًا. 📌 أمثلة: ▪️Linear Regression: يفترض توزيعًا طبيعيًا للأخطاء ▪️Logistic Regression: يفترض توزيع Binomial للمتغير التابع --- 7️⃣ النماذج غير البارامترية (Non-Parametric Models): لا تفترض أي توزيع. قوة هذه النماذج تكمن في مرونتها. 📌 أمثلة: ▪️Decision Trees ▪️K-Nearest Neighbors ▪️Support Vector Machines مناسبة جدًا عندما تكون طبيعة البيانات غير معروفة أو معقدة. --- 8️⃣ دوال الخسارة وتوزيعاتها (Loss Functions & Distributions): اختيار دالة الخسارة المناسبة = تحسين مباشر في أداء النموذج. 📌 أمثلة متقدمة مهمة جدًا: ▪️Poisson Loss: ممتازة لبيانات العد (مثل عدد الطلبات). ▪️Tweedie Loss: مثالية في التنبؤات التي تحتوي على كثير من الأصفار وقيم مستمرة، مثل الطلب المتقطع (Intermittent Demand). هل تستخدم XGBoost أو LightGBM؟ هذه المفاهيم يجب أن تكون ضمن أدواتك الأساسية. --- 9️⃣ ⚠️

Comments