تحلیل دو متغیره (Bivariate Analysis) به بررسی همزمان دو متغیر برای یافتن روابط آماری یا وابستگی بین آن‌ها می‌پردازد. برخلاف تحلیل تک‌متغیره که فقط به یک ستون نگاه می‌کند، در اینجا دو ستون با هم مقایسه می‌شوند تا نوع و شدت رابطه‌ی آن‌ها درک شود.

اهداف Bivariate Analysis

  • یافتن الگوهای همبستگی بین دو متغیر عددی

  • شناسایی تفاوت میان گروه‌ها در یک متغیر عددی بر اساس دسته‌بندی یک متغیر طبقه‌ای

  • تحلیل وابستگی متقابل دو متغیر طبقه‌ای

  • آمادگی برای مدل‌سازی پیش‌بینی (Predictive Modeling)

تحلیل عددی با عددی (Numerical vs Numerical)

 هدف:

بررسی میزان و نوع رابطه بین دو متغیر عددی مانند «قد و وزن» یا «درآمد و مخارج».

 روش‌ها:

  • ضریب همبستگی پیرسون (Pearson correlation coefficient)

  • Scatter Plot (نمودار پراکندگی)

  • خط رگرسیون ساده (Simple Linear Regression)

تحلیل عددی با طبقه‌ای (Numerical vs Categorical)

 هدف:

بررسی اینکه آیا متغیر عددی در گروه‌های مختلف متغیر طبقه‌ای تفاوت معنادار دارد یا نه؛ مثلاً: «مقایسه درآمد بین زنان و مردان»

 روش‌ها:

  • Box Plot / Violin Plot

  • Groupby Mean / Median

  • One-way ANOVA (برای بررسی معناداری آماری)

تحلیل طبقه‌ای با طبقه‌ای (Categorical vs Categorical)

هدف:

بررسی وابستگی بین دو متغیر طبقه‌ای مانند: «جنسیت و قبولی» یا «نوع شغل و سطح تحصیلات»

 روش‌ها:

  • Cross-tabulation (جدول توافقی)

  • Stacked Bar Plot

  • Heatmap

  • آزمون مربع خی (Chi-square test)

کاربردهای Bivariate Analysis

  • انتخاب ویژگی‌های مهم برای مدل‌سازی (Feature Selection)

  • درک بهتر روابط علی و معلولی احتمالی

  • بررسی فرضیه‌ها (مثلاً اینکه شغل بر درآمد تأثیر دارد یا نه)

  • پیش‌بینی متغیر هدف (مثلاً احتمال قبولی بر اساس جنسیت)

تحلیل دو متغیره، مرحله‌ای کلیدی در تحلیل داده‌هاست که به ما کمک می‌کند رابطه بین دو ویژگی را بهتر درک کنیم. این تحلیل در مسیر ساخت مدل‌های یادگیری ماشین بسیار ارزشمند است، زیرا می‌تواند:

  • متغیرهای مرتبط با هدف را شناسایی کند

  • الگوهای پنهان بین ویژگی‌ها را آشکار سازد

  • بر تصمیم‌گیری در طراحی مدل‌های آماری و پیش‌بینی تأثیر بگذارد