تحلیل دو متغیره (Bivariate Analysis) به بررسی همزمان دو متغیر برای یافتن روابط آماری یا وابستگی بین آنها میپردازد. برخلاف تحلیل تکمتغیره که فقط به یک ستون نگاه میکند، در اینجا دو ستون با هم مقایسه میشوند تا نوع و شدت رابطهی آنها درک شود.
اهداف Bivariate Analysis
یافتن الگوهای همبستگی بین دو متغیر عددی
شناسایی تفاوت میان گروهها در یک متغیر عددی بر اساس دستهبندی یک متغیر طبقهای
تحلیل وابستگی متقابل دو متغیر طبقهای
آمادگی برای مدلسازی پیشبینی (Predictive Modeling)
تحلیل عددی با عددی (Numerical vs Numerical)
هدف:
بررسی میزان و نوع رابطه بین دو متغیر عددی مانند «قد و وزن» یا «درآمد و مخارج».
روشها:
ضریب همبستگی پیرسون (Pearson correlation coefficient)
Scatter Plot (نمودار پراکندگی)
خط رگرسیون ساده (Simple Linear Regression)
تحلیل عددی با طبقهای (Numerical vs Categorical)
هدف:
بررسی اینکه آیا متغیر عددی در گروههای مختلف متغیر طبقهای تفاوت معنادار دارد یا نه؛ مثلاً: «مقایسه درآمد بین زنان و مردان»
روشها:
Box Plot / Violin Plot
Groupby Mean / Median
One-way ANOVA (برای بررسی معناداری آماری)
تحلیل طبقهای با طبقهای (Categorical vs Categorical)
هدف:
بررسی وابستگی بین دو متغیر طبقهای مانند: «جنسیت و قبولی» یا «نوع شغل و سطح تحصیلات»
روشها:
Cross-tabulation (جدول توافقی)
Stacked Bar Plot
Heatmap
آزمون مربع خی (Chi-square test)
کاربردهای Bivariate Analysis
انتخاب ویژگیهای مهم برای مدلسازی (Feature Selection)
درک بهتر روابط علی و معلولی احتمالی
بررسی فرضیهها (مثلاً اینکه شغل بر درآمد تأثیر دارد یا نه)
پیشبینی متغیر هدف (مثلاً احتمال قبولی بر اساس جنسیت)
تحلیل دو متغیره، مرحلهای کلیدی در تحلیل دادههاست که به ما کمک میکند رابطه بین دو ویژگی را بهتر درک کنیم. این تحلیل در مسیر ساخت مدلهای یادگیری ماشین بسیار ارزشمند است، زیرا میتواند:
متغیرهای مرتبط با هدف را شناسایی کند
الگوهای پنهان بین ویژگیها را آشکار سازد
بر تصمیمگیری در طراحی مدلهای آماری و پیشبینی تأثیر بگذارد

