تحلیل تک‌ متغیره (Univariate Analysis) یکی از پایه‌ای‌ترین و مهم‌ترین مراحل در فرآیند تحلیل داده‌ها (EDA: Exploratory Data Analysis) است. هدف این نوع تحلیل، بررسی یک متغیر به‌صورت مستقل است؛ بدون در نظر گرفتن ارتباط آن با سایر متغیرها. این تحلیل می‌تواند بر روی داده‌های عددی (مانند سن و درآمد) یا طبقه‌ای (مانند جنسیت یا وضعیت تأهل) انجام شود.

 

اهداف تحلیل تک‌متغیره

  • درک توزیع داده‌ها
  • شناسایی مقادیر پرت (Outliers)
  • بررسی تمرکز، پراکندگی و شکل توزیع
  • آماده‌سازی داده برای تحلیل‌های بعدی (تحلیل دومتغیره و مدل‌سازی)

 

 انواع داده در تحلیل تک‌متغیره

  1. داده‌های عددی (Quantitative / Numerical)

به داده‌هایی گفته می‌شود که مقدار آن‌ها عددی و قابل اندازه‌گیری است. این داده‌ها می‌توانند:

  • پیوسته (Continuous) باشند (مثلاً: وزن، قد)
  • گسسته (Discrete) باشند (مثلاً: تعداد فرزندان)
  1. داده‌های طبقه‌ای (Categorical / Qualitative)

داده‌هایی که نشان‌دهنده گروه یا دسته هستند، مانند:

  • جنسیت (زن/مرد)
  • وضعیت تأهل (مجرد/متأهل)
  • کشور یا رنگ

 

روش‌های تحلیل تک‌متغیره

الف) تحلیل داده‌های عددی:

آمار توصیفی:

  • میانگین (Mean): مجموع مقادیر تقسیم بر تعداد
  • میانه (Median): مقدار میانی داده‌های مرتب‌شده
  • مد (Mode): پرتکرارترین مقدار
  • واریانس و انحراف معیار: اندازه‌گیری پراکندگی داده‌ها
  • حداقل و حداکثر: محدوده داده‌ها
  • چارک‌ها و IQR: برای بررسی تمرکز و شناسایی Outlierها

 تجسم داده:

  • هیستوگرام (Histogram): نمایش توزیع داده
  • نمودار چگالی (Density Plot): نمایش توزیع پیوسته
  • Boxplot (نمودار جعبه‌ای): شناسایی داده‌های پرت
  • Violin plot: ترکیبی از چگالی و نمودار جعبه‌ای

 

ب) تحلیل داده‌های طبقه‌ای:

آمار توصیفی:

  • فراوانی (Frequency): تعداد وقوع هر دسته
  • درصد فراوانی (Relative Frequency): سهم هر دسته

تجسم داده:

  • Bar Plot (نمودار میله‌ای): نمایش فراوانی دسته‌ها
  • Pie Chart (نمودار دایره‌ای): نمایش درصد دسته‌ها (کمتر توصیه می‌شود)
  • Count Plot (در کتابخانه Seaborn): بسیار مناسب و پرکاربرد

 

 مراحل کلی انجام Univariate Analysis

  1. شناسایی نوع داده (عددی یا طبقه‌ای)
  2. محاسبه شاخص‌های آماری مناسب
  3. رسم نمودارهای مربوطه
  4. تفسیر نتایج و بررسی کیفیت داده
  5. شناسایی ناهنجاری‌ها (Missing values و Outliers)

کاربردهای تحلیل تک‌متغیره

  • شناسایی ستون‌های بدون تنوع (برای حذف)

  • بررسی نرمال بودن داده‌ها (برای مدل‌های آماری خاص)

  • کمک به انتخاب روش‌های پیش‌پردازش (مانند نرمال‌سازی یا encoding)

  • درک اولیه از رفتار داده‌ها پیش از تحلیل‌های پیچیده‌تر

نکات مهم

  • در داده‌های نامتوازن (imbalanced)، تحلیل تک‌متغیره می‌تواند هشداردهنده باشد.

  • Boxplot بهترین روش برای شناسایی داده‌های پرت در داده‌های عددی است.

  • استفاده از چندین روش بصری به درک عمیق‌تر کمک می‌کند.

تحلیل تک‌متغیره پایه‌ای‌ترین بخش در تحلیل داده است و بدون آن، هر تحلیل پیچیده‌ای ناقص خواهد بود. این تحلیل به ما کمک می‌کند تا کیفیت و ویژگی‌های اولیه‌ی هر ستون را بشناسیم و تصمیم‌های آگاهانه‌تری در ادامه‌ی مسیر تحلیل یا مدل‌سازی اتخاذ کنیم.