تحلیل تک متغیره (Univariate Analysis) یکی از پایهایترین و مهمترین مراحل در فرآیند تحلیل دادهها (EDA: Exploratory Data Analysis) است. هدف این نوع تحلیل، بررسی یک متغیر بهصورت مستقل است؛ بدون در نظر گرفتن ارتباط آن با سایر متغیرها. این تحلیل میتواند بر روی دادههای عددی (مانند سن و درآمد) یا طبقهای (مانند جنسیت یا وضعیت تأهل) انجام شود.
اهداف تحلیل تکمتغیره
- درک توزیع دادهها
- شناسایی مقادیر پرت (Outliers)
- بررسی تمرکز، پراکندگی و شکل توزیع
- آمادهسازی داده برای تحلیلهای بعدی (تحلیل دومتغیره و مدلسازی)
انواع داده در تحلیل تکمتغیره
- دادههای عددی (Quantitative / Numerical)
به دادههایی گفته میشود که مقدار آنها عددی و قابل اندازهگیری است. این دادهها میتوانند:
- پیوسته (Continuous) باشند (مثلاً: وزن، قد)
- گسسته (Discrete) باشند (مثلاً: تعداد فرزندان)
- دادههای طبقهای (Categorical / Qualitative)
دادههایی که نشاندهنده گروه یا دسته هستند، مانند:
- جنسیت (زن/مرد)
- وضعیت تأهل (مجرد/متأهل)
- کشور یا رنگ
روشهای تحلیل تکمتغیره
الف) تحلیل دادههای عددی:
آمار توصیفی:
- میانگین (Mean): مجموع مقادیر تقسیم بر تعداد
- میانه (Median): مقدار میانی دادههای مرتبشده
- مد (Mode): پرتکرارترین مقدار
- واریانس و انحراف معیار: اندازهگیری پراکندگی دادهها
- حداقل و حداکثر: محدوده دادهها
- چارکها و IQR: برای بررسی تمرکز و شناسایی Outlierها
تجسم داده:
- هیستوگرام (Histogram): نمایش توزیع داده
- نمودار چگالی (Density Plot): نمایش توزیع پیوسته
- Boxplot (نمودار جعبهای): شناسایی دادههای پرت
- Violin plot: ترکیبی از چگالی و نمودار جعبهای
ب) تحلیل دادههای طبقهای:
آمار توصیفی:
- فراوانی (Frequency): تعداد وقوع هر دسته
- درصد فراوانی (Relative Frequency): سهم هر دسته
تجسم داده:
- Bar Plot (نمودار میلهای): نمایش فراوانی دستهها
- Pie Chart (نمودار دایرهای): نمایش درصد دستهها (کمتر توصیه میشود)
- Count Plot (در کتابخانه Seaborn): بسیار مناسب و پرکاربرد
مراحل کلی انجام Univariate Analysis
- شناسایی نوع داده (عددی یا طبقهای)
- محاسبه شاخصهای آماری مناسب
- رسم نمودارهای مربوطه
- تفسیر نتایج و بررسی کیفیت داده
- شناسایی ناهنجاریها (Missing values و Outliers)
کاربردهای تحلیل تکمتغیره
شناسایی ستونهای بدون تنوع (برای حذف)
بررسی نرمال بودن دادهها (برای مدلهای آماری خاص)
کمک به انتخاب روشهای پیشپردازش (مانند نرمالسازی یا encoding)
درک اولیه از رفتار دادهها پیش از تحلیلهای پیچیدهتر
نکات مهم
در دادههای نامتوازن (imbalanced)، تحلیل تکمتغیره میتواند هشداردهنده باشد.
Boxplot بهترین روش برای شناسایی دادههای پرت در دادههای عددی است.
استفاده از چندین روش بصری به درک عمیقتر کمک میکند.
تحلیل تکمتغیره پایهایترین بخش در تحلیل داده است و بدون آن، هر تحلیل پیچیدهای ناقص خواهد بود. این تحلیل به ما کمک میکند تا کیفیت و ویژگیهای اولیهی هر ستون را بشناسیم و تصمیمهای آگاهانهتری در ادامهی مسیر تحلیل یا مدلسازی اتخاذ کنیم.

