زبان برنامهنویسی R دارای تابعی برای نمایش دورافتادگیها است. این تابع، «identify» نام داشته و در نمودار جعبهای (boxplot) قرار دارد. تابع boxplot، نمودار جعبهای یک مجموعه داده را همراه با خطوط (box-and-whisker) ترسیم میکند.
تابع identify روشی راحت و مناسب برای ایجاد نقاط در «نمودار نقطهای» (scatter plot) است. در زبان برنامهنویسی R، نمودار جعبهای نوعی از نمودار نقطهای محسوب میشود.
در این مثال، نیاز به ساخت ۱۰۰ عدد تصادفی و سپس ترسیم نقاط داده در جعبهها است. اولین نقطه ناهنجاری نیز به روش زیر کشف میشود.
y <- rnorm(100)
boxplot(y)
identify(rep(1, length(y)), y, labels = seq_along(y))
تابع boxplot ناهنجاریهای موجود در یک مجموعه داده را به طور خودکار محاسبه میکند. برای آزمودن این امر، ابتدا ۱۰۰ عدد تصادفی به شکل زیر ساخته میشود.
x <- rnorm(100)
اکنون میتوان با استفاده از کد زیر، خلاصه اطلاعات مجموعه را مشاهده کرد.
summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
-2.06229 -0.47405 0.19952 0.08521 0.63332 2.38901
اکنون میتوان ناهنجاریها را با استفاده از کد زیر نمایش داد.
boxplot.stats(x)$out
[1] 2.389011
کدی که در ادامه آمده، نمودار جعبهای مجموعه داده را رسم کرده و دورافتادگیها را برجسته میسازد.
boxplot(x)
میتوان نمودار جعبهای را برای مجموعه داده بیشتر شناخته شدهای ایجاد کرد و ناهنجاریهای موجود در آن را نمایش داد. این مجموعه داده مربوط به خودروها است.
boxplot(mpg~cyl,data=mtcars, xlab="Cylinders", ylab="MPG")
منبع
https://blog.faradars.org/anomaly-detection-using-r/
دوره های آموزشی ما برای کنکور ارشد و دکتری رشته های روانشناسی، مشاوره، علوم تربیتی، پرستاری, مدیریت آموزشی و علوم شناختی کاربرد دارد.