תוכן עניינים:
המעוניינים להתחיל לעבוד עם שפת R תוהים האם נדרש ידע וניסיון קודמים בשפת תכנות אחרת, או תואר במדעי המחשב.
למעשה על מנת להתחיל לבנות מודלים ואלגוריתמים מספיק להתחיל עם שפת R בתור התחלה וללא רקע תכנותי קודם. במדריך הקרוב תקבלו את כל המידע שאתם צריכים על השפה ועל השימושים שלה, תהנו.
איך תאגידי הענק עושים שימוש ב- R Language
- מדעני הנתונים, Data Scientists, של פייסבוק משתמשים ב-R כדרך מהירה לקבל סקירה כללית על נתונים חדשים. רכיבי ההדמיה/ויזואליזציה של R מקלים על הפיכת מספרים עצומים לתרשימים לינאריים או מפוזרים הקלים להבנה, ומביאים תובנות עסקיות רציניות. Facebook עושה שימוש כה מסיבי ב-R עד שיצרה מערך הדרכה אונליין חינמי (Massive Open Online Courses (MOOCs, כדי לעזור לאנשי דאטה ללמוד איך לעבוד עם השפה.
- ב-Google משתמשים ב-R בתחום הפרסום של החברה כדי לבחון מגמות בסיסיות במודל תמחור המודעות המבוסס על הצעת מחיר (AdWords). החברה גם משתמשת בשפת R באופן נרחב בניתוח כמויות אדירות של דאטה שמיוצרת כל שניה.
- ב-Pfizer שימוש ב-R מאפשר לחוקרים שאינם מתכנתים, לבחון את נתוני הניסויים של תרופות מבלי לערב מדענים בתהליך הזה וכך הם גם מסוגלים לשנות את כיוון המחקר כמעט מיד עם קבלת התוצאות.
- R מאוד שימושית גם במגזר הפיננסי כבעלת עשרות חבילות מיוחדות שפותחו על מנת לאפשר ניתוח מהיר וקל של נתוני השוק בזמן אמת.
השימוש ב-R הולך ומתגבר עם השנים אודות היכולות הנהדרות שלה.
שפת R היא שפה רבת עוצמה אשר נמצאת בשימוש נרחב עבור ניתוח נתונים וחישובים סטטיסטיים. השפה פותחה בתחילת שנות ה-90. ומאז נעשים כל הזמן מאמצים רבים לשיפור ממשק המשתמש של R והיכולות שלה.
השפה עברה עם השנים מסע התפתחות עצום מעורך טקסט בסיסי ל- RStudio אינטראקטיבי והאפשרות שנוספה לאחרונה – עבודה גם ב- Jupyter
.פיתוח השפה המואץ מערב תרומה ועבודה של קהילות מדעני נתונים רבות ברחבי העולם.
השינויים שעוברת השפה והשיפורים מתאפשרים רק בזכות התרומה העצומה של משתמשי R ברחבי העולם.
בנייה ושילוב של חבילות רבות בממשק של R הופך את השפה לחזקה יותר ויותר ושימוש בה הולך ומתגבר.
מדובר בחבילות כגון – dplyr, tidyr, readr, data.table, SparkR, ggplot2 – כל אלו הפכו את התהליכים של מניפולציה על נתונים, הדמיה וחישובים מורכבים להרבה יותר מהירים ומעמיקים.
ומה עם Machine Learning? אז הטעות הגורפת בקרב אנשי Data לחשוב ששפת R הינה כלי לחישובים סטטיסטיים בלבד.
למעשה ל-R יש מספיק יכולות ליישם אלגוריתמים של Machine Learning באופן מהיר ופשוט.
ללמוד R – למי זה נכון ולמה?
שפת R מצוינת ללמידה והעשרה בתחום Data Science. למה? כי זו שפה “אמיתית” של מדענים, היא נוצרה ע”י מדענים והיא נועדה למעדנים ולעבודה עם דאטה.
למעשה כמעט לכל בעיה סטטיסטית ניתן למצוא פתרון על ידי שפת R.
מחשבים פועלים על מספרים 1 ו-0 ובסופו של דבר כל שפת תכנות/פיתוח הינה אוסף של מספרים ברצפים מורכבים יותר ויותר עד שמשהו שימושי קורה.
עדיין שפות שונות נועדו לפתור בעיות שונות ולתת פתרון שונה בהתאם לצרכים, ומהותה של שפת R במובן הזה היא כל מה שקשור למניפולציה של נתונים והדמיה/ויזואליזציה.
כך שאנשים שאינם מתכנתים אבל בעלי רקע סטטיסטי יגלו שללמוד R יותר קל מאשר ללמוד שפות תכנות קונבנציונאליות אחרות.
זו אחת הסיבות ש-R הפכה ללהיט מחוץ לאקדמיה – קל ללמוד אותה, אבל מצד שני השפה שומרת על מקומה כשפה מובילה כשפת תכנות ייעודית והיעוד שלה – Data
. בנוסף מהנדסים, מדענים וסטטיסטיקאים – כולם ישתמשו במושגים ומונחים שהם כבר מכירים מרקע הכללי שלהם במתמטיקה וסטטיסטיקה.
אחרי שימוש בשפה זו ניתן יהיה להצביע על כמה מיתרונותיה:
- הסגנון של קידוד הוא די קל
- מדובר בקוד פתוח, כך שאין צורך לרכוש רישיון
- זמינות וגישה מיידית ליותר מ- 7800 חבילות מותאמות אישית עבור משימות חישוב שונות
- התמיכה בקהילה היא עצומה! ישנם פורומים רבים כדי לעזור בכל שאלה
- רמת הביצועית מאוד גבוהה – Performance (מותנה בהתקנה של חבילות ספציפיות)
- מגוון מודלים (לינארי ולא לינארי – Linear and non-linear modeling, סדרות של זמן – Time-series analysis, פילוח – clustering)
- ולבסוף – מדובר באחת מהמיומנויות השכיחות ביותר שמחפשים היום בתחום האנליזה ומידול נתונים
ישנם יתרונות רבים נוספים, אבל אלה שפירטנו הם בהחלט מספיקים על מנת להשתכנע ללמוד את השפה והשימושים בה.
יכולות בולטות של R:
כפי שהצגנו קודם, היכולות של שפת R עצומות – למעלה מ-7800 חבילות שונות המיועדות לעבודה עם נתונים.
אנחנו נציג את החוזקות והשימושיות ביותר בתהליכי פרדיקציה. אם קיימת פונקציה סטטיסטית כלשהי – סביר להניח שיש ל-R חבילה מיוחדת לזה.
- ייבוא נתונים:
R מציעה מגוון רחב של חבילות עבור ייבוא נתונים זמינים בכל פורמט כגון .txt, .csv, .json, .sql ועוד. ייבוא של קבצים גדולים וכבדים מומלץ להשתמש ב- data.table, readr, RMySQL, sqldf, jsonlite
- ויזואליזציה של נתונים ב-R:
הממשק של השפה מכיל גם פקודות שיסייעו לבנות גרפים פשוטים, אבל כשמדובר בגרפים מתקדמים ומורכבים אנחנו ממליצים להשתמש בחבילה – ggplot2. בכתיבת קוד לצורך בניה של פונקציה כלשהי – דבר שיכול לקחת כמה שורות קוד, אבל כשמדובר בהצגה של תוצאות – התהליך יכול לקחת אלפי שורות קוד נוספות. החבילות הייחודיות מסייעות לקצר את התהליכים האלה ולהפוך את העבודה ליעילה מאוד
- מניפולציה על דאטה:
ל-R יש חבילות מדהימות העונות לצורך זה, המאפשרות חישובים בסיסיים ומתקדמים מאוד במהירות ובקלות, הידועות ביניהן: dplyr, plyr, tidyr, lubridate, stringr
- מידול נתונים/ Machine Learning:
לצורך זה החבילה caret מצוינת לבניית מודל כזה או אחר אבל ניתן להתקין חבילות נוספות שכל אחת עם יתרונות נוספים משלה: randomForest, rpart, gbm
לקבלת פרטים נוספים על הקורס הייחודי שאנחנו מציעים, צרו קשר ונשמח לענות לכם. בהצלחה!