לימודי Data Science – כל מה שרצית לדעת ויותר

מה שהחל את הרעש סביב נושא Data Science היה המאמר של Harvard Business Review שנקרא: "Data Scientist: The Sexiest Job of the 21th Century" שפורסם ב-2012, זו הייתה תקופה שבקושי נגעו או עסקו בתחום ה- Data Science.

העניין בתחום התגלגל כמו כדור שלג, ובשנת -2016 התפקיד זכה להגדרה כ"עבודה הטובה ביותר בארה"ב". זו המשרה שהכי רוצים להגיע אליה, ישנו מחסור של 80% בתפקידים האלה והגידול של מועסקים ב- Data Science – הוא מהגבוהים ביותר מכל המקצועות, מ-7% ל-11% מתוך כל התעשייה.

אז בואו נדבר על מה זה Data Science?

נתחיל בכך שאין סטנדרט אחיד למהו או מיהו Data Science היום. אנשים מגיעים לתחום הזה מרקעים שונים עם יכולות שונות, וישנו אפילו אספקט אשר טוען שזה טוב מאוד, מאחר והצוותים צריכים להיות מורכבים מאנשים הבאים מרקעים שונים על מנת להשלים את היכולת הצוותית, ולהעניק מהיכולות שלהם לטובת הפרויקט. 

באופן מסורתי, בעבר היה דור שלם והוא הדור הראשון של ה- Data Science והם בעיקר מתמטיקאים, לרוב דוקטורנטים אחרי מחקר רציני באקדמיה, אשר הכירו באופן מעולה את האלגוריתמים שלהם, פחות איך להשתמש בהם ומה לעשות איתם, אך ידעו לתכנת אותם. יסודות אלה עברו לדור השני שהתחיל להראות שינוי בשטח – דור של מהנדסים – בעלי רקע במתמטיקה, שלמדו את הנושא באונ', החלו להתעסק בתחום ובאים עם רקעים שונים בסטטיסטיקה, לרוב תואר שני, בד"כ עם יכולות תכנות מעולות, הרבה אלגוריתמאים.

כיום, אנחנו עומדים במהפכה לקראת הדור השלישי. המצב בשוק ובתעשייה הוא כזה, שדרישת השוק היא כל כך גדולה לאנשים בתחום זה שגם אנשים מוכשרים מאוד יכולים לנצל את הכלים שנבנו במשך השנים ושעברו הנגשה. זאת בזכות הדור הראשון שיצר את הכלים, ובזכות הדור השני שיצר תשתיות. למשל: בשפת פייתון פותחו חבילות שונות לטובת עבודה בתחום ה- Data Science. כלים אלה סוללים למעשה את הדרך לדור השלישי, כך שיהיו מספיק אנשים שיוכלו להיכנס לתחום ובכך תיפתח הדלת לכמויות עצומות של אנשים עם יכולות גבוהות להשתלב בתחום.

כמעט כל התעשיות כיום נכנסו לתחום והן מחוללות שינויים מהותיים מאוד. מעניין לראות שגם מתחומים מסורתיים, התעשיות מתחילות להיות משפיעות על התחום: תעשיית הרכב, תחום המשפט, חינוך, חקלאות, רפואה ועוד.

מה צריך לעשות בשביל להיות Data Science?

המחיר של להיות איש Data Science הוא משמעותי כי למעשה נדרשת הבנה ב-3 תחומים שהרבה מאוד פעמים לאנשים באופן רגיל אין את ההרכב של שלושתם. הראשון – הוא הבנה מתמטית מאוד גבוהה ו/או הבנה בכלים סטטיסטיים. השני – יכולות תכנות גבוהות (יכולת להבין פרויקטים תכנותיים), והשלישי – הוא היכרות עסקית, היכולות להבין את תחום העיסוק, להבין את הבעיה הכלכלית, להבין את תחום המדע וכדומה.

מה ההבדל בין Data Science לסטטיסטיקה?

הרבה מאוד אנשים מוטרדים מהעובדה שאין להם ידע בסטטיסטיקה. אז אכן יש לומר שסטטיסטיקה היא אחד התחומים שהיכרות איתו חשובה, הידע הזה מאוד יעזור ל-DS, מצד שני בהחלט אפשר להגיע רחוק בתחום ללא ידע מעמיק. בשלבים הראשונים היכרות עם המודלים של חיזוי יותר חשובה מאשר ידע בסטטיסטיקה.

ומה הקשר בין DS לביג דאטה?

הרבה מאוד מבלבלים בין התחומים. התשובה היא שאין קשר בין השניים. Data Science הוא יותר תחום של יכולת תכנות בכדי להוציא תובנות עסקיות, לעומת זאת, ביג דאטה זה תחום שהוא יותר תשתיתי – היכולת שלך להוציא תובנות מתבססת על טכנולוגיות.

צירפנו לכם סרטון שיעשה קצת סדר:

מה בכלל אומר Data Science ואיך עושים זאת?

 Data Science הינו הענף העוסק בתהליכים וכלים ליצירת ידע מתוך מידע. הגדרה פשוטה זו שנויה במחלוקת, מאחר ומתאימה גם לתחום ה- BI וגם ל- Data Analysis. אז מה ההבדל? קשה לענות במסגרת הגדרה קצרה. אבל המהות היא החשובה – אנחנו אוספים מידע ומפיקים תובנות מהמידע הזה.

בגדול, כל בעיה של Data Science מתחילה מלהבין את הבעיה. יש לנו סוגים שונים של בעיות.

לצורך ההמחשה והפשטה של ההסבר ניקח דוגמא של קביעת מחיר לדירה.

נניח שאנחנו מגיעים לחברה הרוצה להשיק מוצר חדש והמוצר יהיה מערכת בה הלקוח יזין את נתוני הדירה שהיה רוצה לרכוש (גודל, מיקום, מאפיינים ספציפיים) והמערכת תקבע עבורו את המחיר באופן אוטומטי. דוגמא מצוינת למערכת כזו הינה מערכת של סטארטאפ Zillow שעשתה מהפכה מטורפת בשוק הנדלן בארה"ב. מערכת זו לוקחת את הנתונים הגולמיים על הבית, מעבדת אותם ומספקת תחזית של מחיר הדירה, כאשר המטרה להיות כמה שיותר קרוב למחיר שאמורים לקבל באמת בשוק. זהו סטארטאפ מאוד מצליח בארה"ב.

אז איך למעשה ניגשים לבעיה כזו ומהם השלבים בעבודה של Data Science?

השלב הראשון ממנו מתחיל כל פרויקט הוא להבין את הצורך ואת מהות הבעיה עצמה

במקרה שלנו – לחזות מחיר הדירה עם נתונים ספציפיים.

אנו נראה שבאופן טבעי ישנן בעיות פשוטות יותר ומורכבות יותר אשר יגדירו את כל השלבים בעבודה שלנו.

בתרחיש הפשוט, נניח שיש לנו מחירים של רוב הדירות בסביבה ואנחנו רוצים לחזות מחיר של דירה ספציפית. אנו נסתכל על המחירים של דירות בבניין, ואז נפעיל מודל פשוט של חישוב ממוצע מחירי הדירות שהשגנו.

את אותה הבעיה אנחנו יכולים להפוך למורכבת הרבה יותר כאשר נרצה להפעיל שיקולים רבים נוספים על מנת לתת למערכת לבצע ניתוח מעמיק יותר.

בדוגמא שלנו בקביעת המחיר יהיה עלינו לקחת את כל הגורמים והנתונים האפשריים שיש על הסביבה והדירות ורק אז לחזות מחיר דירה. במקרה הזה יהיה לנו מאוד קשה לשקלל את כל הנתונים הרי שחלקם מאוד קשה להשיג (למשל מה התחושה של אנשים באזור הזה, איך נראית השכונה מבחינה אסטטית וכד').

שלבים לאחר הבנת הבעיה:

1. איסוף והכנת המידע

אנחנו נשיג מידע ממקורות שונים כגון: קריאה באינטרנט על איזורי מגורים שונים, כתבות ומאמרים, בלוגים ופורומים, או ייתכן ותהיה לנו גישה לבסיס נתונים שאליו מתחברים ושולפים את הנתונים, או מקבלים קבצים ממקורות שונים.

ברגע שאספנו מידע מכינים את הנתונים על מנת שיהיו "נקיים" כמה שיותר על מנת לבצע תחקור לצורך אותה הבעיה. למה להכין מידע? כי המידע שמתקבל הוא גולמי. כי רק לאחר מכן ניתן לעבוד איתו. ננקה את המידע, נמצה אותו, נסמן מה חשוב ומה לא.

2. בניית מודל

מטרת המודל הינה לאפשר חיזוי נתונים על סמך נתונים קיימים.

ברמה הבסיסית עבור הדוגמא לעיל, המודל יכול להיות ממוצע מחירי הדירות באותו הבניין, או הסביבה הקרובה ביותר.

גם חישוב ממוצע נחשב למודל, אומנם מאוד נאיבי, בסיסי ופשוט, אך לפעמים הוא מספק תוצאות הכי טובות. המודל יכול להיות מורכב ברמות שונות אבל בסופו של דבר המטרה לקחת את כל נתוני המקור שקיבלנו ולהוציא תחזית. כאמור, כאשר נבין טוב מאוד מהי הבעיה נדע איזה מודל לבנות ואיך לבנות אותו.

3. תיקוף של המודל

השאלה הפשוטה שעומדת בפנינו – האם המודל שלי יכול לחזות בצורה טובה את המציאות? ומעבר לזה, האם עשיתי הרצה נוספת של המודל ואני משפר אותו? האם הוא משפר את החיזוי שלנו לדברים שהוא מעולם לא ראה?… ומהו המדד שבאמת מצביע על טיב המודל? לכל סוג בעיה המודל שמתאים לה – קיימים מדדים שמאפיינים את טיב המודל ואת המיקוד שלו. בנוסף, היות ואחרי השלב הראשון של הרצת המודל, אנחנו לא מקבלים אינדקציה הכי אוטנתית ליכולות של המודל לחזות נתונים בצורה טובה ביותר, אנחנו ננסה לתקף את המודל ע"י השגת נתונים שלא היו בידנו לפני כן, עם פרטמטים דומים

לצורך הדוגמא: נתונים עבור איזורי מגורים אחרים, לחזות את מחיר הדירה ולוודא שהתוצאה שמתקבלת אכן תואמת את המציאות.

היכולת לחזות נתונים שלא נחשפת אליהם, הוא פרמטר מאוד חשוב בתהליך תיקוף המודל. בעיה חמורה ממנה ננסה להימנע, היא בניית מודל שיהיה נכון רק לנתונים הנוכחיים שלנו ולא לנתונים אחרים שנוכל להשיג בהמשך.

4. הצגת התוצאות

הדבר הראשון שמעניין אותנו להיות בעלי יכולת להציג את הניתוח נכון מבחינה מדעית אך גם להציג תוצאות בצורה מובנת וברורה אפילו ממבט אחד. בשלב הזה אנחנו משתמשים בכלים גרפיים שיסייעו לנו. הדבר השני והמרכזי בשלב הזה, הוא לבחון איך משתמשים בנתונים הקיימים לעוד ניתוחים אשר יוצגו בצורה שונה אך מעמיקה יותר ולהבין מה היכולות של המודל שלי והמגבלות שלו להציג את התוצאות. לכל מודל יש ייצוג רלוונטי שלו, ויהיה בהחלט נכון לבחון הצגה של אותו המודל בעבור כל ההרצות שביצענו על מנת גם ברמה ויזואלית נוכל לראות את טיב המודל הסופי.

5. הטמעה

שלבים 2-4 צריכים לעבור בחינה מחודשת מספר רב של פעמים ובכל פעם אנחנו נשפר במעט את הנתונים או את המודל או את עומק הבדיקה. כל פעם נכנסים יותר ויותר לעמוק על מנת לשפר ולטייב את המודל שלי ולמעשה נשייף את התוצאות. המטרה – להטמיע את הפתרון. כאן מדובר בעבודה עם קבוצות שונות בתוך הארגון להטמעת שימוש המודל התוצאות שלו, התובנה והשפעה על הארגון. בהחלט עובדים עם צוותי מפתחים, DEVOPS, מנתחי מערכות וכו'…

6. בסופו של דבר אם עשינו עבודה טובה – יצוצו בעיות חדשות ואז כל הסבב הזה מתחיל מהתחלה.

אודות מסלול הכשרה Data Science בנאיה קולג'

מדובר במבנה הקורס המוצלח ביותר מבחינה מקצועית, הקורס באמת מכוון למה שכמעט כל Data Science בעל ניסיון יאמר שדרוש כיום בתהליך הכשרה של Data Science צעיר. המטרה שלנו לתת מענה לצורך מאוד גדול באנשי Data Science.

מדריך הקורס חייב להיות בעל יכולות, ידע וניסיון בתחום התכנות, ניסיון בתחום עסקי כלשהו לפחות ואם יגיע מתחום הייעוץ אז יכיר מגוון רחב של תחומים עסקיים, וכמובן ידע חזק במתמטיקה.

לצפייה בקטלוג של קורסי Data Science

הקורס בנוי מ-4 מודולים עיקריים. כל קורס Data Science חייב להתחיל ממודול תכנות – שפת פיתוח הינה הכלי המרכזי לעבודה של Data Science.

פרק 1:

הקורס של נאיה מתחיל מתכנות בסיסי בשפת פייתון אשר מיועד לאנשים ללא רקע בתכנות. אנחנו נראה שלרוב האנשים שרוצים להיכנס לתחום הזה הינם ללא רקע בפיתוח בכלל ובשפת פייתון בפרט, ולכן חשוב מאוד ללמד את השפה בצורה מדוקדקת ומעמיקה. לימוד פייתון במסגרת הקורס מיועד גם לאנשים עם רקע בתכנות, כי כאמור החשיפה שלהם לפייתון לפני כניסה ל-ML (Machine Learning) תעשה יישור קו מאוד נכון ומעמיק מסיבה פשוטה שכל שפה מביאה איתה יכולות ייחודיות משלה. מטרתו של הקורס שבתום תליך הלמידה הסטודנטים שלנו יהיו מומחים בפייתון עם התמחות מאוד ספציפית שהיא DS.

פרק 2:

כיום כבר ברור כי שפת פייתון היא שפה שהפכה להיות דה-פקטו סטנדרט בתחום ML. אותם הדורות שהזכרנו קודם, דורות ה-1 וה-2 , יצרו כלים ותשתיות אינטואיטיביים ומדהימים לעבודה עם פייתון, בקורס שלנו נתמקד בלימוד ארגז הכלים האלה עבור Data Science.

פרק 3:

מתמקד ב-Machine Learning החלק החשוב ביותר בקורס בבניית Data Science טוב. המטרה שלנו בנאיה קולג' קיצונית במקצת – לתת לסטודנט להיחשף לכמה שיותר דוגמאות ובעיות שלא בהכרח פרופורציונליות לניסיון שיש לסטודנט, כולל דוגמאות שלא מצליחות ולמצוא פתרון עבורן ובכך מגיעים למצוינות ולצמיחה המקצועית המיוחלת.

פרק 4:

מתמקד בנושאים מהתעשיה שקשורים לתחום Machine Learning. אנחנו נעסוק למשל בטכנולוגיות חדשות כמו Spark, על מנת להבין מהו חקר מידע שהוא מידע BIG DATA, או למשל מבוא למנועי המלצות, ניתוח טקסטואלי, ו-NLP – חבילה לניתוח רגש בטקסט. ועוד נושאים שקשורים ובשימוש בתעשייה.

במסגרת הקורס אנחנו עובדים על תחרויות שמוצגות באתר העולמי- KaGGLE – אתר תחרויות עולמי. הסטודנטים שלנו מכירים את התחרויות השונות ומשתמשים בהן כבסיס לעבודה עצמית לביצוע פרויקטים שלהם בקורס ובכך הם מצליחים לממש את הניסיון שנרכש במהלך הקורס לאחר שנחשפו לנתונים אמיתיים. עבודה על תחרויות אלו הופכת את הקורס לעוד יותר מעשי ופרקטי ומקרב את הסטודנטים לצרכים בתעשיה, כך שכל אחד שיוצא מהקורס ויוכל להציג בראיונות עבודה את "תיק העבודות" שלו שיצר במהלך הקורס.

כמה הקורס יעזור לי למצוא עבודה?

חד משמעית השוק צמא ל- Data Science, אך Data Science זו מילה גדולה לתחום נרחב. מצד אחד יש לנו אנשים עם תואר PHD, ומצד שני יש לנו Data Science מתחילים. העובדה בשטח היא שהשוק צריך גם את האנשים האלה, במיוחד בשנים אחרונות. מה שטוב בתחום הזה הוא שלמעשה כל אחד יכול להיות Data Science ומה שחשוב הוא רמת הידע של המועמד, היכולות שלו וכמובן שילוב של ידע בשלושת התחומים שציינו קודם לכן. ההכשרה הטכנולוגית מעניקה ידע בכלים נחוצים. האם התואר הוא חשוב? כן אבל בסופו של דבר השטח יקבע את המציאות, הרבה פעמים לתפקידים בתחום זה בארגון מספיק לבחון את הידע ולא להציג את התעודה.

מי יכול ללמוד בקורס ויצליח לעמוד במשימות ולעבור את ההכשרה?

הקורס מיועד לאנשים עם רקעים מאוד מגוונים, ואנחנו מכוונים ל-3 משפחות של סטודנטים:

1. מתמטיקאים, סטטיסטיקאים – מבחינתם הקורס יחדד את ההבנה הכללית של הכלים שהם מכירים לפני הקורס וייתן הבנה ופרקטיקה למשמעותם בעולם האמיתי.

2. מתכנתים – בעלי יכולות תכנות המעוניינים ללמוד פייתון בצורה טובה יותר ולרכוש את כל היכולות האנליטיות

3. אנליסטים ואנשי BI – אנשים שיודעים לעשות את העבודה השחורה, של לקחת את כל מערך הנתונים שיש ולהוציא את התובנות מהן. הבעיה היא, שהם עושים זאת באופן ידני כרגע והמטרה שלהם בהצטרפות לקורס זה, לקחת את כל האינטואיציה והתובנות מהמידע שהם מכירים ולהפוך את זה למשהו יותר תעשייתי – איך להפעיל את הכלים בצורה מתוכננת בכדי להפיק תובנות מהמידע, ליצר מודל טוב שיוציא לגמרי את העבודה האנושית של האנליסט, כלומר- המידע שהיה בעיקר בראשו של האנליסט וליצר מודלים של Data Science.

זה הזמן להשתדרג מקצועית ולהיכנס לקדמה הטכנולוגית לתחום החם של המאה 21!

נאיה קולג' – המומחים לעולמות ה-DATA.