Data Science – כל מה שרצית לדעת ויותר

מאמר ותיק מ-2012, שפורסם ב-Harvard Business Review הגדיר את מקצוע ה-Data Scientist כ: “The Sexiest Job of the 21th Century“.
המאמר, שעשה אז רעש גדול, עורר עניין רב סביב התחום, כאשר בשנת 2016 זכה התפקיד להגדרה “העבודה הטובה ביותר בארה”ב”. גם היום שומר המקצוע על זוהרו ונחשב כאחת המשרות המתקדמות והנחשבות בעולמות הדאטה. עם זאת, מדובר במקצוע מתקדם ולא קל, וכיום ישנו מחסור של 80% בתפקיד דאטה סיינטיסטס שמוביל לעליה דרמטית בקצב גידול המועסקים ב, מ-7% ל-11% מתוך כל התעשייה.

לצפייה בקטלוג של קורסי Data Science

נתחיל מההתחלה – מה זה בכלל Data Science?

 Data Science הינו הענף העוסק בתהליכים וכלים ליצירת ידע מתוך מידע.
הגדרה פשוטה זו שנויה במחלוקת, מאחר ומתאימה גם לתחום ה- BI וגם ל- Data Analysis ואף לתחום המתקדם של Data Research Analyst. אז מה ההבדל? קשה לענות במסגרת הגדרה קצרה. אבל המהות היא החשובה – אנחנו אוספים מידע ומפיקים תובנות מהמידע הזה. בגדול, כל בעיה של Data Science מתחילה מלהבין את הבעיה ויש לנו סוגים שונים של בעיות.

מיהו בעצם ה- Data Scientist?

מקצוע מדען הנתונים עבר גלגולים רבים בשנים האחרונות וכיום, אין הגדרה חד משמעית למהו או מיהו Data Scientist.
באופן מסורתי, הדור הראשון של אנשי ה- Data Science היה בעיקר מתמטיקאים, לרוב דוקטורנטים שהגיעו לאחר מחקר רציני באקדמיה, שהכירו באופן מעמיק את האלגוריתמים שלהם, ידעו לכתוב אותם, אך לא ממש ידעו כיצד להשתמש בהם.

הדור השני התרחב לכדי דור של מהנדסים בעלי רקע במתמטיקה, שלמדו את הנושא באוניברסיטה והחלו להתעסק בתחום. לאנשים אלה יכולות תכנות מעולות בד”כ והם מגיעים, בנוסף, עם רקעים שונים בסטטיסטיקה, לרוב מתואר שני.

כיום, אנחנו עומדים במהפכה לקראת הדור השלישי. הדרישה העצומה למדעני נתונים בשוק ובתעשייה מייצרת מצב בו גם אנשים מוכשרים מאוד מרקעים מגוונים יכולים לנצל את הכלים שנבנו במשך השנים על ידי הדור הראשון ואת התשתיות שיצר הדור השני. שפת פייתון למשל, והחבילות החדשות שהכניסה לתחום, מנגישות את העבודה בתחום ה- Data Science. ומאפשרות לאנשי הדור השלישי להשתלב בו.

הרקעים השונים והיכולות המגוונות איתם מגיעים ה-Data Scientists היום לארגונים נותנת להם נקודת מבט רחבה יותר על צרכי הארגון ומאפשרת עבודת צוות מורכבת ושלמה. מה שהיה נחלת חברות הטכנולוגיה וההיטק בעבר, השתנה מאד בעידן הנוכחי והיום כמעט כל התעשיות נדרשות למדעני נתונים ומחוללות שינויים מהותיים מאוד. גם תחומים מסורתיים יותר, כתעשיית הרכב, תחום המשפט, החינוך, החקלאות והרפואה , מתחילים להשפיע ולהדרש לתחום.

איזה תכונות ויכולות נדרשות ל- Data Scientist (מדען נתונים)?

איש ה- Data Science נדרש ליכולות והבנה ב-3 תחומים:
הראשון – הבנה מתמטית מאוד גבוהה ו/או הבנה בכלים סטטיסטיים. השני – יכולות תכנות גבוהות (יכולת להבין פרויקטים תכנותיים), והשלישי – היכרות עסקית מעמיקה עם תחום העיסוק. היכולת להבין את הבעיה הכלכלית, את תחום המדע וכדומה.

האם חייבים להיות סטטיסטיקאים כדי לעסוק ב- Data Science?

לא.
נכון שהכרות עם עולם הסטטיסטיקה היא חשובה מאד ותורמת רבות לעבודתו של ה-Data Scientist, אולם גם ללא ידע מעמיק אפשר להגיע רחוק בתחום. השלבים הראשונים של ההיכרות עם מודלים של חיזוי חשובה יותר מאשר הידע בסטטיסטיקה.

ומה הקשר בין Data Science לביג דאטה?

הרבה מאוד מבלבלים בין התחומים אולם התשובה היא שאין קשר בין השניים. Data Science עוסק ביכולות תכנות לצורך הפקת תובנות עסקיות. הביג דאטה הוא תחום תשתיתי בו יכולת הפקת התובנות מתבססת על טכנולוגיות.

עדיין לא ברור? הנה סרטון שיעשה לכם קצת סדר:

מהם השלבים בעבודת Data Science?

לצורך ההמחשה והפשטה של ההסבר ניקח דוגמא של קביעת מחיר לדירה.
נניח שאנחנו מגיעים לחברה הרוצה להשיק מוצר חדש והמוצר יהיה המערכת בה הלקוח יזין את נתוני הדירה שהיה רוצה לרכוש (גודל, מיקום, מאפיינים ספציפיים) והמערכת תקבע עבורו את המחיר באופן אוטומטי.

דוגמא מצוינת למערכת כזו הינה מערכת של סטארטאפ Zillow שעשתה מהפכה מטורפת בשוק הנדלן בארה”ב. מערכת זו לוקחת את הנתונים הגולמיים על הבית, מעבדת אותם ומספקת תחזית של מחיר הדירה, כאשר המטרה להיות כמה שיותר קרוב למחיר שאמורים לקבל באמת בשוק. זהו סטארטאפ מאוד מצליח בארה”ב.

איך למעשה ניגשים לבעיה כזו?

שלב הבנת הבעיה – השלב הקריטי בתהליך:

השלב הראשון ממנו מתחיל כל פרויקט הוא הבנת הצורך ומהות הבעיה עצמה.  ישנן בעיות פשוטות יותר ובעיותמורכבות יותר וכל סוג בעיה יגדיר את שלבי העבודה.

הצורך במקרה שלנו – לחזות את מחיר הדירה עם נתונים ספציפיים.

בתרחיש הפשוט – במידה ויש לנו מחירים של רוב הדירות בסביבה ונרצה לחזות מחיר של דירה ספציפית, נסתכל על המחירים של דירות בבניין, ואז נפעיל מודל פשוט של חישוב ממוצע מחירי הדירות שהשגנו.

בתרחיש המורכב – נרצה לחזות את מחיר הדירה על סמך שיקולים רבים נוספים וביצוע ניתוח מעמיק יותר.

איזה נתונים למשל? בקביעת המחיר יהיה עלינו לקחת את כל הגורמים והנתונים האפשריים שיש על הסביבה והדירות ורק אז לחזות מחיר דירה. חלק מהנתונים יהיה לנו קשה לשקלל  כיון שאת חלקם קשה להשיג ולכמת (למשל מה התחושה של אנשים באזור הזה, איך נראית השכונה מבחינה אסטטית וכד’).

שלבים לאחר הבנת הבעיה:

1. איסוף והכנת המידע

את המידע ניתן להשיג ממקורות שונים כגון: אינטרנט:  כתבות, מאמרים, בלוגים ופורומים, גישה לבסיס נתונים שאליו מתחברים ושולפים את הנתונים, או קבצים ממקורות שונים.

ברגע שאספנו את המידע הגולמי, נכין ו”ננקה” את הנתונים כך שנוכל לקבל תוצאות מיטביות מתחקורו.

2. בניית מודל

מטרת בניית המודל הינה לאפשר חיזוי נתונים על סמך נתונים קיימים.
ברמה הבסיסית עבור הדוגמא לעיל, המודל יכול להיות ממוצע מחירי הדירות באותו הבניין, או הסביבה הקרובה ביותר.
גם חישוב ממוצע נחשב למודל, אומנם מאוד נאיבי, בסיסי ופשוט, אך לפעמים הוא מספק תוצאות הכי טובות.
המודל יכול להיות מורכב ברמות שונות אבל בסופו של דבר המטרה לקחת את כל נתוני המקור שקיבלנו ולהוציא תחזית.
כאמור, כאשר נבין טוב מאוד מהי הבעיה נדע איזה מודל לבנות ואיך לבנות אותו.

3. תיקוף המודל

השאלה הפשוטה שעומדת בפנינו – האם המודל שלנו יכול לחזות בצורה טובה את המציאות? ומעבר לזה, האם בצענו הרצה נוספת של המודל ושפרנו אותו? האם הוא משפר את החיזוי שלנו לדברים שהוא מעולם לא ראה? מהו המדד שבאמת מצביע על טיב המודל? לכל סוג בעיה קיים מודל שמתאים לה – קיימים מדדים שמאפיינים את טיב המודל ואת המיקוד שלו.
בנוסף, היות ואחרי השלב הראשון של הרצת המודל, אנחנו לא מקבלים אינדקציה אותנטית מספיק ליכולות של המודל לחזות נתונים בצורה טובה ביותר, ננסה לתקף את המודל ע”י השגת נתונים שלא היו בידנו לפני כן, עם פרמטרים דומים.
לצורך הדוגמא: ניקח נתונים עבור איזורי מגורים אחרים, נחזה את מחיר הדירה ונוודא שהתוצאה שמתקבלת אכן תואמת את המציאות.
היכולת לחזות נתונים שלא נחשפנו אליהם, הוא פרמטר מאוד חשוב בתהליך תיקוף המודל. אם נבנה מודל שיהיה נכון רק לנתונים הנוכחיים שלנו ולא לנתונים אחרים שנוכל להשיג בהמשך אנחנו בבעיה חמורה

4. הצגת התוצאות

הצגת הניתוח צריכה להיות נכונה מבחינה מדעית אך גם  מובנת וברורה ממבט ראשון, לכן בשלב הזה נשתמש בכלים גרפיים שיסייעו לנו לויזואליזציה של הנתונים.
דבר נוסף וחשוב הוא לבחון איך נוכל להשתמש בנתונים הקיימים לניתוחים נוספים אשר יוצגו בצורה שונה אך מעמיקה יותר וכך נבין מה יכולות המודל שלנו ומה מגבלותיו.
לכל מודל יש ייצוג רלוונטי שלו, ויהיה בהחלט נכון לבחון הצגה של אותו המודל בעבור כל ההרצות שביצענו על מנת שגם ברמה ויזואלית נוכל לראות את טיב המודל הסופי.

5. הטמעה

שלבים 2-4 צריכים לעבור בחינה מחודשת מספר רב של פעמים ובכל פעם נשפר במעט את הנתונים או את המודל או את עומק הבדיקה.
כל פעם נעמיק, נשפר ונטייב את המודל ועד להטמעת הפתרון בארגון. לצורך ההטמעה נעבוד עם קבוצות שונות בתוך הארגון להטמעת שימוש המודל והתוצאות שלו, התובנה והשפעה על הארגון.
בשלבים אלה נעבוד עם צוותי פיתוח, DEVOPS, מנתחי מערכות וכו’…

מסלול הכשרה Practical Data Science בנאיה קולג’

מסלול זה הוא המוביל והמתקדם ביותר מבחינה מקצועית והוא עונה באופן מלא על כל דרישות התעשיה,

מדריכי המסלול בנאיה קולג’ עם אנשי מקצוע מנוסים העובדים בתעשיה ובעלי יכולות, ידע וניסיון בתחום התכנות, בתחומים עסקיים מגוונים וכמובן – במתמטיקה.

הקורס בנוי מ-4 מודולים עיקריים.

מודול 1:

מודול התכנות.

הקורס של נאיה מתחיל מלימודי Python ותכנות בסיסי בשפה זו ומיועד לאנשים ללא רקע בתכנות כמו גם כאלה בעלי רקע.לאנשים רבים המעוניינים להכנס לתחום אין  רקע בפיתוח בכלל ובשפת פייתון בפרט, ולכן חשוב מאוד ללמד את השפה בצורה מדוקדקת ומעמיקה. לצידם, גם אנשים בעלי רקע בתכנות ימצאו את המודול הזה חשוב כיון שחשיפה שלהם לפייתון לפני כניסה ל- Machine Learning תאפשר להם יישור קו נכון ומעמיק ולמידה של יכולות השפה הרלוונטיות לצרכי ה-Data Science . בתום מודול זה הסטודנטים שלנו מומחים בפייתון עם התמחות מאוד ספציפית ל-Data Science.

מודול 2:

עבודה על נתונים – ארגז הכלים והתשתיות עבור Data Science

מודול 3:

מתמקד ב-Machine Learning והוא החלק החשוב ביותר בקורס.  בנאיה קולג’ אנחנו “זורקים” את הסטודנטים למים וחושפים אותם לכמה שיותר דוגמאות ובעיות שלא בהכרח פרופורציונליות לניסיון שיש להם. אנחנו מאמינים שזו הדרך למצוינות ולצמיחה המקצועית המיוחלת.

מודול 4:

עבודה מעשית ונושאים מהתעשיה הקשורים ל-Machine Learning:  טכנולוגיות כמו Spark, לצורך חקר Big Data, או למשל מבוא למנועי המלצות, ניתוח טקסטואלי, ו-NLP, חבילה לניתוח רגישות בטקסט ונושאים נופסים הקשורים בשימוש בתעשייה. במסגרת הקורס נעבוד על פרויקטים מאתר התחרויות העולמי – KaGGLE . פרויקטים אלה משמשים כבסיס לעבודה עצמית לביצוע פרויקטים של הסטודנטים אצלנו קורס ובכך הם מצליחים לממש את הניסיון שנרכש במהלך הקורס לאחר שנחשפו לנתונים אמיתיים. עבודה על תחרויות אלו הופכת את הקורס ליותר מעשי ופרקטי ומקרב את הסטודנטים לצרכים בתעשיה, כך שכל אחד שיוצא מהקורס ויוכל להציג בראיונות עבודה את “תיק העבודות” שיצר במהלך הקורס.

האם הקורס מקל על מציאת עבודה?

השוק צמא ל- Data Scientist, ומדעני הנתונים יכולים, כפי שציינו, להגיע מתחומים רבים ומגוונים. היכולות האישיות של המועמדים,
יחד עם הידע המקיף והרחב הניתן להם אצלנו בהכשרה, הם יתרונות משמעותיים בשוק. ההכשרה שלנו  מעניקה ידע בכלים ובטכנולוגיות מובילים ונדרשים,
והנסיון הפרקטי שצוברים הסטודנטים בנאיה מאפשר להם לצאת לדרך מוכנים.

מי יכול ללמוד בקורס ויצליח לעמוד במשימות ולעבור את ההכשרה?

מסלול ה- Data Science הוא כאמור המסלול המתקדם ביותר שלנו. על הסטודנטים להשתייך לאחת מ-3 הקבוצות הבאות:
1. מתמטיקאים וסטטיסטיקאים (כמו גם בוגרי מדעים מדויקים ומדעי המחשב) – הקורס יחדד עבורם את ההבנה הכללית של הכלים שהם כבר מכירים וייתן הבנה ופרקטיקה למשמעותם בעולם האמיתי.
2. מפתחים – בעלי יכולות תכנות המעוניינים ללמוד פייתון בצורה טובה יותר ולרכוש את כל היכולות האנליטיות.
3. אנליסטים ואנשי BI – אנשים בעלי נסיון בעולם הדאטה שרוצים לעשות את הצעד הבא

 

לצפייה בפרטי מסלול Practical Data Science

זה הזמן להשתדרג מקצועית ולהיכנס לקדמה הטכנולוגית לתחום החם של המאה 21!

נאיה קולג’ – המומחים לעולמות ה-Data.