data science - אחת ולתמיד כל התשובות שרצית לקבל

מאמר ותיק מ-2012, שפורסם ב-Harvard Business Review הגדיר את מקצוע ה-Data Scientist כ: “The Sexiest Job of the 21th Century“.
המאמר, שעשה אז רעש גדול, עורר עניין רב סביב התחום, כאשר בשנת 2016 זכה התפקיד להגדרה “התפקיד הטוב ביותר בארה”ב”. גם היום שומר המקצוע על זוהרו ונחשב לאחת המשרות המתקדמות והנחשבות בעולמות הדאטה. עם זאת, מדובר במקצוע מתקדם ולא קל, וכיום ישנו מחסור של 80% בתפקיד Data Scientist שמוביל לעלייה דרמטית בקצב גידול המועסקים.

לצפייה בקטלוג של קורסי Data Science

מה זה Data Science?

Data Science הינו הענף העוסק בתהליכים מתקדמים ומחקר מעמיק ליצירת ידע מתוך מידע.
הגדרה פשוטה זו שנויה במחלוקת, מאחר ומתאימה גם לתחום ה- BI וגם ל- Data Analysis. אז מה ההבדל? קשה לענות במסגרת הגדרה קצרה. אבל המהות היא החשובה – אנחנו אוספים מידע ומפיקים תובנות מהמידע הזה. בגדול, כל בעיה של Data Science מתחילה מלהבין את הבעיה ויש לנו סוגים שונים של בעיות.

מיהו ה- Data Scientist?

מקצוע מדען הנתונים עבר גלגולים רבים בשנים האחרונות וכיום, אין הגדרה חד משמעית למהו או מיהו Data Scientist.
באופן מסורתי, הדור הראשון של אנשי ה- Data Science היה בעיקר מתמטיקאים וסטטיסטיקאים, לרוב דוקטורנטים שהגיעו לאחר מחקר רציני באקדמיה, שהכירו באופן מעמיק את האלגוריתמים, ידעו לכתוב אותם, אך לא ממש ידעו כיצד להשתמש בהם כשמדובר בדאטה ארגוני ולא נטו מחקרי אקדמי.

הדור השני התרחב לכדי דור של מהנדסים בעלי רקע במתמטיקה, שלמדו את הנושא באוניברסיטה והחלו להתעסק בתחום. לאנשים אלה יכולות תכנות מעולות בד”כ והם מגיעים, בנוסף, עם רקע ברמות שונות בסטטיסטיקה, לרוב מתואר שני.

עיינו בסילבוס של מסלול ההכשרה המוביל שלנו לתפקיד בתחום Data Science

כיום, אנחנו עומדים בנפני מהפכה של הדור השלישי. הדרישה העצומה למדעני נתונים בשוק ובתעשייה מייצרת מצב בו גם אנשים מוכשרים מאוד מרקעים מגוונים יכולים לנצל את הכלים שנבנו במשך השנים על ידי הדור הראשון ואת התשתיות שיצר הדור השני. שפת פייתון למשל, והחבילות החדשות שהכניסה לתחום, מנגישות את העבודה בתחום ה- Data Science ומאפשרות לאנשי הדור השלישי להשתלב בו.

הרקעים השונים והיכולות המגוונות איתם מגיעים ה-Data Scientists היום לארגונים נותנת להם נקודת מבט רחבה יותר על צרכי הארגון ומאפשרת עבודת צוות מורכבת ושלמה. מה שהיה נחלת חברות הטכנולוגיה וההייטק בעבר, השתנה מאד בעידן הנוכחי והיום כמעט כל התעשיות נדרשות למדעני נתונים ומחוללות שינויים מהותיים מאוד. גם תחומים מסורתיים יותר, כתעשיית הרכב, תחום המשפט, החינוך, החקלאות והרפואה, מתחילים להשפיע ולהידרש לתחום.

למה ללמוד שפת פייתון (Python) ואיך לעבוד איתה על נתונים?

איזה תכונות ויכולות נדרשות ל- Data Scientist (מדען נתונים)?

איש ה-Data Science נדרש ליכולות והבנה ב-3 תחומים עיקריים:
הראשון – רקע מתמטי מאוד גבוהה ו/או הבנה בכלים סטטיסטיים. השני – יכולות תכנות גבוהות (יכולת להבין פרויקטים תכנותיים), והשלישי – היכרות עסקית מעמיקה עם תחום העיסוק, היכולת להבין את הבעיה הכלכלית, את תחום המדע וכדומה.

האם חייבים להיות סטטיסטיקאים כדי לעסוק ב- Data Science?

לא.
נכון שהכרות עם תחום הסטטיסטיקה היא חשובה מאד ותורמת רבות לעבודתו של ה-Data Scientist, אולם גם ללא ידע מעמיק אפשר להגיע רחוק בתחום. השלבים הראשונים של ההיכרות עם מודלים של חיזוי חשובים יותר מאשר הידע בסטטיסטיקה.

ומה הקשר בין Data Science לביג דאטה?

הרבה מאוד מבלבלים בין התחומים אולם התשובה היא שאין קשר בין השניים. Data Science עוסק במחקר על נתונים לצורך הפקת תובנות עסקיות. הביג דאטה הוא תחום שמתאר את כמויות הדאטה וסוג דאטה. לכן תהליכי Machine Learning יכולים לרוץ בכל סוג ארגון ולא רק בביג דאטה.

עדיין לא ברור? הנה סרטון שיעשה לכם קצת סדר:

מהם השלבים בעבודת Data Science?

לצורך ההמחשה והפשטה של ההסבר ניקח דוגמא של קביעת מחיר לדירה.
חברה מוסימת מעוניינת להשיק מוצר חדש – המערכת בה הלקוח יזין את נתוני הדירה שהיה רוצה לרכוש (גודל, מיקום, מאפיינים ספציפיים) והמערכת תקבע עבורו את המחיר באופן אוטומטי.

דוגמא מצוינת למערכת כזו הינה מערכת של סטארטאפ Zillow שעשתה מהפכה מטורפת בשוק הנדלן בארה”ב. מערכת זו לוקחת את הנתונים הגולמיים על הבית, מעבדת אותם ומספקת תחזית של מחיר הדירה, כאשר המטרה להיות כמה שיותר קרוב למחיר אמיתי. זהו סטארטאפ מאוד מצליח בארה”ב.

מה זה Machine Learning

איך למעשה ניגשים לבעיה כזו?

שלב הבנת הבעיה – השלב הקריטי בתהליך:

השלב הראשון ממנו מתחיל כל פרויקט הוא הבנת הצורך ומהות הבעיה עצמה. ישנן בעיות פשוטות ומורכבות יותר וכל סוג בעיה יגדיר את שלבי העבודה הבאים.

הצורך במקרה שלנו – לחזות את מחיר הדירה עם נתונים ספציפיים.

בתרחיש הפשוט – במידה ויש לנו מחירים של רוב הדירות בסביבה ונרצה לחזות מחיר של דירה ספציפית, נסתכל על המחירים של דירות בבניין, ואז נפעיל מודל פשוט של חישוב ממוצע מחירי הדירות שהשגנו.

בתרחיש המורכב – נרצה לחזות את מחיר הדירה על סמך שיקולים רבים נוספים וביצוע ניתוח מעמיק יותר.

איזה נתונים? בקביעת המחיר יהיה עלינו לקחת את כל הגורמים והנתונים האפשריים שיש על הסביבה והדירות ורק אז לחזות מחיר דירה. חלק מהנתונים יהיה לנו קשה לשקלל כיוון שאת חלקם קשה להשיג ולכמת (למשל מה התחושה של אנשים באזור הזה, איך נראית השכונה מבחינה אסטטית וכד’).

לצפייה בפרטי מסלול Practical Data Science

שלבים לאחר הבנת הבעיה:

מהם השלבים בעבודת Data Science

1. איסוף והכנת המידע

את המידע ניתן להשיג ממקורות שונים כגון: אינטרנט, כתבות, מאמרים, בלוגים ופורומים, גישה לבסיס נתונים שאליו מתחברים ושולפים את הנתונים, או קבצים ממקורות שונים. ברגע שאספנו את המידע הגולמי, נכין ו”ננקה” את הנתונים כך שנוכל לקבל תוצאות מיטביות מתחקורו.

2. בניית מודל

מטרת בניית המודל הינה לאפשר חיזוי נתונים על סמך נתונים קיימים. ברמה הבסיסית עבור הדוגמא לעיל, המודל יכול להיות ממוצע מחירי הדירות באותו הבניין, או הסביבה הקרובה ביותר.
גם חישוב ממוצע נחשב למודל, אומנם מאוד נאיבי, בסיסי ופשוט, אך לפעמים הוא מספק תוצאות הכי טובות. המודל יכול להיות מורכב מרמות שונות אבל בסופו של דבר המטרה לקחת את כל נתוני המקור שקיבלנו ולהוציא תחזית.
כאמור, כאשר נבין טוב מאוד מהי הבעיה נדע איזה מודל לבנות ואיך לבנות אותו.

3. תיקוף המודל

השאלה הפשוטה שעומדת בפנינו – האם המודל שלנו יכול לחזות בצורה טובה את המציאות? ולכן, האם ביצענו הרצה נוספת של המודל ושפרנו אותו? האם הוא משפר את החיזוי שלנו? מהו המדד שבאמת מצביע על טיב המודל? לכל סוג בעיה קיים מודל שמתאים לה – קיימים מדדים שמאפיינים את טיב המודל ואת המיקוד שלו. בנוסף, היות ואחרי השלב הראשון של הרצת המודל, אנחנו לא מקבלים אינדקציה אותנטית מספיק ליכולות של המודל לחזות נתונים בצורה טובה ביותר, ננסה לתקף את המודל ע”י השגת נתונים שלא היו בידנו לפני כן, עם פרמטרים דומים.
לצורך הדוגמא: ניקח נתונים עבור איזורי מגורים אחרים, נחזה את מחיר הדירה ונוודא שהתוצאה שמתקבלת אכן תואמת את המציאות.
היכולת לחזות נתונים שלא נחשפנו אליהם, הוא פרמטר מאוד חשוב בתהליך תיקוף המודל. אם נבנה מודל שיהיה נכון רק לנתונים הנוכחיים שלנו ולא לנתונים אחרים שנוכל להשיג בהמשך אנחנו בבעיה חמורה.

4. הצגת התוצאות

הצגת הניתוח צריכה להיות נכונה מבחינה מדעית אך גם מובנת וברורה ממבט ראשון, לכן בשלב הזה נשתמש בכלים גרפיים שיסייעו לנו לויזואליזציה של הנתונים. דבר נוסף וחשוב הוא לבחון איך נוכל להשתמש בנתונים הקיימים לניתוחים נוספים אשר יוצגו בצורה שונה אך מעמיקה יותר וכך נבין מה יכולות המודל שלנו ומה מגבלותיו. לכל מודל יש ייצוג רלוונטי שלו, ויהיה בהחלט נכון לבחון הצגה של אותו המודל בעבור כל ההרצות שביצענו על מנת שגם ברמה ויזואלית נוכל לראות את טיב המודל הסופי.

5. הטמעה

שלבים 2-4 צריכים לעבור בחינה מחודשת מספר רב של פעמים ובכל פעם נשפר במעט את הנתונים או את המודל או את עומק הבדיקה. כל פעם נעמיק, נשפר ונטייב את המודל עד להטמעת הפתרון בארגון. לצורך ההטמעה נעבוד עם צוותים אחרים בתוך הארגון להטמעת שימוש המודל והתוצאות שלו, התובנה והשפעה על הארגון. בשלבים אלה נעבוד עם צוותי פיתוח, DEVOPS, מנתחי מערכות וכו’.

במאמר הבא קראו עוד דוגמא למימושים של Data Science:

איך Machine Learning מסייע במהפכת זיהוי התנהגות הלקוח?

מסלול הכשרה Practical Data Science בנאיה קולג’

מסלול זה הוא המוביל והוותיק ביותר בישראל ועונה באופן מלא על כל דרישות התעשיה. מדריכי המסלול בנאיה קולג’ עם אנשי מקצוע מנוסים העובדים בתעשיה ובעלי יכולות, ידע וניסיון בתחום התכנות, בתחומים עסקיים מגוונים וכמובן – במתמטיקה.

הקורס בנוי מ-4 מודולים עיקריים.

מודול 1:

מודול התכנות.

הקורס של נאיה מתחיל מלימודי Python ותכנות בסיסי בשפה זו ומיועד לאנשים ללא בתכנות פייתון אבל עם רקע תכנותי בשפות אחרות. לאנשים רבים המעוניינים להכנס לתחום אין רקע בפיתוח בכלל ובשפת פייתון בפרט, ולכן חשוב מאוד ללמד את השפה בצורה מדוקדקת ומעמיקה. לצידם, גם אנשים בעלי רקע בתכנות ימצאו את המודול הזה חשוב כיון שחשיפה שלהם לפייתון לפני כניסה ל- Machine Learning תאפשר יישור קו נכון ומעמיק ולמידה של יכולות השפה הרלוונטיות לצרכי ה-Data Science . בתום מודול זה הסטודנטים שלנו מומחים בפייתון עם התמחות מאוד ספציפית ל-Data Science.

מודול 2:

עבודה על נתונים – Exploratary Data Analysis – EDA – זהו שלב בו נתחיל לעבוד על דאטה עם שפת פייתון ונכיר את החבילות הרלוונטיות המאפשרות תהליך אנליזה על דאטה מקצה לקצה – בדומה לתפקידו של דאטה אנליסט.

מודול 3:

מתמקד ב-Machine Learning והוא החלק החשוב ביותר בקורס. השלב הזה – הליבה של הקורס – בונה יסודות חזקים להרצת פרויקט Data Science מקצה לקצה. תלדמו להגדיר סוג בעיה, לבחור מודלים רלוונטיים לסוג בעיה ותוך כדי תרכשו את הכלים הרלוונטיים להובלת תהליך Data Processing – עיבוד נתונים – שיאפשר להכין את הדאטה להרצה של המודלים הרלוונטיים.

מודול 4:

עבודה מעשית ונושאים מהתעשיה הקשורים ל-Machine Learning: טכנולוגיות כמו Spark, לצורך חקר Big Data, או למשל מבוא למנועי המלצות, ניתוח טקסטואלי, ו-NLP, חבילה לניתוח רגישות בטקסט ונושאים נוספים הקשורים לשימוש בתעשייה. במסגרת הקורס נעבוד על פרויקטים מאתר התחרויות העולמי – KaGGLE . פרויקטים אלה משמשים כבסיס לעבודה עצמית ובכך הסטודנטים מצליחים לממש את הניסיון שנרכש במהלך הקורס לאחר שנחשפו לנתונים אמיתיים. עבודה על תחרויות אלו הופכת את הקורס ליותר מעשי ופרקטי ומקרב את הסטודנטים לצרכים בתעשיה, כך שכל אחד שיוצא מהקורס ויוכל להציג בראיונות עבודה את “תיק העבודות” שיצר במהלך הקורס.

עדיין מסתבכים עם המונחים? קראו עוד על התחום:

Artificial Intelligence Vs. Machine Learning – בואו נעשה סדר במונחים

האם הקורס מקל על מציאת עבודה?

השוק צמא ל- Data Scientist, ומדעני הנתונים יכולים, כפי שציינו, להגיע מתחומים רבים ומגוונים. היכולות האישיות של המועמדים, יחד עם הידע המקיף והרחב הניתן להם אצלנו בהכשרה, הם יתרונות משמעותיים בשוק. ההכשרה שלנו מעניקה ידע בכלים ובטכנולוגיות מובילים ונדרשים, והנסיון הפרקטי שצוברים הסטודנטים בנאיה מאפשר להם לצאת לדרך מוכנים.

מי יכול ללמוד בקורס ויצליח לעמוד במשימות ולעבור את ההכשרה?

מסלול ה- Data Science הוא כאמור המסלול המתקדם ביותר שלנו. על הסטודנטים להשתייך לאחת מ-3 הקבוצות הבאות:
1. בוגרי מדעים מדויקים ומדעי המחשב – הקורס יחדד עבורם את ההבנה הכללית של הכלים שהם כבר מכירים וייתן הבנה ופרקטיקה למשמעותם בעולם האמיתי.
2. מפתחים – בעלי יכולות תכנות ועם נסיון בעולמות הדאטה המעוניינים ללמוד פייתון בצורה טובה יותר ולרכוש את כל היכולות האנליטיות.
3. אנליסטים ואנשי BI – אנשים בעלי נסיון בעולם הדאטה שרוצים לעשות את הצעד הבא

Data Science – כל מה שרצית לדעת ויותר