הצורך להתמודד עם כמויות גדולות של מידע הוליד בשנים האחרונות תפקידים רבים והתמחויות שונות כגון ה-Data Analyst, ה-Business Intelligence וה-Big Data. עם זאת, היכולת לשלב בין כל אלו ולהוסיף עליהם נדבך ייחודי של חיזוי, נותרה נחלתם של מעטים, ובשנים האחרונות ביסס עצמו ה-Data Scientist – מדען נתונים כ”מקצוע הנחשק ביותר של המאה ה-21″.
Data Science – תחום המשלב בין יכולות אנליטיות מבוססות מודלים סטטיסטיים, מודלים מתמטיים, יכולות תכנות ויכולת טיפול בנתונים מובנים ולא מובנים במטרה להפיק תובנות יחודיות ולזהות דפוסי התנהגות ייחודים ולחזות התנהגותם בעתיד. יתרה מזה, לעומת תחום BI אשר נותן מענה לשאלות כמו כמה ומתי, הרי שהתחום Data Science מנסה לברר את הסיבה שהמספרים נראים כמו שהם נראים, או בפשטות, מענה לשאלה ה”למה”.
למעשה, תפקידו של מדען הנתונים – Data Scientist – הינו לבצע מחקרי מידע מעמיקים בכדי להפיק תובנות עסקיות לארגון, לטייב ולסדר את המידע המשמש למחקרים השונים, להפעיל אלגוריתמים של מידול, כריית מידע ו-Machine Learning, ולסייע בבניית תהליכי הכנת המידע ואופטימיזציה של האלגוריתמים השונים. הכישורים הנדרשים מ-Data Scientist רבים ומגוונים ומתמקדים בארבע שלבים עיקריים של עבודה עם המידע:
- השגת המידע – אינטגרציה של המידע מכמה מקורות, מכמה סוגי קבצים, יכולת עבודה עם כמויות גדולות של מידע (Big Data)
- חקירת המידע – ניתוח המידע באמצעות שפת תכנות, בניית מודלים ואלגוריטמים, ניתוח סטטיסטי
- ניתוח אנליטי של המידע – יכולות של חיזוי, כריית מידע, אופטימיזציה, עיבוד מידע טקסטואלי ואנליזה של נתונים גדולים
- הצגת המידע – יכולות של הצגת תוצרי מידע ויכולות ויזואליזציה שונות
על כן אנחנו נראה ש-Data Scientist אמור להיות בעל ידע בתחומים רבים וביניהם:
- סטטיסטיקה
- מתמטיקה (כולל אלגוריתמים)
- תורת המשחקים
- כלי Data Mining – ביניהם SPSS או SAS, או SSAS
- Machine Learning
- לפחות אחת משפות התכנות – Python, R
- טכנולוגיות NoSQL – כגון Hadoop, MongoDB, Cassandra
- ידע ונסיון בעבודה מול מסדי נתונים רלציוניים – MSSQL, MySQL, Oracle
כל זה מלווה בחשיבה אנליטית, אינטואיציה עסקית, ומעל לכל – סקרנות ויצירתיות. זאת גם הסיבה שלא קיים כיום רקע אחיד לכל העוסקים בתחום, ונראה כי רקע מגוון דווקא תורם ליכולת לשים לב לפרטים וקשרים שונים ומפתיעים.