במאמרים הקודמים סקרנו את תחום ניתוח נתונים וסוגי תפקיד של Data Analyst שארגונים מחפשים.
Data Analysis | איך עושים את זה נכון – חלק I
Data Analysis – ניתוח נתונים | איך עושים זאת -חלק II
Data Analyst – אנליסט נתונים | פנים רבות לתפקיד אחד – חלק III
הפעם אנחנו נדבר על אלמנט שנוסף לתפקיד של Data Analyst בשנים אחרונות, והוא המחקר – Research.
תפקידו של אנליסט נתונים הופך להיות יותר ויותר מורכב, גם בשל התפתחויות טכנולוגיות אבל גם כי השאיפה של החברות, במיוחד חברות הייטק, היא שאנליסטים יעבדו עם כמה שיותר כלים בכדי לספק תמונה רחבה, שיהיו מסוגלים להוביל תהליך של מחקר וגם ניתוח נתונים מקצה לקצה, ושירגישו חופשי בסביבה טכנולוגית מורכבת ומתקדמת. בין היתר על אנליסט להיות בעל יכולות תכנות גבוהות שכן שפת תכנות כמו Python בהרבה מקרים הופכת להיות כלי עבודה מרכזי.
לינק לקורס Python for Data Analyst
במאמרים הקודמים דיברנו בהרחבה על תחום ניתוח נתונים, והפעם אנחנו עולים עוד רמה ומציגים דרישה נוספת – יכולת להוביל מחקר.
תחום מחקר יצא מגבולות האקדמיה וכיום חברה עתירת דאטה שואפת לא רק לנתח נתוני העבר למתן תמונת מצב, לא רק לספק חיזוי, אלא גם להתעמק עוד יותר בנתונים, לחקור אותם ולזהות דפוסים ספציפיים ואף להגדיר בהתאם לכך את השאלה העסקית לניתוח, ולהעמיק עוד יותר בתהליך של Data Processing וניתוח עצמי של הנתונים.
כך שתפקידו של אנליסט היום משלב גם מחקר נתונים וגם ניתוח נתונים.
כדי להוביל מחקר יש ליישם שיטות סטטיסטיות ולמידת מכונה – Machine Learning לצד יכולות טכניות בעבודה עם הכלים שדיברנו עליהם קודם, כמו SQL, Python, ביג דאטה. אנליסט למעשה מסוגל להסתכל על דאטה ממספר כיוונים, ולהפעיל טכניקות שונות וכלים שונים בהתאם למצב.
כדי להוביל ניתוח נתונים אנליסט משתמש בשלל BI מגוונים החזקים גם בוויזואליזציה, התומכים בכל התהליך, החל מאיסוף נתונים, דרך עיבוד נתונים, אנליזה, ועד ליישום טכניקות ויזואליזציה שונות.
מבחינת התארים האקדמיים לרוב הדרישה הינה לתחומים: מדעי מחשב, סטטיסטיקה, מתמטיקה, פיזיקה ותחומי הנדסה השונים.
בהתבסס על הנתונים הקיימים בארגון על האנליסט “לספר סיפור” או לפתור בעיה. אבל מה קורה כאשר לא הוצבה בפניכם שאלה עסקית/שאלת מחקר?
במקרה הזה ניגשים אל דאטה מכיוון אחר. חוקרים את הנתונים הקיימים ואז, בלי קשר לסוג הדאטה שיש לכם, אתם מגלים דפוסים מעניינים ששווים את המאמץ ומאפשרים להגדיר שאלת מחקר. אתם בתהליך הגישוש.
איך ניגשים לזיהוי דפוסים בתהליך המחקר?
כאשר אנחנו מדברים על מחקר איכותי (טקסטים ולא מספרים) למרות שישנן מספר דרכים למצוא דפוסים בנתונים הטקסטואליים, הטכניקה העיקרית היא מחקר מילים – לקרוא את הטקסטים ולחקור מילים חוזרות, מילים נפוצות, מילים חריגות.
כאשר אנו ניגשים לנתונים מספריים, יישום של טכניקות ושיטות סטטיסטיות הוא השימושי ביותר. ניתוחי תדירות, פיזור דאטה, שונות, הסקה סטטיסטית, מבחני השערה. כל אלו הן שיטות ניתוח מתוחכמות המשמשות כדי להציג את הקשר בין משתנים שונים במקום לתאר משתנה יחיד.
שיקולים בניתוח נתונים במחקר:
- על החוקרים להיות בעלי הכישורים הדרושים גם לניתוח הנתונים. רק ידע בסטטיסטיקה אינו מספיק, אלא צריכים להפגין יכולות טכניות נוספות על מנת לתת מענה לכל השלבים של ניתוח נתונים. על הידע הנדרש דיברנו במאמר קודם.
- שיטות מחקר וניתוח נתונים שונים זה מזה, ולכן עבודה צמודה לסטטיסטיקאי בארגון יכולה לסייע לכם בהגדרת דרך נכונה למחקר.
- בתהליך המחקר, כאשר הגדרת הבעיה היא המטרה העיקרית שלכם, בנוסף לשימוש בשיטות סטטיסטיות, יש לשקול שימוש בכלים נוספים שיכולים לספק תמונה רחבה יותר.
- מטרת המחקר והניתוח היא להפיק תובנות הטובות והנכונות ביותר. ולכן חשוב לזכור שכל טעות באיסוף נתונים או הבנה לא מספקת ולקויה לגבי הדאטה והאופי שלו עלולים להוביל לתוצאות מטעות.
מסלול הכשרה Data Research Analyst בנאיה קולג’.
המסלול הייחודי שלנו נבנה במטרה להעניק ידע וכלים רלוונטיים לתפקיד של אנליסט נתונים, שיהיה מסוגל לענות לדרישות משרה זו בחברות מגוונות.
אנחנו מתחילים בחיזוק יכולות כתיבה בשפת SQL למטרות שליפת נתונים ועיבוד ראשוני.
לאחר מכן נצלול לכלי BI מוביל בתעשיה, במיוחד חברות הייטק, Tableau שיסייע לכם להוביל תהליך ניתוח וויזואליזציה של נתונים, תוך כדי הבנה מעמיקה באינטגרציה של נתונים, בבניית מודל נתונים, חישובים מתקדמים וויזואליזציה ברמה גבוהה.
לאחר מכן ניכנס לשפת Python במסגרת מודול ממושך, תוך כדי התייחסות לא רק לכתיבת קוד, אלא גם לימוד של ספריות פייתון למניפולציה ועיבוד נתונים ואת הספריות שימושיות לויזואליזציה. מטרת המודול לספק רמה גבוהה של ידע בתהליך EDA.
עד לשלב הזה אתם יודעים לשלוף נתונים ולנתח אותם. כעת בואו נתבונן בהם מנקודת מבט שונה, ונתייחס לטכניקות ושיטות סטטיסטיות השימושיות ביותר בארגונים. הדגש הוא באמת על עבודה בסביבה ארגונית, עם בעיות עסקיות אמיתיות ודאטה אמיתי, ולא מנקודת מבט של סטטיסטיקה כמדע מה שמקובל באקדמיה.
אחרי שריעננו ידע בתחום סטטיסטיקה ולמדנו ליישם מחקר סטטיסטי על הדאטה הארגוני, בואו נבין מה זה Machine Learning, מהו התהליך ש-Data Scientist בארגון שלכם עושה, ממה הוא מורכב, מה זה מודלים ואיזה סוגים של מודלים הם השימושיים ביותר בחברות. מטרת המודול לייצר תשתית טובה ושפה משותפת לעבודה עם Data Scientists בחברה.
ולבסוף נחשוף אתכם לעולם הביג דאטה ונלמד לנתח נתוני ביג דאטה בסביבה המובילה בעולם – Hadoop. נלמד איך לשלוף נתוני ביג דאטה, איך לנתח אותם ואיך להציג.
מסלול הזה מכיל תרגול רב במהלך השיעורים, מבוסס Use Cases רבים, ומכיל 5 פרויקטים שתוכלו להתנסות באופן עצמאי ולהתמודד עם בעיות ואתגרים במחקר וניתוח נתונים.