Data Analysis | איך עושים את זה נכון – חלק I

 

אנחנו יוצאים עם סדרה של 4 מאמרים בהם נתאר את התחום של ניתוח נתונים, עבור מי זה מתאים, נדבר על כלים וטכנולוגיות השימושיים בתחום ונסקור תפקידים שונים שמשלבים ניתוח נתונים וכמובן נתמקד בתפקידו של דאטה אנליסט – Data Analyst. לפניכם המאמר הראשון בסדרה.

עבור מרבית חברות והגופים הממשלתיים/ציבוריים, היעדר נתונים אינו מהווה בעיה. אך למעשה, המצב הוא הפוך: לרוב יש יותר מדי מידע בכדי לקבל החלטה ברורה. במצב הזה ניתוח נתונים הופך להיות תחום ליבה כמעט בכל ארגון. התפתחויות בתחום אנליזה מושפעות ממספר רב של גורמים וכיום כמעט לכל תפקיד בארגון יש נגיעה בנתונים.

ריבוי נתונים, התפתחות טכנולוגית, שפע של שאלות עסקיות מפשוטות ועד מורכבות, דרישה להנגשת נתונים, צורך להפעיל ויזואליזציות מעניינות ונוחות למשתמש, כל אלה גורמים לתחום ניתוח נתונים לתפוס מקום מרכזי בארגונים, להקים מחלקות של אנליזה, להגדיר תפקידים חדשים להשריש מדיניות של קבלת החלטות על בסיס ניתוח מידע ארגוני.

אם החברה לא נמצאת בצמיחה, אחד הדברים הקריטיים שיש לעשות הוא להביט לאחור, להכיר בטעויות ולבצע שינויים בתוכנית כדי לא לחזור על הטעויות הללו. איך עושים זאת? חד משמעית אוספים נתונים ומנתחים אותם. אם העסק בצמיחה, יש להסתכל קדימה ולגרום לעסק לצמוח יותר. וגם כאן כל מה שעל הארגון לעשות הוא לנתח את הנתונים ואת התהליכים העסקיים.

ניתוח נתונים מתחיל בצורה בסיסית ביותר במחלקות תפעוליות של הארגון (תפעול, רכש, מכירות, שיווק, פיננסי ועוד) כאשר במסגרת התפקיד מנתחים נתונים בעיקר ולרוב באמצעות אקסל.

בכלל, תוכנת אקסל הייתה ותישאר כלי ניתוח השכיח ביותר בניתוח נתונים. מדובר בכלי זמין ונוח לעבודה ולא דורש מאמצים גדולים כדי ללמוד להתשמש בו. גם באמצעות אקסל אפשר לעשות ניתוחים מורכבים יחסית, להריץ ניתוחים בעלי אופי BI, להתחבר למקורות מידע מגוונים ולנתח כמות יחסית גדולה של נתונים.

אבל מה קורה כאשר מדובר בכמות מאוד גדולה של נתונים (כאשר אקסל קורס), או כאשר יש לנו מקורות מידע אליהם אקסל לא יכול להתחבר, או כאשר יש צורך לנתח נתונים לא טבלאיים (כמו נתוני ביג דאטה), או כאשר יש צורך להפעיל טכניקות ושיטות סטטיסטיות וניתוח נתונים הופך להיות בעל אופי מחקרי?

בארגון עתיר דאטה אשר עובד בסביבה טכנולוגית מורכבת ומתקדמת, נדרש לנתח נתונים בזמן אמת וגם לספק תוצאות בזמן אמת. אנחנו מגיעים למצב בו תחום ניתוח נתונים יוצא מגבולות אקסל ודורש שימוש בכלים מתקדמים ועולה צורך בתפקיד יעודי לניתוח נתונים – אנליסט נתונים – Data Analyst.

מה זה Data Analysis?

דובר לא מעט על זה, גם במאמרים הקודמים שלנו. אבל בואו בקצרה רק נזכיר.

ניתוח נתונים משמש ארגונים רבים כדי לעזור לקבל החלטות עסקיות טובות יותר. בין אם מדובר במחקר שוק, מחקר מוצרים, ביקורות לקוחות, ניתוח סנטימנט או כל נושא אחר שעבורו קיימים נתונים, ניתוח נתונים יספק תובנות שארגונים זקוקים להן בכדי לבצע את הבחירות הנכונות.

בחירת דרך פעולה המונעת נתונים – Data Driven Decision – היא הדרך היחידה כדי להיות בטוחים שהתקבלה החלטה נכונה. חלק מהחלטות מתקבלות על בסיס אינטואיטיבי או מתוך נסיון, יחד עם זאת כמעט כל ההחלטות העסקיות המצליחות מבוססות נתונים.

קראו מאמר שמתאר בהרחבה מהו תפקידו של Data Analyst 

שיטות וגישות בניתוח נתונים

המתודולוגיה של ניתוח נתונים מתייחסת לשיטת ניתוח נתונים, גישות הניתוח בהתאם לשאלות ודאטה, שימוש בטכניקות רלוונטיות בהתאם וסדר השלבים בתהליך עצמו.

אנחנו נדבר על התהליך בהמשך, אבל בואו נסקור קודם את השיטות והגישות העיקריות בניתוח נתונים המספקות מענה לסוגים שונים של שאלות עסקיות.

שיטות בניתוח נתונים:

  • ניתוח איכותני

שיטה זו עונה על שאלות כגון “מה”, “מדוע” ו”איך”. כל אחת מהשאלות הללו מטופלות ע”י איסוף מידע איכותני מילולי באמצעות שאלונים, ראיונות, קטעי וידאו, תצפיות וסקרים. נתוני איכות מייצגים כל מה שמתאר טעם, חוויה, דעה. נתונים אלה קשה יותר לנתח במיוחד לשם השוואה. בשיטה זו נראה שימוש בטכניקות ניתוח טקסטים (Text Analysis).

  • ניתוח מספרי

כל הנתונים שמוצגים במספרים מיועדים לניתוח בשיטה זו. נתונים אלה ניתן להציג לפי קטגוריות, קבוצות, להגדיר מדדים, לבצע חישובים ולתת דירוג. נתונים מספריים יכולים להיות  גיל, דרגה, עלות, אורך, משקל, ציונים וכו’. ניתן להציג נתונים כאלה בפורמט גרפי, תרשימים או להחיל שיטות ניתוח סטטיסטיות על נתונים אלה.

בהתאם לסוג נתונים שברשותכם ושאלה עסקית, ניתן להחליט לגבי גישת ניתוח נתונים (במאמר הבא נתקדם לטכניקות רלוונטיות).

  • Descriptive Analysis – ניתוח תיאורי: ניתוח נתונים תיאורי מסתכל על נתוני העבר (מלאים או מדגם) ומספר מה קרה. גישה זו שימושית כאשר בוחנים מדדי KPI – Key Performance Indicators, ניתוח של הכנסות, לידים במכירות ועוד. לרוב נראה הצגה של ממוצע, סטייה, מגמה של נתונים רצופים ו/או תדירות עבור נתונים קטגוריאליים.
  • Diagnostic Analysis – ניתוח מבחין: ניתוח נתונים מבחין נועד לקבוע מדוע קרה משהו. ברגע שהניתוח התיאורי מראה תוצאה שלילית או חיובית לתרחיש מסוים, ניתן לבצע ניתוח מבחין כדי להבין את הסיבה. לדוגמא, חברה יכולה לראות עליה בכמות הלידים בחודש מסוים ותשתמש בניתוח מבחין כדי לקבוע אילו מאמצי שיווק תרמו הכי הרבה. נראה שימוש בטכניקות סטטיסטיות לזיהוי דפוסים ספציפיים בדאטה (Patterns Recognition) ואפשר יהיה להשתמש בתובנות אלו עבור דאטה חדש עם בעיה דומה.
  • Predictive Analysis – חיזוי: ניתוח נתונים זה מנבא מה צפוי לקרות בעתיד. בניתוח מסוג זה המגמות נגזרות מנתוני העבר ומשמשות ליצירת תחזיות לגבי העתיד. לדוגמה, כדי לחזות את הכנסות השנה הבאה, ינותחו נתונים משנים קודמות. אם ההכנסות עלו 20% בכל שנה במשך שנים רבות, היינו חוזים שההכנסות בשנה הבאה יהיו גבוהות ב- 20% לעומת השנה. זו דוגמה פשוטה, אך ניתן ליישם ניתוח זה בנושאים מורכבים הרבה יותר כמו הערכת סיכונים, נטישת לקוחות/עובדים או איכות הלידים. חשוב לזכור שהחיזוי הוא רק הערכה, וטיב החיזוי תלוי בכמות הנתונים שיש, עד כמה המידע מפורט ועד כמה מעמיק היה הניתוח של הנתונים הקיימים.
  • Prescriptive Analysis – ניתוח מרשם: ניתוח זה משלב את המידע שנמצא משלושת הסוגים הקודמים של ניתוחים ויוצר תוכנית פעולה עבור הארגון להתמודדות עם הסוגיה או ההחלטה. מרבית החברות המונעות נתונים משתמשות בניתוח מרשם מכיוון שניתוח חזוי ותיאורי אינם מספיקים כדי לשפר את ביצועי הנתונים. השאלה שנעלה כאן היא איזה פעולה עלינו לנקוט על מנת לשפר את ההחלטה או להשיג תוצאה רצויה לעומת המצב הקיים.

 היכנסו לעמוד הקורס  – Data Research Analyst 

מהו תהליך ניתוח הנתונים?

עם כל כך הרבה נתונים אנחנו צריכים להפיק את המירב והמיטב. אבל כדי להגיע לנקודה הזו אנחנו צריכים לדעת שמדובר בנתונים נכונים כדי לענות על השאלה הספציפית, להסיק מסקנות מדויקות מהנתונים האלה, ולוודא שכל התהליך הזה תומך בקבלת החלטות נכונות.

תהליך ניתוח הנתונים אינו אלא איסוף מידע באמצעות יישום או כלי מתאים המאפשר לכם גם לחקור את הנתונים ולמצוא בהם דפוסים ספציפיים. בהתבסס על מידע ונתונים אלה, ניתן לקבל החלטות. אלה הם שלבי עבודה עיקריים:

1. Data Requirement Gathering – הגדרת בעיה ואיסוף דרישות

הגדרת הבעיה או שאלה עסקית היא שלב קריטי. השאלה צריכה להיות מדידה, ברורה ומדויקת. עליכם לאסוף דרישות מגורמים שונים בתוך הארגון. בשלב זה עליכם להחליט איזה נתונים אתם צריכים על מנת לענות על השאלה ואיך למדוד אותם. בחינה והגדרת דרך המדידה חשובה לא פחות במיוחד לפני שלב איסוף נתונים. תעלו שאלות רלוונטיות, כגון מהי מסגרת הזמן שלכם? (למשל, עלויות שנתיות לעומת עלויות רבעוניות); מהי יחידת המידה? (למשל שקל לעומת יורו);  אילו גורמים יש לכלול? (למשל, רק שכר שנתי או שכר שנתי בתוספת בונוסים) ועוד.

2. Data Collection – איסוף נתונים

כשהבעיה מוגדרת בצורה ברורה ודרך המדידה נקבעה, הגיע השלב של איסוף נתונים. תהליך זה יכול להיות מאתגר מאוד, שכן אתם עשויים להימצא בסביבה של מקורות מידע רבים ומגוונים, עם כמויות גדולות של נתונים.

הדיוק והבנה טכנית באשר למקורות מידע והמבנה שלהם מאוד חשובים כדי לא להגיע למצב של בחירת מקור נתונים שאינו אמין, או להחמיץ מקורות נתונים חיוניים שצריכים להיות חלק מהמחקר. ללא ספק, נתונים אמינים ומלאים נחוצים לניתוח נתונים מדויק.

לא פחות חשוב לבצע מספר צעדים תוך כדי התהליך:

  • לפני שתתחילו באיסוף נתונים, קבעו איזה מידע ניתן לאסוף ממאגרי נתונים או מקורות קיימים העומדים לרשותכם. התחילו מנתונים אלה.
  • קבעו דרך נכונה של אחסון הנתונים. שמירת קבצים, מיקום קבצים, סדר לוגי בשמירת הקבצים, קבעו מראש שמות הקבצים כדי לעזור לכל חברי הצוות שיעבדו עמכם בשיתוף פעולה. תהליך זה חוסך זמן ומונע מחברי הצוות לאסוף את אותו מידע פעמיים.
  • אם צריך לאסוף נתונים באמצעות תצפיות או ראיונות, הגדירו תבנית ראיונות מראש כדי להבטיח עקביות ולחסוך זמן.
  • שמרו את הנתונים הנאספים בצורה מסודרת ומאורגנת, עם תאריכי איסוף והוסיפו הערות רלוונטיות. כל זה מאמת את מסקנותיכם בהמשך הדרך.

3. Data Cleaning – ניקוי נתונים

אתם עלולים לגלות שכל הנתונים שנאספו עד כה לא שימושיים, חלקם יהיו לא רלוונטיים למטרת הניתוח, ולכן יש לנקות אותם. הנתונים שנאספים עשויים להכיל רשומות כפולות, רווחים מיותרים או שגיאות. זהו שלב מקדים לניתוח נתונים כדי שתוצאת הניתוח תהיה קרובה יותר לתוצאה הצפויה.

4. Data Analysis – ניתוח נתונים

סוף סוף הגעתם לשלב הניתוח. התחילו עם מניפולציות על דאטה במספר דרכים, כגון מיון וסידור, קיבוץ לפי פלחים רלוונטיים, מציאת מתאם. אם אתם עובדים עם אקסל – במקרה הזה הכי נוח לייצר טבלאות ציר – PivotTable – המאפשרת למיין ולסנן נתונים לפי משתנים שונים, חשבו את הממוצע, המקסימום, המינימום וסטיית התקן.

המצב האידאלי תוך כדי מניפולציות על נתונים הוא לגלות שיש לכם את הנתונים המדויקים ביותר, אך לרוב דווקא תגלו שהנתונים אינם שלמים או מדויקים, שלב הניקוי אינו מספיק ועליכם לחזור לשלב האיסוף או אף מוקדם יותר – לשלב הגדרת השאלה.

תוכלו להשתמש בכלי ניתוח נתונים שונים (אקסל הוא הבסיסי ביותר מביניהם), חלקם חזקים בויזואליזציה, חלקם בניתוחים סטטיסטיים, חלקם מעבדים נתוני ביג דאטה. כך או אחרת, עבודה קשה של ניתוח נתונים משתלמת בהמשך כדי להתקדם לשלבים הבאים: להבין, לפרש ולהפיק מסקנות על בסיס הדרישות.

היכנסו לעמוד הקורס – Practical Data Science

5. Data Interpretation – פירוש תוצאות הניתוח

לאחר ניתוח הנתונים הגיע הזמן לפרש את התוצאות. שאלו את עצמכם מספר שאלות עיקריות:

  • האם הנתונים עונים על השאלה המקורית ואיך?
  • האם הייתה מגבלה בניתוח שתשפיע על מסקנות?
  • האם הניתוח מספיק כדי לעזור בקבלת ההחלטות?

בשלב הזה עליכם להחליט לגבי הדרך המתאימה כדי להנגיש ולתקשר את התוצאות בהמשך: הסבר מילולי, טבלאות, גרפים ותרשימים. כאן תוכלו להחליט מהי טכניקת ויזואליזציה המתאימה ביותר.

6. Data Visualization – הדמיית (ויזואליזציה) נתונים

קיים מבחר עצום של טכניקות הדמיית הנתונים, המטרה העיקרית להסביר את התוצאות של הניתוח בדרך נוחה וכזו שבאמת תסייע בהפקת תובנות וקבלת החלטות עסקיות בהמשך.

או

במאמר הבא (חלק II) נסקור טכניקות של ניתוח נתונים, וכלים שימושיים.

להמשך למאמר השני בסדרה לחצו כאן.