Data Analysis – ניתוח נתונים | איך עושים זאת -חלק II

 

במאמר הקודם דיברנו על תחום ניתוח נתונים, שיטות וגישות שונות, תהליך ניתוח נתונים. במאמר הזה נדבר על כלים וטכנולוגיות שמסייעים בכל השלבים.

אנחנו יוצאים מנקודת הנחה שהנתונים קיימים כבר בארגון, ואין צורך לבצע סקרים פנים ארגוניים או חיצוניים כדי לאסוף נתונים. נתחיל דווקא מהטכנולוגיות והכלים המשמשים אנליסטים. בהתאם לשלב עבודה בתהליך ניתוח נתונים שתיארנו בואו נראה באיזה כלים משתמשים היום בתעשיה בארץ ובעולם.

שלב 1: הגדרת בעיה ואיסוף דרישות

בשלב הזה בעיקר מה שנדרש מאנליסט הוא חשיבה עסקית, היכרות טובה עם מטרות ארגוניות, תהליכים וגורמים רלוונטיים לקבלת החלטות. בשלב הזה עליכם לבצע בחינה עסקית ואנליטית על מנת להגדיר את שאלת המחקר. לרוב לא יהיה שימוש בכלים טכנולוגיים כלשהם בשלב הזה.

לפני שנרד לפרטים אודות שלב 2, חשוב לציין, במיוחד אם מדובר בכמות מאוד גדולה של נתונים, שלבים 2 ו-3 הינם חלק משמעותי בתהליך מתמשך של עיבוד נתונים – Data Processing. התהליך כולו יכול לקחת בין 60% ל-80% מהזמן.

שלב 2: איסוף נתונים

מקורות מידע בארגונים מאוד מגוונים. כפי ציינו במאמר הקודם, המלצה היא תמיד להתחיל לעבוד על איסוף נתונים ממקורות זמינים וקיימים.

בהתאם לסביבה טכנולוגיות הקיימת בארגון, אספו נתונים מובנים (Structured Data). המקורות הם בסיסי נתונים רלציוניים, מערכות תפעוליות, קבצים (אקסל, וורד, מיילים ועוד).

קראו עוד על סוגי בסיסי נתונים

לאחר מכן גשו לנתונים לא מובנים (Unstructured Data). בסביבת הביג דאטה אנחנו מדברים כבר על בסיסי נתונים NoSQL המחולקים למשפחות על בסיס אופי שמירת הנתונים וסוג הנתונים (משפחה של כלים לשמירת קבצים, משפחה של כלים אנליטיים, משפחה של מנועי חיפוש ועוד).

שפת SQL תסייע לכם לשלוף נתונים רלוונטיים מבסיסי נתונים, וכבר בשלב של איסוף אפשר לבצע מניפולציות על הדאטה עם פונקציות אנליטיות שונות.

קראו עוד על שפת SQL

לאחר שנאספו נתונים ממקורות פנימיים המשיכו לעבוד (בהתאם לצורך) עם מקורות חיצוניים, כגון אתרי אינטרנט (עבור לקוחות חיצוניים זהו אתר החברה או אתר המוצר, או עבור לקוחות פנים ארגוניים זה פורטל ארגוני, פורטל למידה), רשתות חברתיות (פייסבוק, לינקדאין, טוויטר ואחרים).

טכניקות לאיסוף נתונים ממקורות אלה הן חיבור דרך API או Web Scraping. הרבה פעמים שמירת נתונים מאתרי אינטרנט מתבצעת בקבצי JSON ובעבודה עם קבצים אלה תסייע לכם שפת Python.

שפת פייתון – Python – שימושית מאוד  במיוחד כשמדובר במקורות מידע כגון אתרי אינטרנט, או מערכות דאטה מתקדמות בסביבת Big Data. באמצעות השפה כיום ניתן לבצע את תהליך ניתוח הנתונים מקצה לקצה, היות שהשפה מאפשרת גם איסוף נתונים, גם אנליזה של נתונים וגם ויזואליזציות.

במאמר הזה תוכלו לקרוא יותר על שימושים של שפת Python בסביבת דאטה

כמובן שקיימים מצבים בהם אנליסטים לא עוסקים באיסוף נתונים (באמצעות כתיבת קוד) אלא מקבלים אותם מגורמים אחרים בארגון, כגון אנשי BI, או DBA, או שולפים את הנתונים הרלוונטיים ממערכות מידע שונות שיש להן אינטגרציה מלאה ובזמן אמת עם בסיסי נתונים ארגוניים. במקרים האלה איסוף נתונים מסתפק בשליפת דוחות סטטיים, הוצאתם לאקסל וניתוח בהמשך.

שלב 3: הכנת נתונים

השלב הזה הוא קריטי, מפני שעיבוד לקוי של נתונים ישפיע על תוצאות הניתוח ויוביל למסקנות לא נכונות. התוצר הינו קובץ נתונים המוכן לניתוח. השלב כולל ניקוי שגיאות, השלמת דאטה חסר, נרמול נתונים ועוד.

Raw Data, הנתונים שאספתם, זמין לשלב הכנה. בחנו מבנה של הנתונים, כמות שורות ועמודות, האם קיבלתם ערכים שגוים או שדות ריקים.

בשלב הזה אתם ממשיכים לעבוד עם שפת SQL, שפת Python. וגם מתחילים להיחשף ליישם טכניקות כגון  Feature Engineering אשר תומכות בתהליך הניתוח עצמו בהמשך (שלב 4).

כשיש לכם מעט נתונים אקסל בהחלט יכול לספק את הצורך ותוכלו לנקות את הדאטה באמצעות טכניקות שהכלי מציע.

שלב 4: ניתוח נתונים

הגענו לשלב היעד – ניתוח נתונים שאספתם והכנתם. קיים בשוק שפע של טכנולוגיות איתן אפשר לעבוד, אבל גם אין ספור כלים וטכניקות והעדפה לעבוד עם כלי כזה או אחר תלויה בהרבה גורמים.

  • איזה כלים יש בארגון שלכם
  • עד כמה קובץ הנתונים שלכם גדול, איזה סוג נתונים יש לכם
  • האם חשובה ויזאליזציה יפה בסוף או פחות
  • האם חשוב להציג דשבורד אינטרקטיבי או דוח סטטי
  • האם אנחנו מדברים על ניתוח מצב קיים או מתכוונים לספק חיזוי

ועוד המון גורמים שיכולים להשפיע על בחירת כלי/טכנולוגיה רלוונטי.

השלב הזה יכול להיעשות במספר דרכים:

  • אנליזה באמצעות כלי BI

נתחיל מאקסל שעוזר לנו בהרבה מקרים. כאמור אם לא מדובר בכמות עצומה של מידע, אם הנתונים יכולים להיות מוצגים בטבלה, אם אנחנו לא מחפשים הצגה אינטרקטיבית בניתוח – לכו על זה. ניתוח באמצעות Pivot Table יכול לתת מענה מעולה, שלא לדבר על יכולות BI שקיימות באקסל המאפשרות להעמיק בניתוח באמצעות הכלי.

כלים מתקדמים יותר מספקים תוצר הרבה יותר מעמיק, יודעים לעבוד עם כמות גדולה של נתונים, להתחבר לכל מקור מידע (כמעט) ומאפשרים לייצר תהליכים אוטומטיים. אלה כלי BI השכיחים ביותר בשוק, וביניהם PowerBI, Tableau, SAS, Qliksence, Sisence ועוד עשרות כלים שיש בשוק.

כלים אלה מאפשרים לכם לעבוד עצמאית ולבצע תהליך ניתוח נתונים מקצה לקצה, החל מיבוא נתונים (חיבור למגוון גדול של מקורות מידע), אינטגרציה של נתונים (כשאתם עובדים עם מספר מקורות מידע במקביל), בניית מודל נתונים התואם לשאלה עסקית, בניית דשבורד ויישום טכניקות ויזואליזציה מתקדמות ומאוד מרשימות.

עיינו ברשימת הקורסים שלנו והכשרות בתחום Data Analysis

הכלים יודעים לעבוד בסביבת הענן, להתעדכן באופן אוטומטי בפרקי זמן שתקבעו, מאפשרים לשתף דוחות עם גורמים רלוונטיים בארגון, ומאוד מתאימים עבור פעולות אנליזה יום-יומיות של מקבלי ההחלטות, ובעלי תקפידים שונים בארגונים שלאו דווקא יושבים תחת כותרת Data Analyst (אנשי שיווק, מכירות, תפעול, כלכלנים ואחרים).

  • בעבודה עם שפת Python או R אתם נכנסים לשלב EDA Exploratory Data Analysis

מדובר ביישום ספריות רלוונטיות שהשפות מציעות לביצוע אנליזה ומניפולציה על נתונים. שלא לדבר על יכולות השפה שמאפשרות את כל התהליך מהתחלה – מאיסוף הנתונים. אם בשלב הזה אתם מגלים שהדאטה שיש לכם אינו מספק, עליכם לחזור לשלב האיסוף. המשך טבעי של התהליך הזה יכול להיות תהליך של Machine Learning.

  • Data Mining כריית נתונים – תהליך של למידה מהדאטה שיש לנו

המטרה שלנו לזהות דפוס התנהגותי ספציפי בנתונים או לעשות חיזוי. כאן נראה יישום והרצת מודלים של Machine Learning, Deep Learning, יישום של כלים מתמטיים ושיטות סטטיסטיות וטכניקות רלוונטיות, ביניהם:

Feature Engineering,  Regression Analysis, Factor Analysis, Time Series Analysis, Clustering  Analysis, Anomaly Detection, Text Analysis, Decision Trees ועוד.

עמוד הקורס Practical Data Science 

עבודה עם כלים כגון שפת Python, שפת R לרוב מספקת את הצורך. לאחרונה התחילו לצאת לשוק כלים חדשים בתחום AI, אך עדיין נראה שאין יותר טוב מ”ללוש” את הדאטה בעצמכם ולהבין מה קורה מאחורי הקלעים ולהיות בעלי יכולת לקבל החלטה איזה אלגוריתם ליישם ומתי.

בסביבת ביג דאטה עיבוד נתונים בעיקר מתרחש בסביבת Spark שמסייעת בהרצת תהליכי ETL והכנת Data Pipeline וגם מאפשרת הרצה של מודלים של Machine Learning.

שלב 5: הדמיית (ויזואליזציה) נתונים

כלים שעבדנו איתם בשלב הקודם יסייעו לנו לעשות ויזואליזציה מתאימה.

גם שפות Python ו-R מספקות חבילות ייעודיות לויזואליזציה (כגון matplotlib ו-ggplot בהתאמה). אבל ללא ספק יכולות של כלי BI היום מעצימות את הצורך והעדפה לעבוד איתם בשלב של ויזואליזציה.

במאמר הבא (חלק III ) נסקור את הדרישות לתפקיד של אנליסט נתונים, וננסה לכסות כמה שיותר ואריאציות של הגדרת התפקיד הזה ושימוש בטכנולוגיות הרבות המזניקות את התפקיד הזה קדימה.

למעבר למאמר השלישי בסדרה לחצו כאן