Data Analysis – בואו נעשה סדר -חלק II

 

במאמר הקודם דיברנו על תחום ניתוח נתונים, על השיטות והגישות השונות ועל תהליך ניתוח הנתונים.

במאמר זה נדבר על הכלים והטכנולוגיות שמסייעים בכל השלבים.

אנחנו יוצאים מנקודת הנחה שהנתונים קיימים כבר בארגון ואין צורך לבצע סקרים פנים ארגוניים או חיצוניים כדי לאסוף אותם.

אז קדימה, נצא לדרך ונספר לכם על הכלים והטכנולוגיות המשמשים אנליסטים בארץ ובעולם. בהתאם לשלב העבודה בתהליך ניתוח נתונים שתיארנו

שלב 1: הגדרת הבעיה ואיסוף הדרישות

שלב ראשוני זה הוא שלב הדורש ידע והבנה של האנליסט עם התעשיה בה הוא נמצא. בשלב זה נדרשת ממנו חשיבה עסקית, הבנה של המטרות הארגוניות והכרות עם תהליכים וגורמים רלוונטיים לקבלת החלטות. שלב זה הוא שלב של הגדרת שאלת המחקר ולרוב לא נעשה בו שימוש בכלים טכנולוגיים כלשהם.

השלבים הבאים (2 ו-3) הם המשמעותיים יותר, במיוחד אם מדובר בכמות גדולה במיוחד של נתונים. אלה שלבי עיבוד נתונים – Data Processing. שעשויים לקחת בין 60% ל-80% מהזמן.

שלב 2: איסוף נתונים

מקורות המידע בארגונים הם מאוד מגוונים. כפי ציינו במאמר הקודם, המלצתנו היא תמיד להתחיל לעבוד על איסוף נתונים ממקורות זמינים וקיימים.

בשלב הראשון, נאסוף את הנתונים המובנים (Structured Data) בהתאם לסביבה הארגונית הקיימת. המקורות האפשריים הם בסיסי נתונים רלציוניים, מערכות תפעוליות, קבצים (אקסל, וורד) מיילים ועוד.

קראו עוד על סוגי בסיסי נתונים

לאחר מכן ניגש לנתונים הלא מובנים (Unstructured Data). בסביבת הביג דאטה אנחנו מדברים כבר על בסיסי נתונים NoSQL המחולקים למשפחות על בסיס אופי שמירת הנתונים וסוג הנתונים (משפחה של כלים לשמירת קבצים, משפחה של כלים אנליטיים, משפחה של מנועי חיפוש ועוד).

שפת SQL מאפשרת לנו לשלוף נתונים רלוונטיים מבסיסי נתונים, וכבר בשלב האיסוף ניתן לבצע מניפולציות על הדאטה עם פונקציות אנליטיות שונות.

קראו עוד על שפת SQL

לאחר שנאספו הנתונים מהמקורות הפנימיים נמשיך לעבוד (בהתאם לצורך) עם מקורות חיצוניים, כגון אתרי אינטרנט (עבור לקוחות חיצוניים זהו אתר החברה או אתר המוצר, או עבור לקוחות פנים ארגוניים זה פורטל ארגוני, פורטל למידה), רשתות חברתיות (פייסבוק, לינקדאין, טוויטר ואחרים).

טכניקות לאיסוף נתונים ממקורות אלה הן חיבור דרך API או Web Scraping. הרבה פעמים שמירת נתונים מאתרי אינטרנט מתבצעת בקבצי JSON ובעבודה עם קבצים אלה נשתמש בשפת Python.

שפת פייתון – Python – היא שפה שימושית מאוד, במיוחד כשמדובר במקורות מידע כגון אתרי אינטרנט, או מערכות דאטה מתקדמות בסביבת Big Data.
באמצעות פייתון ניתן לבצע את תהליך ניתוח הנתונים מקצה לקצה, היות שהשפה מאפשרת גם את איסוף הנתונים, גם אנליזה של הנתונים וגם ויזואליזציות.

במאמר הזה תוכלו לקרוא יותר על שימושים של שפת Python בסביבת דאטה

כמובן שקיימים מצבים בהם אנליסטים לא עוסקים באיסוף נתונים (באמצעות כתיבת קוד) אלא מקבלים אותם מגורמים אחרים בארגון, כמו אנשי BI, או DBA, או שהם שולפים את הנתונים הרלוונטיים ממערכות מידע שונות שיש להן אינטגרציה מלאה ובזמן אמת עם בסיסי נתונים ארגוניים.
במקרים אלה איסוף הנתונים מסתפק בשליפת דוחות סטטיים, הוצאתם לאקסל וניתוח בהמשך.

שלב 3: הכנת נתונים

השלב הזה הוא קריטי, מפני שעיבוד לקוי של נתונים ישפיע על תוצאות הניתוח ויוביל למסקנות לא נכונות. השלב כולל ניקוי שגיאות, השלמת דאטה חסר, נרמול נתונים ועוד והתוצר שלו הינו קובץ נתונים המוכן לניתוח.

Raw Data, הם הנתונים הראשוניים שנאספו, הזמינים לשלב ההכנה. בשלב זה יש לבחון את מבנה הנתונים, כמות השורות והעמודות, ולבדוק האם התקבלו ערכים שגוים או שדות ריקים.

בשלב זה נעשה שימוש בשפת SQL ובשפת Python וכן נתחיל להיחשף לטכניקות כגון  Feature Engineering התומכות בתהליך הניתוח עצמו בהמשך (שלב 4).

כשיש מעט נתונים, אקסל יכול בהחלט לספק את הצורך ולפאשר לנו לנקות את הדאטה באמצעות טכניקות המובנות בכלי.

שלב 4: ניתוח נתונים

השלב המכריע בתהליך – שלב הניתוח .
אבל איך בוחרים באיזה טכנולוגיה להשתמש מתוך השפע קיים בשוק? הבחירה וההעדפה בכלי זה או אחר תלויה בגורמים רבים:

  • איזה כלים קיימים בארגון
  • מה גודלו של קובץ הנתונים?
  • איזה סוג נתונים אספנו?
  • באיזו ויזאליזציה נרצה להשתמש – האם חשוב להציג דשבורד אינטרקטיבי או דוח סטטי?
  • האם אנחנו מדברים על ניתוח מצב קיים או מתכוונים לספק חיזוי
  • ועוד.

שלב הניתוח יכול להיעשות במספר דרכים:

  • אנליזה באמצעות כלי BI

נתחיל מאקסל שהוא כלי מצוין להרבה מאד מקרים: אם כמות המידע אינה עצומה, אם הנתונים יכולים להיות מוצגים בטבלה או אם אנחנו לא נדרשים להצגה אינטראקטיבית של הניתוח.
ניתוח באמצעות Pivot Table יכול לתת מענה מצויין, שלא לדבר על יכולות BI שקיימות באקסל המאפשרות להעמיק בניתוח באמצעות הכלי.

כלים מתקדמים יותר מספקים תוצר הרבה יותר מעמיק, יודעים לעבוד עם כמות גדולה של נתונים, להתחבר לכל מקור מידע (כמעט) ומאפשרים לייצר תהליכים אוטומטיים. כלי ה- BI השכיחים ביותר בשוק הם: PowerBI, Tableau, SAS, Qliksence, Sisence ועוד.

כלים אלה מאפשרים עבודה עצמאית וביצוע תהליך ניתוח נתונים מקצה לקצה, החל מיבוא נתונים (חיבור למגוון גדול של מקורות מידע), אינטגרציה של הנתונים (כאשר עובדים עם מספר מקורות מידע במקביל), בניית מודל נתונים התואם לשאלה עסקית, בניית דשבורד ויישום טכניקות ויזואליזציה מתקדמות ומאוד מרשימות.

עיינו ברשימת הקורסים שלנו והכשרות בתחום Data Analysis

הכלים יודעים לעבוד בסביבת הענן, להתעדכן באופן אוטומטי בפרקי זמן שנקבע, הם מאפשרים שיתוף  דוחות עם גורמים רלוונטיים בארגון, ומתאימים מאד לביצוע פעולות אנליזה יום-יומיות של מקבלי ההחלטות ובעלי תפקידים שונים בארגונים, שאינם בהכרח Data Analyst (אנשי שיווק, מכירות, תפעול, כלכלנים ואחרים).

  • עבודה עם שפת Python או R  – שלב EDA Exploratory Data Analysis

יכולות שפת פייתון בניתוח נתונים הן רבות, החל מאיסוף הנתונים ועד לביצוע אנליזה ומניפולציה עליהם.
אם בשלב הזה אנו מגלים שהדאטה שלנו אינו מספק, יש לחזור לשלב האיסוף. המשך טבעי של התהליך הזה יכול להיות תהליך של Machine Learning.

  • Data Mining כריית נתונים 

שלב זה הוא שלב של למידה מהדאטה שבידינו. המטרה היא לזהות דפוס התנהגותי ספציפי בנתונים או לעשות חיזוי. כאן נראה יישום והרצת מודלים של
Machine Learning, Deep Learning, וכן יישום כלים מתמטיים ושיטות סטטיסטיות וטכניקות רלוונטיות, ביניהם:

Feature Engineering,  Regression Analysis, Factor Analysis, Time Series Analysis, Clustering  Analysis, Anomaly Detection, Text Analysis, Decision Trees ועוד.

עמוד הקורס Practical Data Science 

עבודה עם כלים כגון שפת Python ושפת R מספקת לרוב את הצורך. לאחרונה התחילו לצאת לשוק כלים חדשים בתחום AI, אך עדיין נראה שאין יותר טוב מ”ללוש” את הדאטה בעצמנו, להבין מה קורה מאחורי הקלעים ולהיות בעלי יכולת לקבל החלטה איזה אלגוריתם ליישם ומתי.

בסביבת ביג דאטה עיבוד נתונים בעיקר מתרחש בסביבת Spark המסייעת בהרצת תהליכי ETL והכנת Data Pipeline ומאפשרת גם הרצת של מודלים של Machine Learning.

שלב 5: הדמיית (ויזואליזציה) נתונים

זה הזמן להנגיש את הנתונים. שלב הויזואליזציה יעשה שימוש בכלים שעבדנו איתם בשלב הקודם.

שפות Python ו-R מספקות אמנם חבילות ייעודיות לויזואליזציה (כגון matplotlib ו-ggplot בהתאמה). אבל ללא ספק היכולות של כלי ה-BI השונים שציינו בסעיף 4, מאפשרים הרבה יותר וישנה העדפה לעבוד איתם בשלב זה.

במאמר הבא (חלק III ) נסקור את הדרישות לתפקיד של אנליסט נתונים וננסה לכסות כמה שיותר ואריאציות של הגדרת התפקיד.

למעבר למאמר השלישי בסדרה לחצו כאן