מה זה Big Data ולמה זה הדבר שהכי כדאי ללמוד היום?

תוכן עניינים:

  1. מה זה Big Data?
  2. מהם שלושת ה- Vs שהופכים את הארגון לכזה שמנהל Big Data?
  3. ניהול Big Data גם בארגונים קטנים
  4. האתגרים של Big Data
  5. אילו טכנולוגיות קיימות לניהול Big Data?
  6. מתעניינים בלימודי Big Data? חשוב שתכירו מהי טכנולוגיית Hadoop
  7. האם Hadoop מתאימה לניהול מאגרי מידע בארגונים גדולים בלבד?
  8. 3 סיבות למה להכנס לתחום ה-Big Data

תחום טכנולוגיות המידע מתפתח ללא הרף ומציב אתגרים מגוונים בפני העוסקים בתחום. אחד האתגרים המרתקים הוא ה-Big Data (ביג דאטה), העוסק בשמירה, ניהול ושימוש בנתוני העתק המצטברים כיום בארגונים. מומחים לטכנולוגיות מידע בארגונים וחברות מובילות (מהנדסים, ארכיטקטים, אנשי BI וכדומה) עושים כיום שימוש במספר עצום של כלים, מערכות וטכנולוגיות כדי להתמודד עם האתגר הזה, ובשנים האחרונות הם עושים דרכם גם לארגונים וגופים קטנים יותר.

אז מה זה בכלל ביג דאטה, אילו טכנולוגיות לניהול קיימות ואילו מהן המתאימות ביותר לשימוש של ארגונים קטנים כגדולים בעולם הטכנולוגי?

לצפייה בקטלוג הקורסים בנושא לימודי ביג דאטה

מה זה ביג דאטה?

Big Data, ובעברית נתוני עתק, הוא מונח המתאר כמויות אדירות של מידע המגיע ממקורות שונים, אותו יש לשמור, לנהל, לתחזק ולעשות בו שימוש בקלות וביעילות, תוך השקעה של מינימום משאבים.Big Data

ענקיות הביג דאטה שבידיהן כמות אדירה של נתוני ענק, דוגמת גוגל, פייסבוק, אתר בורסה, משתמשות כבר מספר עשורים בטכנולוגיות לניהול נתוני עתק, המכונות גם “מערכות ביג דאטה” או NoSQL. מערכות אלו מאפשרות להן למעשה לשרוד ולפעול במציאות של כמויות מידע בסדר גודל בלתי נתפס.

לקריאה על סוגי מסדי נתונים לחצו כאן

כדי להבין מהם באמת נתוני עתק יועיל מאוד לקבל קצת רקע היסטורי. הנה ההגדרה של Gartner, שניתנה בסביבות 2001 (שהיא עדיין ההגדרה תקפה): “נתוני עתק הם נתונים המכילים נתונים מאוד מגוונים, המגיעים בהיקפים הולכים וגדלים ובמהירות גבוהה מאוד.” שלושת הפרמטרים האלה נקראים גם שלושה V שעליהם נפרט בהמשך.

כמות נתונים אלה היא כה גדולה, שמסדי נתונים מסורתיים פשוט לא יכולים לנהל אותם, לעבד ולשמור.
יחד עם זאת עדיין מדובר בנתונים ולכן כל ארגון ירצה להפיק תובנות מהם, להשתמש בהם כדי להתמודד עם בעיות עסקיות שלא היית מסוגל להתמודד לפני.

מהם שלושת ה- Vs שהופכים את הארגון לכזה שמנהל ביג דאטה?

כדאי לציין שכיום יש כבר יותר משלושה Vs. אבל המפורטים להלן היו הבסיס ממנו קמה ההגדרה של נתוני ביג דאטה.

  • Volume – כמות הנתונים. בעולם הביג דאטה יהיה על הארגון לעבד כמויות גדולות של נתונים בצפיפות נמוכה, ואלה הם נתונים בלתי מובנים (unstructured). אלה יכולים להיות נתונים של ערך לא ידוע כגון הזנת נתונים של Twitter, זרימת קליקים בדף אינטרנט או באפליקציה לנייד, או חיישנים. עבור ארגונים מסוימים, אלה יכולים להיות עשרות טרה של נתונים. עבור אחרים, זה עשוי להיות מאות petabytes.לימודי big data
  • Velocity – הקצב בו הנתונים מתקבלים. בדרך כלל, במהירות הגבוהה ביותר הדאטה זורם ישירות לתוך הזיכרון. לדוגמא, במוצרים חכמים המאפיינים חברות אינטרנט הפועלות מידית ובזמן אמת או כמעט בזמן אמת. בעבודה עם נתונים קצב כניסת הדאטה לארגון הוא קריטי ודורש תגובה בזמן אמת.
  • Variety – מגוון הנתונים. מתייחס לסוגים השונים של הנתונים הזמינים. סוגי נתונים מסורתיים היו מובנים וניתנים לארגון בצורה מסודרת במסדי נתונים יחסיים (רלציוניים). עם הכניסה לעולם הביג דאטה, מגיעים הנתונים בסוגים חדשים ובלתי מובנים. סוגי נתונים לא מובנים כגון טקסטים, אודיו ווידאו ואחרים דורשים עיבוד מוקדם נוסף כדי להפיק מהם משמעות ותמיכה במטא נתונים.

שני מושגים נוספים שמרחיבים את Vs : ערך – Value ואמיתיות – Truth:

במהלך השנים האחרונות התגלו עוד אתגרים: הערך והאמיתיות. לנתונים יש ערך פנימי, אבל הוא לא ברור עד אותו הרגע שהוא מתגלה. דבר חשוב נוסף הוא – כמה מהימנים הנתונים שלך ועד כמה ניתן לסמוך על הנתון שהתקבל?

היום, נתוני ביג דאטה הפכו להון אמיתי בכל ארגון. חלק גדול מהערך שמציעות חברות הטכונלוגיה הגדולות בעולם, הנפחים העצומים של הנתונים, מאפשרים לארגונים לקבל החלטות מדויקות הרבה יותר כמו גם להתייעל ולפתח מוצרים חדשים.
בנוסף, פריצות הדרך הטכנולוגיות האחרונות הפחיתו באופן אקספוננציאלי את עלות אחסון הנתונים והמחשוב, מה שהופך את התהליכים האלה לקלים יותר ויקרים פחות מאשר אי פעם.

מציאת ערך בנתוני ביג דאטה אינה עולה רק מניתוח הנתונים. מדובר בתהליך חקר נתונים שלם הדורש חשיבה אנליטית מתקדמת ויכולות טכנולוגיות חדשניות. משתמשים עסקיים ומנהלים נדרשים לשאול את השאלות הנכונות, ומסוגלים לזהות דפוסים התנהגותיים בדאטה, לעשות הנחות מושכלות, ולחזות התנהגות או התרחשות של אירועים.

בואו ללמוד להיות Big Data Engineers

ניהול ביג דאטה גם בארגונים קטנים

עם חלוף השנים, לא רק מנועי חיפוש ורשתות חברתיות נזקקים לכלים לניהול ביג דאטה, אלא גם ארגונים אחרים הזקוקים לכלי תשתית המאפשרים עיבוד מקבילי של נתונים רבים.
מספיק שאחד הפרמטרים (ה-Vs) מתקיים בהקשר של דאטה בארגון מסוים – והוא כבר יכול למצוא עצמו בפני אתגר של ביג דאטה.

כלומר, גם אם לא נכנסת כמות עצומה של נתונים, אבל הנתונים שנכנסים לארגון הם מסוג שלא ניתן לסדר אותו בצורה טבלאית מסורתית (כגון טקסטים, תמונות, שיחות מוקלטות וכד’) – הארגון יאלץ להתחיל לעבוד עם מערכות מידע NoSQL על מנת להפיק תובנות מהדאטה הזה. זו הסיבה לכך שעוד ועוד ארגונים טכנולוגיים בסדרי גודל שונים נושאים את עיניהם בחיפוש אחר טכנולוגיות חדשניות, יעילות ועדכניות לניהול ביג דאטה.

איפה עושים שימוש בביג דאטה? Big Data Use Cases

    • ניהול מוצר: חברות שירותים ומוצרים משתמשות בתובנות מביג דאטה כדי לצפות את ביקוש הלקוחות. הן בונות מודלים של חיזוי למוצרים ושירותים חדשים על ידי סיווג תכונות מפתח של מוצרים ושירותים בעבר ובהווה, ומידול היחסים בין התכונות הללו לבין ההצלחה המסחרית של ההצעות. Procter & Gamble, לדוגמא, משתמשת בנתונים וניתוח מקבוצות מיקוד, מדיה חברתית, שווקי מדגם, ייצור ועוד, וכך מפתחת מוצרים חדשים.
    • תחזוקה: גורמים שיכולים לחזות כשלים מכניים עשויים להיות קבורים עמוק בנתונים מובנים, כגון שנת הציוד, הדגם והמודל של מכונה, וכן בנתונים לא מובנים המכסים מיליוני רשומות ביומן, נתוני חיישנים, הודעות שגיאה וטמפרטורת מנוע. על ידי ניתוח של נתונים לא שגרתיים אלה של בעיות פוטנציאליות לפני שהבעיות מתרחשות, יכולים ארגונים יכולים לנהל את התחזוקה באופן יעיל וחסכוני יותר.
    • חווית הלקוח: המירוץ לשימור לקוחות מתרחש ללא הפסקה. כיום, מבט ברור יותר על חוויית הלקוח אפשרי יותר מאי פעם. נתוני ביג דאטה מאפשרים לאסוף נתונים ממדיה חברתית, מגלישה באינטרנט, מיומני שיחות וממקורות נתונים אחרים, כדי לשפר את חווית האינטראקציה של הלקוח עם המוצר (באשר הוא) ולמקסם את הערך המועבר. שיפור החוויה כולל יכולת לספק הצעות מותאמות אישית, הפחתת נטישת הלקוחות, טיפול בבעיות באופן יזום ועוד.

מי הוא ה-Data Engineer?

    • הונאות: כשמדובר באבטחת מידע האיום הוא גדול וכמענה יכולות אבטחת מידע ודרישות תאימות מתפתחים ללא הרף. נתוני ביג דאטה מסייעים לארגון לזהות דפוסים ושיבושים בדפוסים המצביעים על הונאה ובהמשך לסייע ליצירת תקנים רגולטוריים בהקשרים של הונאות.
    • יעילות תפעולית: יעילות תפעולית היא אמנם לא התחום המדובר ביותר כיום, אולם מאידך זהו תחום שבו לנתוני ביג דאטה יש את ההשפעה הגדולה ביותר. עם נתוני ביג דאטה, הארגון יכול לנתח ולהעריך רמות ייצור, לנתח משוב מלקוחות ולטפל בבעית החזרות, לבחון גורמים שיכולים להפחית תקלות ולצפות את הדרישות בעתיד. נתוני ביג דאטה יכולים לשמש גם כדי לשפר את קבלת החלטות כך שיעמדו בקנה אחד עם הביקוש הנוכחי בשוק.
    • חדשנות: נתוני ביג דאטה מסייעים לארגונים להוביל חדשנות דרך למידת תלות בין גורמים שונים ומגוונים כגון אנשים, מוסדות, ישויות ותהליכים עצמם. תובנות אלה מאפשרות, בהמשך לשפר את דרך קבלת ההחלטות, לבצע שיקולים כספיים ריאליים, לקיים תכנון עתידי, לבחון מגמות צריכה, לפתח מוצרים ושירותים חדשים, ליישם תמחורים דינמיים וכד’. האפשרויות הן אינסופיות.

האתגרים של Big Data

בעוד ש-Big Data זהו תחום מאוד מבטיח ומתפתח, יש בו עדיין לא מעט אתגרים. ראשית, Big Data – כמו שזה נשמע, עוסק בהמון המון נתונים. למרות שהטכנולוגיות החדשות שפותחו עבור אחסון נתונים פותרות נכון להיום את הבעיה, נפח הנתונים עדיין ממשיך להכפיל את עצמו כל שנתיים. ארגונים ממשיכים להיאבק כדי לעמוד בקצב זרימת הנתונים שלהם ולמצוא דרכים לאחסן אותם ביעילות.

אבל זה לא מספיק רק לאחסן את הנתונים. הנתונים חייבים לשמש את הארגונים ולתת להם ערך אמיתי, וזה תלוי בטיב הדאטה. עבודה על טיוב הנתונים במיוחד בתחום Big Data היא אינסופית. מדעני נתונים (Data Scientist), מבלים עד 80 אחוז מזמנם בהכנת נתונים לפני שניתן להשתמש בהם בפועל.

ולבסוף, טכנולוגיות ה-Big Data משתנות בקצב מהיר מדי, ומאוד קשה לגשר על הפער שנוצר כמעט באופן קבוע, באימוץ טכנולוגיה חדשה, פערי הידע לצורך השימוש בה ובניית ארכיטקטורות חדשות. לפני מספר שנים, Apache Hadoop היתה הטכנולוגיה הפופולרית והמובילה המשמשת לניתוח Big Data. אחריה נכנס ה-Apache Spark בשנת 2014 והיום, שילוב של שתי פלטפורמות נראה כגישה הטובה ביותר. עם התפתחויות טכנולוגיות על הארגון להמשיך להיות במעקב תמידי ולאמץ את כלים הרלוונטיים והמתאימים לו ביותר.

איך להתקדם לתפקיד של Data Engineer – מהנדס נתונים?

אילו טכנולוגיות קיימות לניהול ביג דאטה?

קיימים אינספור כלים ופלטפורמות לניהול ביג דאטה. הטכנולוגיות הבולטות והשכיחות יותר הן: Cassandra ,Hadoop, Couchbase, MongoDB ועוד. לצורך הפשטה, מצורפת מפת הכלים הקיימים נכון לשנת 2020 (לחצו להגדלה): מקור התמונה מהבלוג של Matt Turck

 

עם הביקוש לטכנולוגיות Big Data המתרחבות במהירות, Apache Hadoop הפכה לזו העומדת בראשן. Apache Hadoop, שפותחה בין השנים 2006-2004, אומצה על ידי מרבית מנועי החיפוש והרשתות החברתיות המקוונות, ומאז היא גם חודרת בהדרגה ככלי תשתית מתקדם, ייחודי ויעיל לכל ארגון המחפש תשתית מנצחת לניהול מידע והניתוח שלו.

מתעניינים בלימודי ביג דאטה? חשוב שתכירו מהי טכנולוגיית Hadoop

Hadoop בהגדרתו מהווה פרויקט קוד פתוח המאפשר יישום מבוזר המעבד נתוני Big Data. אם ברצוננו לפשט את ההגדרה המעט עמומה נסביר שזוהי פלטפורמה שעליה “יושבת” תוכנה, והתוכנה מאפשרת חיבור של מספר שרתים שונים, על מנת שיעבדו כיחידה ממוחשבת אחת. טכנולוגיית Hadoop שמה דגש על שתי משימות עיקריות: הראשונה – אחסון נתונים מבוזרים; והשנייה – עיבוד נתונים מבוזרים. קראו עוד על Hadoop במאמר הבא:

מה זה Hadoop ולמה לעבוד איתו?

אם כך, האם Hadoop מתאימה לניהול מאגרי מידע קטנים בארגונים קטנים?

היא בהחלט מתאימה, אולם במקרים של כמויות המידע אינן עצומות מאד ו/או כאשר ישנה חשיבות גבוהה לשליפה ולעיבוד מהירים של נתונים, ניתן להשתמש בטכנולוגיית Hadoop ולהכניס בה “שיפורים”. הכוונה היא לכלים תומכים שמייעלים אותה בהתאם לתכתיבי המציאות ומאפשרים לה לתת מענה לדרישות ניהול מידע גם כשמדובר במידע שאיננו “ביג דאטה”. לשם כך יש צורך במומחי Hadoop.

3 סיבות למה להיכנס לתחום Big Data

  1. ביקוש – בעולם הטכנולוגי הנוכחי ישנו ביקוש עצום למי ששולט בביג דאטה בכלל ובטכנולוגיית Hadoop בפרט. ארגונים רבים ומגוונים מחפשים “אשפים” שיתמודדו עם האתגר הכי מרתק של השנים האחרונות, ואשר בידיהם מצויים הידע, הכלים והמיומנויות הנחוצים כדי לסייע להם לבסס תשתית יעילה לניהול המידע שלהם.
  2. היצע – הביקוש למומחי ביג דאטה הוא עצום! חברות רבות מובילות מחפשים אנשי מקצוע בתחום וללא ספק עדיין אין מספיק מומחים בתחום זה.
  3. שכר – אם פעם להיות עורך.ת דין או רופא.ה היה מבוקש ונחשק, היום אנשי הדאטה ובראשם מומחי ביג דאטה, הם הכוכבים, הן בשל דירוגם הגבוה בטבלאות השכר והן בזכות העניין והסיפוק הרב שבמקצוע.