מה זה Big Data ולמה להיכנס ללימודי ביג דאטה – Big Data

תחום טכנולוגיות המידע מתפתח ללא הרף ומציב אתגרים מגוונים בפני העוסקים בתחום. אחד האתגרים המרתקים הוא ה”ביג דאטה”. מומחים לטכנולוגיות מידע (מהנדסים, ארכיטקטים, אנשי BI וכדומה) משתמשים ביג דאטהבכלים, במערכות ובטכנולוגיות מגוונות כדי לעמוד באתגר המרתק הכרוך בשמירת כמות אדירה של מה שנקרא “נתוני עתק” ושימוש בהם.

כיום נמצא בשימוש מספר עצום של כלים לניהול ביג דאטה שמאפשרים ניהול ושמירה של כמות אדירה של נתונים. אלה נמצאים כבר מזמן בשימוש של החברות המובילות, ובשנים האחרונות הם עושים את דרכם גם לארגונים ולגופים קטנים יותר.

אז מה זה בכלל ביג דאטה, אילו טכנולוגיות לניהול Big Data קיימות ואילו מהן המתאימות ביותר לשימוש של ארגונים קטנים כגדולים בעולם הטכנולוגי?

לצפייה בקטלוג הקורסים בנושא לימודי ביג דאטה

מה זה ביג דאטה?

ביג דאטה, ובעברית נתוני עתק, הוא מונח המתאר כמויות אדירות של מידע המגיע ממקורות שונים. את המידע הזה צריכים לשמור, לנהל, לתחזק ולעשות בו שימוש בקלות וביעילות, תוך השקעה של מינימום משאבים. ענקיות הביג דאטה שבידיהן כמות אדירה של נתוני ענק, דוגמת “גוגל”, “פייסבוק”, ו-“YAHOO” משתמשות כבר מספר עשורים בטכנולוגיות לניהול נתוני עתק, המכונות גם “מערכות ביג דאטה” או NoSQL.

מערכות אלו מאפשרות להן למעשה לשרוד ולפעול במציאות של כמויות מידע בסדר גודל בלתי נתפס.

וכדי להבין מה הם באמת נתוני עתק יועיל מאוד לקבל קצת רקע היסטורי. הנה ההגדרה של גרטנר, שניתנה בסביבות 2001 (שהיא עדיין ההגדרה תקפה): נתונים עתק אלה נתונים המכילים נתונים מאוד מגוונים, המגיעים בהיקפים הולכים וגדלים ובמהירות גבוהה מאוד.

שלושת הפרמטרים האלה נקראים גם שלושה V שתיכף נפרט עליהם. במילים פשוטות, כמות עצומה של נתונים שמאוד מורכבים ומגוונים הנכנסים למערכות במהירות גבוהה ובמיוחד ממקורות נתונים חדשים.

כמות נתונים אלה היא כה גדולה, שמסדי נתונים מסורתיים פשוט לא יכולים לנהל אותם, לעבד ולשמור. יחד עם זאת עדיין מדובר בנתונים ולכן כל ארגון ירצה להפיק תובנות מהם, להשתמש בהם כדי להתמודד עם בעיות עסקיות שלא היית מסוגל להתמודד לפני.

ניהול ביג דאטה גם בארגונים קטנים

עם חלוף השנים, לא רק מנועי חיפוש ורשתות חברתיות נזקקים לכלים לניהול ביג דאטה, אלא גם ארגונים אחרים הזקוקים לכלי תשתית המאפשרים עיבוד מקביל של נתונים רבים.

אם חושבים לרגע על פייסבוק, ניתן להבין את חשיבותם של כלים אלה כמעט בכל ארגון. בפייסבוק מתקבלות בכל רגע כמויות אדירות של נתונים. מדובר בנתונים מבוזרים המגיעים ממספר עצום של גורמים, כשהגורמים נבדלים ונפרדים, הפורמטים שבהם מגיעים נתוני המידע משתנים ואיכות הנתונים המגיעים משתנה.

מאידך, מספיק שאחד הפרמטרים מתקיים בהקשר של דאטה בארגון מסוים – הוא כבר יכול לראות את עצמו בפני אתגר של ביג דאטה. כלומר, גם אם לא נכנסת כמות עצומה של נתונים, אבל מספיק שנתונים שנכנסים לארגון הם מסוג שלא ניתן לסדר אותו בצורה טבלאית מסורתית (כגון טקסטים, תמונות, שיחות מוקלטות וכד’) – הארגון יאלץ להתחיל לעבוד עם מערכות מידע NoSQL על מנת להפיק תובנות מהדאטה הזה. זו הסיבה לכך שעוד ועוד ארגונים טכנולוגיים בסדרי גודל שונים נושאים את עיניהם בחיפוש אחר טכנולוגיות חדשניות, יעילות ועדכניות לניהול ביג דאטה.

אז מהם שולשת ה- Vs שהופכים את הארגון לכזה שמנהל ביג דאטה?

  1. Volume – כמות הנתונים. בעולם הביג דאטה יהיה על הארגון לעבד כמויות גדולות של נתונים בצפיפות נמוכה, ואלה הם נתונים בלתי מובנים (unstructured). אלה יכולים להיות נתונים של ערך לא ידוע, כגון הזנת נתונים של Twitter, זרימת קליקים בדף אינטרנט או באפליקציה לנייד, או חיישנים. עבור ארגונים מסוימים, אלה יכולים להיות עשרות טרה של נתונים. עבור אחרים, זה עשוי להיות מאות petabytes.לימודי big data
  2. Velocity – קצב שבו הנתונים מתקבלים. בדרך כלל, במהירות הגבוהה ביותר הדאטה זורם ישירות לתוך הזיכרון. לדוגמא, במוצרים חכמים המאפיינים חברות אינטרנט הפועלות מידית ובזמן אמת או כמעט בזמן אמת בעבודה עם נתונים קצב כניסת הדאטה לארגון הוא קריטיודורש תגובה בזמן אמת.
  3. Variety – מגוון הנתונים, מתייחס לסוגים רבים של הנתונים הזמינים. סוגי נתונים מסורתיים היו מובנים ומתאימים בצורה מסודרת למסדי נתונים יחסיים (רלציוניים). עם כניסה לעולם הביג דאטה, הנתונים מגיעים בסוגים חדשים ובלתי מובנים. סוגי הנתונים לא מובנים כגון טקסטים, אודיו ווידאו ואחרים דורשים עיבוד מוקדם נוסף כדי להפיק משמעות ותמיכה במטא נתונים.

שני מושגים נוספים שמרחיבים את Vs – ערך Value ואמתיות Truth:

במהלך השנים האחרונות התגלו שני אתגרים נוספים: הערך ואמתיות. לנתונים יש ערך פנימי. אבל זה לא ברור עד אותו הרגע שהערך הזה מתגלה. ולא פחות חשוב: כמה אמיתיים הנתונים שלך – עד כמה באמת ניתן לסמוך על הנתון שהתקבל?

היום, נתוני ביג דאטה הפכו להון אמיתי בכל ארגון. תחשבו על כמה מחברות הטכנולוגיה הגדולות בעולם, חלק גדול מהערך שהם מציעים מגיע מהנתונים שהם מנתחים כל הזמן כדי לייצר יותר יעילות ולפתח מוצרים חדשים.

בנוסף, פריצות הדרך הטכנולוגיות האחרונות הפחיתו באופן אקספוננציאלי את עלות אחסון הנתונים והמחשוב, מה שהופך את התהליכים האלה לקלים יותר ופחות יקר מאשר אי פעם. עם נפחים עצומים של נתונים, היום ניתן לקבל החלטות מדויקות הרבה יותר.

מציאת ערך בנתוני ביג דאטה אינה רק בניתוח נתונים (שזה כמובן ערך בפני עצמו). זה תהליך חקר נתונים שלם הדורש חשיבה אנליטית מתקדמת ויכולות טכנולוגיות חדשניות ממשתמשים עסקיים ומנהלים אשר שואלים את השאלות הנכונות, וכעת מסוגלים לזהות דפוסים התנהגותיים בדאטה, לעשות הנחות מושכלות, ולחזות התנהגות או התרחשבות של אירועים.

Big Data Use Cases

  • תחום ניהול מוצר: חברות כמו Netflix ו- Procter & Gamble משתמשות בתובנות מביג דאטה כדי לצפות את ביקוש הלקוחות. הם בונים מודלים של חיזוי למוצרים ושירותים חדשים על ידי סיווג תכונות מפתח של מוצרים ושירותים בעבר ובהווה, ומידול היחסים בין התכונות הללו לבין ההצלחה המסחרית של ההצעות. בנוסף, Procter & Gamble משתמשת בנתונים וניתוח מקבוצות מיקוד, מדיה חברתית, שווקי מדגם, ייצור, וכך מפתחת מוצרים חדשים.
  • תחום חיזוי תחזוקה: גורמים שיכולים לחזות כשלים מכניים עשויים להיות קבורים עמוק בנתונים מובנים, כגון שנת הציוד, הדגם והמודל של מכונה, וכן בנתונים לא מובנים המכסים מיליוני רשומות ביומן, נתוני חיישנים, הודעות שגיאה וטמפרטורת מנוע. על ידי ניתוח של נתונים לא שגרתיים אלה של בעיות פוטנציאליות לפני שהבעיות מתרחשות, ארגונים יכולים לפרוס תחזוקה יותר חסכונית ולמקסם ולייעל צריכת חלקים וציוד.
  • בתחום חווית הלקוח: המירוץ לשימור לקוחות מתרחש ללא הפסקה. כיום, מבט ברור יותר על חוויית הלקוח אפשרי יותר מאי פעם. נתוני ביג דאטה מאפשרים לאסוף נתונים ממדיה חברתית, מגלישה באינטרנט, מיומני שיחות וממקורות נתונים אחרים, כדי לשפר את חווית האינטראקציה של הלקוח עם המוצר (באשר הוא) ולמקסם את הערך המועבר. וזה כולל יכולת לספק הצעות מותאמות אישית, הפחתת נטישת הלקוחות, טיפול בבעיות באופן יזום ועוד.
  • בתחום הונאות: כשמדובר בביטחון, זה לא רק כמה האקרים סוררים; האיום הוא יותר גדול – אלה צוותי מומחה שלמים. יכולות אבטחת מידע ודרישות תאימות מתפתחים ללא הרף. נתוני ביג דאטה מסייעים לארגון לזהות דפוסים במידע המצביעים על הונאה ובהמשך לגרום ולסייע ליצירת תקנים רגולטוריים בהקשרים של הונאות.
  • תחום יעילות תפעולית: יעילות תפעולית זה לא התחום החם והלוהט והמדובר ביותר היום, מאידך זה תחום שבו לנתוני ביג דאטה יש ההשפעה הגדולה ביותר. עם נתוני ביג דאטה, הארגון יכול לנתח ולהעריך רמות ייצור, לנתח משוב מלקוחות ולטפל בבעית החזרות, לבחון גורמים שיכולים להפחית את תקלות ולצפות הדרישות בעתיד. נתוני ביג דאטה יכולים לשמש גם כדי לשפר את קבלת החלטות בקנה אחד עם הביקוש בשוק הנוכחי.
  • בתחום החדשנות: נתוני ביג דאטה מסייעים לארגונים להוביל חדשנות דרך למידת תלות בין גורמים שונים ומגוונים כגון אנשים, מוסדות, ישויות ותהליכים עצמם. ולאחר מכן לקבוע דרכים חדשות לשימוש נכון ויעיל בתובנות אלו, כדי לשפר את ההחלטות, שיקולים כספיים, תכנון עתידי, לבחון מגמות ומה הלקוחות רוצים, לספק מוצרים ושירותים חדשים, ליישם תמחורים דינמיים וכד’. יש אינסופיות אפשרויות.

האתגרים של Big Data

בעוד ש- Big Data זהו תחום מאוד מבטיח, עדיין בגם בו יש הרבה אתגרים.

ראשית, Big Data – כמו שזה נשמע, זה באמת המון המון נתונים. למרות שהטכנולוגיות החדשות שפותחו עבור אחסון נתונים פותרים את הבעיה, נפח הנתונים עדיין ממשיך להכפיל את עצמו כל שנתיים. ארגונים עדיין נאבקים כדי לעמוד בקצב זרימת הנתונים שלהם ולמצוא דרכים לאחסן אותם ביעילות. אבל זה לא מספיק רק לאחסן את הנתונים.

הנתונים חייבים לשמש את הארגונים כדי ערך אמיתי וזה תלוי טיב הדאטה. עבודה על טיוב הנתונים במיוחד בתחום Big Data היא אינסופית. מדעני נתונים , Data Scientist, מבלים 50 עד 80 אחוז מהזמן שלהם בהכנת נתונים לפני שניתן להשתמש בהם בפועל.

לבסוף, טכנולוגיות Big Data משתנות בקצב מהיר מדי, ומאוד קשה לגשר על הפער שנוצר כמעט באופן קבוע, פעם באימוץ טכנולוגיה חדשה, פער בידע לצורך השימוש בה, בניית ארכיטקטורה חדשה. לפני מספר שנים, Apache Hadoop היתה הטכנולוגיה הפופולרית והמובילה המשמשת לניתוח Big Data. אז Apache Spark הוצגв בשנת 2014. היום, שילוב של שתי פלטפורמות נראה כגישה הטובה ביותר. כל שמעקב אחר טכנולוגיות Big Data הוא אתגר מתמשך.

אילו טכנולוגיות קיימות לניהול ביג דאטה?

קיימים אינספור כלים ופלטפורמות לניהול ביג דאטה. ישנן טכנולוגיות בולטות ושכיחות יותר העומדות לשירותם של הארגונים, דוגמת Cassandra ,Hadoop, Couchbase, MongoDB ועוד. עם הביקוש לטכנולוגיות לימודי ביג דאטהBig Data המתרחבות במהירות, Apache Hadoop נמצאת בלב המהפכה.

הטכנולוגיה שפותחה בין השנים 2006-2004 ואומצה על ידי מרבית מנועי החיפוש והרשתות החברתיות המקוונות, ומאז היא גם חודרת בהדרגה ככלי תשתית מתקדם, ייחודי וסופר יעיל בכל ארגון המחפש תשתית מנצחת לניהול מידע והניתוח שלו.

כאמור כמות הכלים שיש היום בשוק הוא עצום והמספר הזה רק הולך וגדל, וקשה לפרט על כולם. להפשטה להלן המפה של הכלים שקיימים נכון לשנת 2017 (לחצו להגדלה):

מקור התמונה: http://mattturck.com/bigdata2017/

 

מתעניינים בלימודי ביג דאטה? חשוב שתכירו מהי טכנולוגיית Hadoop

בהגדרתו, Hadoop מהווה פרויקט קוד פתוח המאפשר יישום מבוזר המעבד נתוני Big Data. אם ברצוננו לפשט את ההגדרה המעט עמומה נסביר שזוהי פלטפורמה שעליה “יושבת” תוכנה, והתוכנה מאפשרת חיבור של מספר שרתים שונים, על מנת שיעבדו כיחידה ממוחשבת אחת.

טכנולוגיית Hadoop שמה דגש על שתי משימות עיקריות: האחת – אחסון נתונים מבוזרים; והשנייה – עיבוד נתונים מבוזרים.

אם כך, האם Hadoop אינה מתאימה לניהול מאגרי מידע קטנים בארגונים קטנים?

היא בהחלט מתאימה, אולם במקרים אלה שבהם כמויות המידע אינן עצומות מאד ו/או כאשר ישנה חשיבות גבוהה לשליפה ולעיבוד מהירים של נתונים, ניתן להשתמש בטכנולוגיית האדופ ולהכניס בה “שיפורים”. הכוונה היא לכלים תומכים שמייעלים אותה בהתאם לתכתיבי המציאות המאפשרים לה לתת מענה לדרישות ניהול מידע גם כשמדובר במידע שאיננו “ביג דאטה”. לשם כך יש צורך במומחי Hadoop.

3 סיבות למה ללמוד קורס מומחה Hadoop?

1.ביקוש – בעולם הטכנולוגי הנוכחי ישנו ביקוש עצום למי ששולט בביג דאטה בכלל ובטכנולוגיית Hadoop בפרט. ארגונים רבים ומגוונים מחפשים “אשפים” שיתמודדו עם האתגר הכי מרתק של השנים האחרונות, ואשר בידיהם מצויים הידע, הכלים והמיומנויות הנחוצים כדי לסייע לארגונים לבסס תשתית יעילה לניהול המידע שלהם.

2. היצע – לפני מספר שנים התפקיד של מומחה Hadoop לא היה קיים. בעצם אנחנו נמצאים בתקופה שבו התפקיד מתחיל להתגבש, והתחום רק הולך וגדל בכל יום. כמעט בכל תחום שתוכלו לחשוב עליו משתמשים בצורה כזאת או אחרת ב- Big Data ובמומחי Hadoop שיעזרו להם.

3.שכר – אז אם פעם אמא יהודיה רצתה בן עורך דין, היום אנחנו ממליצים לה לבקש בן שהוא מומחה Hadoop. נכון המשפט פחות קליט, אבל בסקרי שכר שנערכים על ידי חברות השמה שונות, המככבים בראש טבלאות השכר הם מומחי Hadoop.

מומחים אלו יוכלו לסייע לכל ארגון בפרויקטי פיתוח חשובים הכוללים הטמעת מערכות ביג דאטה לסוגיהן, ובראשן טכנולוגיית Hadoop.

לחצו למידע ולבדיקת התאמה לקורס Hadoop.

לצפייה בוובינר מקצועי אודות הכשרת – הכשרת מומחה Big Data Hadoop: