כמויות המידע שמייצרת ואוגרת האנושות הולכות וגדלות בקצבים מסחררים, במיוחד בארגונים שהנתונים בהם הינם המוצר המוביל (Data-Driven). על מנת לתת מענה לכמויות עצומות של מידע הטכנולוגיות האחסון הולכות ומשתכללות, בו בזמן עם שכלול יכולות ניתוח ועיבוד על מנת לתת ערך אמיתי לארגון, להפיק מהמידע את התובנות העסקיות ולנסות לחזות מגמות עתידיות. הטכנולוגיות מאפשרות להשתמש בנתונים המגיעים ממקורות שונים ובפורמטים שונים – החל ממערכות פנים ארגוניות, כגון: CRM, ERP ואחרות ועד ציוצים בטוויטר. נתונים אלה – המכונים Big Data – מאפשרים לחברות וארגונים בתחומי פעילות שונים לשפר את תהליכיי קבלת ההחלטות ולטייב את התהליכים העסקיים שלהם.
למעשה מדובר באתגר עסקי מצד אחד, הרי שהיכולת להפיק ידע בעל ערך מנתונים הפכה בשנים האחרונות למשאב ארגוני קריטי אשר ביכולתו לשמש מכפיל כוח בהשגת מטרות עסקיות. מאידך מדובר גם באתגר טכנולוגי ולהתמודד איתו באות פלטפורמות NoSQL. אלה הם מאגרי מידע הכוללים נתונים בנפחים גדולים, התומכים במידע שאינו מובנה או טבלאי (Unstructured). אלה בסיסי נתונים התומכים במידע אשר מגיע ממקורות רבים, בכמויות גדולות, בפורמטים מגוונים ובאיכויות משתנות. ל- Big Data שלושה מאפיינים: נפח, מהירות ומגוון.
- נפח – עסקים כיום מוצפים בכל רגע בנתונים וצוברים בקלות טרהבייטים ואפילו פטהבייטים של מידע, המגיע ממקורות כגון: אתרי אינטרנט, רשתות חברתיות, מכשירים סלולריים, מצלמות אבטחה, סנסורים ועוד
- מהירות – המהירות שבה מידע חדש נוצר ונכנס או יוצא מהמערכת, בעולם שבו בכל שנייה נכנס מידע רב למערכות, היכולת להתמודד עם שטף המידע היא אתגר קשה מאוד
- מגוון – סוגי המידע הנאספים, כמות המקורות וכדומה. את המידע הנכנס לארגון לא ניתן כבר לסדר בצורה טבלאית (שורות ועמודות שהוא מידע מובנה) ולכן האתגר הוא לנהל מידע ששונה במבנה שלו (טקסט, שמע, וידאו, לחיצות עכבר, קבצי לוג ועוד.)
Big Data הוא לא רק אתגר, אלא גם הזדמנות לחשוף תובנות חדשות מתוך סוגים חדשים של מידע, להפוך עסקים לגמישים יותר, תחרותיים יותר ולפתור שאלות שבעבר נותרו ללא מענה. השימוש בפתרונות Big Data מקיף וחולש על כלל החברות והתעשיות. השאלה האמיתית היא כיצד ניתן להוביל לאופטימיזציה של התהליכים והסביבה כדי ליצור פתרונות מהירים ויעילים יותר שיקנו לארגון יתרון תחרותי על פני המתחרים.
הפתרונות בתחום Big Data מגיעים מחברות יצרניות ומפיצות המובילות במספר תחומים, וביניהם:
- אחסון דיגיטלי: EMC, IBM ו-NETAPP
- מסדי נתונים יחסיים: Teradata או Oracle (על ידי Oracle Exadata) ו-IBM (באמצעות InfoSphere)
- חיפוש ומידע: Google, Amazon, Elastic
- סטטיסטיקה, כריית מידע: Cloudera Hadoop
- אחסון ותפעול המידע: Cassandra, MongoDB
דוגמאות נוספות שאנחנו רואים לאחרונה הן: בסיסי נתונים מבוזרים רלציונים (כגון: NueDB), בסיסי נתונים לניתוח אנליטי (עבור בינה עסקית) לדוגמא: redshift, vertica ,in memory, realtime.
המידע לא נשמר רק בצורה מובנית טבלאית (structured) אלא רובו נשמר כלא מובנה (unstructured), אלפי ומיליוני קבצים הנשמרים במערכות מבוזרות של שרתים, כגון: Hadoop, והניתוח שלהם מורכב יותר שכן יש צורך “לחלץ “מהם את המידע ולתשאל אותם על אף היותם מבוזרים.
המושגים שאנחנו שומעים לאחרונה, כגון: Hadoop, Spark, Mapreduce, Hive, Scala ועוד, הינם חלק בלתי נפרד מתחום Big Data.