N
תוכן עיניינים:
- Data Engineer vs. Data Scientist
- מה זה Data Foundations או התשתית ליצירת ואחסון הנתונים?
- Data Architect vs. Data Engineer
- מה ההבדל בין תפקיד Data Architect ל- Data Engineer
- תפקידים בתחום הדאטה אשר לוקחים חלק פעיל בבניית ארכיטקטורת נתונים ארגונית
- Data Engineering Skills
- מסלול הכשרה Data Engineer
מה זה Data Engineer – מהנדס נתונים?
רוצה להיות מהנדס נתונים? היתקשר.י עכשיו ויועצת לימודים תיתן לך את כל הפרטים:
או השאירו פרטים ונחזור אליכם בהקדם האפשרי:
עבודתם של Data Engineers היא טכנית ביותר. הם אחראים על תכנון ושמירה על ארכיטקטורה של מערכות מידע, אשר משלבת מושגים החל מתשתיות אנליטיות ועד מחסני נתונים.
מהנדסי נתונים צריכים להיות בעלי הבנה מעמיקה בשפות scripting נפוצות, כדוגמת SQL, Python, והם דואגים שיפור מתמיד של איכות הנתונים, נדרשים לתמוך בכמויות דאטה שהולכות וגדלות, וזאת על ידי מינוף ושיפור של מערכות ניתוח הנתונים.
מהנדסי נתונים אחראים גם ליצירת השלבים והתהליכים המשמשים במידול, כרייה, אימות והשגת נתונים. מהנדסי נתונים עובדים בסביבה של Big Data.
הביקוש במהנדסי נתונים מיומנים הולך וגדל במהירות גבוהה בשנים אחרונות.
בעולם המודרני, עסקים וארגונים זקוקים ואף דורשים ארכיטקטורת נתונים חזקה לאחסון וגישה לנתונים.
הביקוש למהנדסי נתונים עולה כאשר הארגון מתרחב ונכנס לתחום Data Science. כתוצאה מכך, לאחרונה אנחנו שומעים יותר ויותר על דרישה לאנשי Data Engineering.
ארגון יכול להניח כי הוא יכול לפתח את מיומנויות הללו ולייצר נסיון בהנדסת נתונים תוך כדי העבודה השוטפת באמצעות פרוייקטים.
מנסיונם של ארגונים שניסו להתקדם באופן הזה, הנחה זו שגויה.
אם אנשי דאטה בארגון לא מביאים איתם נסיון פרקטי וידע בבניית Data Pipeline (“צינור לתעבורת הנתונים”), בעבודה עם מערכת לניהול נתונים – Data Management System, בניתוח נתונים, וכמובן בכתיבת קוד אשר יהפוך את הנתונים לזמינים ונגישים, ויכול להבטיח שהנתונים נכונים, בדיעבד הארגונים מגלים שהם טעו בהנחות שלהם, התהליכים לא רצים באופן תקין, ואותן הטעויות חוזרות על עצמן.
Data Engineer vs. Data Scientist
מהנדס נתונים ומדען נתונים – הכישורים והאחריות של מדעני נתונים ומהנדסי נתונים חופפים לעתים קרובות, אם כי שני התפקידים הופכים יותר ויותר לתפקידים נפרדים.
- Data Scientists נוטים להתמקד בתרגום של נתוני Big Data לתוך בינה עסקית Business Intelligence, בעוד דאטה אינגינר מתמקד הרבה יותר בבניית תשתית ליצירת נתונים.
- Data Scientists צריכים את Data Engineers כדי לקבל את הסביבה ואת התשתית על גביה הם עובדים, והם מתמקדים יותר באינטראקציה עם התשתית מאשר בבנייתה ותחזוקתה, הם מקבלים את האחריות של לקיחת נתונים גולמיים (raw data) כדי להפוך אותם למידע שימושי, מובן, ומוכן לניתוח.
- Data Scientists הינם לקוחות פנימיים של Data Engineers ומוטלת עליהם משימה של הובלה וביצוע מחקר ברמה גבוהה כדי לזהות מגמות ושינויים, ע”י שימוש במגוון של תשתיות וכלים, שיטות וטכניקות מתוחכמות לניצול מקסימלי של הדאטה. לעומת זאת, מהנדסי נתונים פועלים כדי לתמוך במדעני נתונים ואנליסטים, ומספקים תשתית וכלים שניתן להשתמש בהם כדי לספק פתרונות מקצה לקצה לבעיות עסקיות.
- מהנדסי נתונים בונים תשתית הניתנת להרחבה, בעלת ביצועים גבוהים, וזאת כדי לספק תובנות עסקיות ברורות ממקורות נתונים גולמיים; ליישם פרויקטים אנליטיים מורכבים עם דגש על איסוף, ניהול, ניתוח, ויזואליזציה של נתונים; וכמובן על מנת לפתח פתרונות אנליטיים בזמן אמת.
- Data Scientists עובדים עם נתוני Big Data, ו- Data Engineers עובדים עם תשתיות ליצירת ואחסון נתונים אלה – Data Foundations.
- ומבחינת הידע והכלים שמשתמשים בהם, אז Data Scientists עובדים לרוב עם R, SPSS, Hadoop, Python, והינם בעלי יכולות אנליסטיות גבוהות, וידע בבניית מודלים, כאשר Data Engineers הינם בעלי ידע בכלים כגון: SQL, MySQL, NoSQL, Cassandra ועוד כלים רבים ומגוונים בסביבות של בסיסי נתונים רלציוניים וגם NoSQL.
מה זה Data Foundations או התשתית ליצירת ואחסון הנתונים?
Data Foundations הינה סביבה/תשתית התומכת בכל סוגי הדוחות והניתוח. מטרתו של מהנדס נתונים היא לספק נתונים מהימנים, מאורגנים ומעודכנים לתמיכה ב- Analytics וב- Reporting.
תשתית חזקה מציעה לארגונים יתרונות עצומים, מה שהופך אותם ליעילים יותר בהתנהגותם ובקבלת ההחלטות שלהם.
היתרונות השימושיים כוללים:
- שיפור התקשורת הארגונית ושיתוף מידע בתחום הדאטה
- תשתית אחת לכל המידע הארגוני
- גרסה אחת של הרשומות נשמרת
- תמיכה בהבנה משותפת של מידע בארגון
ברגע שארגון לא מיישם תשתית חזקה ויעילה, הוא מגדיל את הסיכונים בתחום אבטחת המידע, ותומך בחוסר יעילות בתוך הארגון.
תשתית נתונים גרועה יכולה לספק תשובות מרובות לאותה השאלה ולתמוך פחות בתהליך קבלת החלטות עסקיות חכמות.
Data Architect vs. Data Engineer
Data Architect ו-Data Engineer עובדים במקביל על בניית הקונספט של נתונים, זרימת הנתונים, ויזואליזציה, ולאחר מכן בניית Enterprise Data Management Framework.
ארכיטקט נתונים, בדומה לתפקיד של מנתח מערכות, מתאר את הסביבה המלאה והמבנה, כאשר דאטה אינגינר משתמש בתוצר זה כדי לבנות את הסביבה. ל- Data Architect יש את היכולת “לעשות סדר בתוהו ובוהו בנתונים”. בלי זה, כמויות עצומות של נתונים עסקיים הינם חסרי תועלת.
ארכיטקט הנתונים מגדיר מקורות מידע בארגון וכיצד הם נשלטים. הוא אחראי על הבנת היעדים העסקיים מצד אחד ועל תשתית הנתונים הקיימת מצד שני; הוא מגדיר עקרונות ארכיטקטורת הנתונים ומעצב אותה כדי לספק יתרונות תחרותיים לארגון.
כאשר ארכיטקט נתונים מעצב את “תכנית העבודה” עבור ניהול נתונים ארגוני, כל צוות של Data Science יבקש מארכיטקט נתונים להמחיש ולהכין נתונים בסביבה שניתן להשתמש בה לתחקור הנתונים.
לעתים קרובות מאוד, מומחים אלה הינם בעלי תארים אקדמיים במדע המחשב, שנים של נסיון במערכות שונות או פיתוח יישומים/אפליקציות, וכן ידע עמוק בניהול מידע.
בדרך כלל, מקצועני דאטה בתחילת דרכם יצטרכו לסלול דרך ארוכה בתכנון נתונים, ניהול נתונים ועבודת עם מערכות אחסון נתונים, לפני שיוכלו להתקדם לתפקיד של ארכיטקט נתונים.
מהנדסי נתונים מסייעים לארכיטקט הנתונים ליישם ולבנות את התוכנית שנוצרה – לבנות סביבה ותשתית תקינה לחיפוש ואחזור נתונים, כך שגם מדענים וגם אנליסטים יוכלו להשתמש בה מאוחר יותר.
ברוב המקרים, מהנדס נתונים רוכש את הכישורים שלו באמצעות הכשרות פורמליות וקורסים קצרים וממוקדמים לטכנולוגיה ספציפית. בעולם ה- Big Data, מהנדסים אלה אחראים לבנייה ותחזוקה של Enterprise Data Architectures.
לפי כך, אז מה ההבדל בין שני התפקידים?
- ארכיטקט נתונים בונה קונספט של סביבה ותשתית לעבודה עם נתונים; מהנדסי נתונים בונה ומתחזק אותה.
- ארכיטקט נתונים מנחה את צוותי מדעני נתונים בעוד שמהנדסי נתונים מספקים סביבה תומכת לתפקוד תקין של נתונים ארגוניים.
- פעם ארכיטקט נתונים מילא את התפקיד של מהנדסי נתונים; אבל החל מלפני כ-4 שנים ניתן לראות שהנדסת נתונים כתחום ותפקיד נפרד צומח מאוד וישנה דרישה גוברת באנשים לתפקיד זה.
- למרות שגם ארכיטקט נתונים וגם מהנדס נתונים הם מומחים על טכנולוגיות ניהול מסדי נתונים, עדיין הם משתמשים בידע שלהם בצורה שונה בתפקידים שלהם.
נתאר מספר תפקידים בתחום הדאטה אשר לוקחים חלק פעיל בבניית ארכיטקטורת נתונים ארגונית:
- Data Architect – ארכיטקט הנתונים מתאר את חזון בתחום הנתונים על פי דרישות הארגון, מתרגם אותו לדרישות הטכנולוגיות ומגדיר תקני נתונים ועקרונות.
- Project Manager – מוביל את הפרויקט שיוצר זרימת נתונים חדשים.
- Solution Architect – מעצב מערכות מידע כדי לעמוד בדרישות העסקיות. לרוב מדובר באותו האדם שנמצא בתפקיד Data architect.
- Cloud Architect או Data Center Engineer – מכין את התשתית שעליה יפעלו מערכות המידע, כולל פתרונות אחסון בענן ולא רק.
- DBA או Data Engineer – בונה מערכות מידע, מבצע אינטגרציה עם מקורות מידע ואחראי על איכות הנתונים.
- Data Analyst – הינם משתמשי קצה בארכיטקטורת הנתונים, משתמשים בה כדי ליצור דוחות ולנהל עדכון נתונים שוטף עבור העסק.
- Data Scientists – גם משתמשים בארכיטקטורת הנתונים וממנפים אותה ע”י שימוש בטכניקות מתקדמות של תחקור הנתונים לקבלת תובנות חדשות.
Data Engineering Skills
באופן כללי, מהנדסי נתונים צריכים הבנה טובה בניהול מסדי נתונים, הכוללת ידע מעמיק של שפת שאילתות מובנית – שפת SQL. הם בונים תשתיות, כלים, סביבות ושירותים.
המיומנויות השימושיות ביותר הינן:
- ניסיון בעבודה עם Apache Hadoop, Hive, MapReduce, Hbase, וטכנולוגיות NoSQL נוספות.
- רמה גבוהה של תכנות – היכרות ונסיון עם לפחות אחת משפות התכנות העיליות כגון Python, Java, Scala או בשפות אחרות יכולים להיות מאוד שימושיים.
- נסיון בעבודה עם Linux מסייע מאוד, שכן מערכות מידע רלוונטיות רצות על מערכת הפעלה זו לרוב.
- ידע ונסיון בבניית ETL – הניסיון הזה הינו הכרחי עבור התפקיד. ETL הוא תהליך אחסון נתונים המשמש לשליפת נתונים ממערכות מקור ולאחר מכן לאחסנה במחסן נתונים. היכרות עם כליETL ופתרונות לאחסון נתונים היא בעלת ערך רב.
- Machine Learning – זהו תחום התמקצעות של Data Scientists , אבל הבנה טובה על התחום ועל תפקידם של Data Scientists – מסייעת לעבודה של מהנדס נתונים, היות ויש קשר הדוק עם נתוני Big Data. תהליכי Machine Learning מאוד יעילים בניתוח נתוני Big Data, ותומכים בטכניקות רבות לטיפול בנתונים גדולים ולהשגת מסקנות.
צפו בקטע המסביר מהו ETL
מסלול הכשרה Data Engineer
נאיה קולג’ מציעה מסלול הכשרה ייחודי ובלעדי לתפקיד של Data Engineer.
המסלול מכיל את הטכנולוגיות המתקדמות ביותר בעולם ה – Big Data – במודול הראשון של הקורס, והמודול השני מתמקד בהקניית יכולות תכנות ומניפולציה על נתונים באמצעות שפת Python, וכמובן תחקור הנתונים בסביבת Big Data באמצעות Spark. המסלול מכיל גם מסלול מודולים להעשרת הידע כגון טכניקות מתקדמות ואתגרים בתהליכי ETL, טכנולוגיות הענן – AWS, ומבוא ל-Machine learning.
צפו בחלק משיעור Spark שמעביר אופיר עפרי במסגרת מסלול Big Data Engineer
המסלול מציע לימודים פרקטיים ומעשיים, כך שהתרגול בכיתה מסתכם בכ-40%, ומכיל פרויקט מעשי מורכב אשר דושר ידע ויישום של כל הטכנולוגיות שנלמדו במהלך המסלול.