24.11.2025

מאחורי האלגוריתם: הדאטה הוא הסיפור האמיתי

בזמן שהתחרות בין מודלי ה-AI המובילים תופסת את הכותרות, שאלת הדאטה נדחקית לאחור. מחקר שערכנו בין עשרות מומחי AI ודאטה גילה שאלגוריתמיקה מתוחכמת ומודלים מתקדמים הם לא הפקטור המכריע בין הצלחה וכשלון אלא איכות הדאטה לאורך כל הפרויקט. 

מה משותף לכל מומחי ה-AI והדאטה בעולם? 

כדי להבין היכן העולם נמצא היום בהקשרי פיתוח מערכות בינה מלאכותית, חשוב לדבר עם השטח. וזה בדיוק מה שעשינו.  

במחקר שפרסמנו לאחרונה, ד״ר מעיין נקש ואנכי (״Behind the Algorithm: International Insights into Data-Driven AI Model Development״, שבוצע בסיועו של תומר יצקן) ניתחנו עשרות ראיונות עומק עם מנהלי/ות AI ודאטה בכירים: CTOs, CAIOs, CDOs, מהנדסים וחוקרים מתעשיות שונות וממדינות שונות. מטרתנו הייתה למפות איך מומחים עובדים עם דאטה לאורך מחזור החיים של מערכות AI ואיפה החסמים הכי משמעותיים שלהם. 

התמונה שעלתה הייתה עקבית: עבודה על דאטה היא מאומצת, איטרטיבית ודורשת תיאום בין אנשים וצוותים, תשתיות ונהלים. בעיקר, היא זו שמכריעה את איכות המוצר ואמינותו, הרבה יותר מה״קסם״ האלגוריתמי. 

שוחחנו עם מומחי דאטה ו-AI מארה״ב, אירופה, הודו וישראל, וכולם העידו שאלגוריתמיקה מתוחכמת ומודלים, מתקדמים ככל שיהיו, אינם הפקטור המכריע בין הצלחה וכשלון של מערכות. מה שמכריע את הביצועים, העלויות והאמון כלפי המערכות והחברה, הוא תשתית הדאטה: איכות הדאטה לאורך כל מחזור החיים של המערכת. 

מה מקור הבעיה? 

דאטה בארגון אינו ״קלט״ חד פעמי, אלא שרשרת אספקה חיה (איסוף, ניקוי, איחוד, תיוג, תיעוד, ועוד – ראו איור). בכל אחד מהצמתים יכולים להיווצר עיוותים: שדות חסרים במסדי נתונים חדשים, תיוגים לא עקביים בין צוותים, מטה-דאטה חלקי שמסתיר הקשרים, דריפט תפעולי, ועוד. הדאטה הוא תשתית חיה ונושמת, משתנה בזמן אמת, נושא עמו הטיות אנושיות, מושפע מהקשרים תרבותיים, עסקיים ורגולטוריים. בהעדר יכולת מעקב ברורה אחר הזרימה של הדאטה בארגון והיכולת לטייב אותו (וכמובן, בהעדר הקצאת משאבים ראויה) – המערכת לומדת פעמים רבות על דאטה לא עדכני, פגום, משובש. מערכת כזו בהכרח מרחיקה את הארגון מהתוצאה העסקית הנכספת 

מודל מחזור החיים של הבינה המלאכותית
הדאטה הוא לא רק ״חומר גלם״, אלא התשתית של המוצר כולו 

במונחים עסקיים פשוטים הדבר מוביל ל: 

  • פגיעה בביצועים: רעש או לכלוך בדאטה פוגע ישירות ביצירת תחזיות, ומוביל לתובנות שגויות או חלקיות, לעיתים קריטיות. 
  • אובדן מידע יקר: בהעדר יכולת ניטור, שדות מרכזיים הולכים לאיבוד. כל נתון קריטי שחסר פוגע בבסיס קבלת ההחלטות, ומונע מהארגון למצות את הפוטנציאל של המערכת. 
  • התייקרות תפעולית: צוותים טובעים במרתון של ״כיבוי שריפות דאטה״, בהעדר שקיפות אמיתית (observability)  לגבי מצב הדאטה, הזרימה בצינורות המידע, והאיכות שלו בכל תחנה. 
  • שחיקת אמון: כל טעות חוזרת, או החלטה שאי אפשר להסביר פוגעות באמון הלקוחות, המשתמשים, הדירקטוריון ואפילו הרגולטור. חוסר בהירות בדאטה הוא קרקע פורייה לאי ודאות עסקית ולסיכון מוניטיני. 

 

 

שינוי פרדיגמה: מ-Model-Centric AI ל- Data-Centric AI 

אחד הממצאים המעניינים שזיהינו הוא הפער בין שיח אקדמי לבין העולם האמיתי: למרות שדאטה הוא ״הלב הפועם״ של מערכות AI רוב המחקר עדיין נשאר ממוקד מודל (Model-Centric AI) ורק מיעוט קטן עוסק בשאלות של הכנה, תיקוף ואיכות הדאטה. בשטח, לעומת זאת, אנשי המקצוע ב״עולם האמיתי״ מבלים את רוב זמנם דווקא בעבודת הדאטה, הסיזיפית יש לומר. 

לשמחתנו, יש תזוזה לכיוון הרצוי. 

ההבנה שמתגבשת ובאה לידי ביטוי במחקר שלנו, היא שהמעבר מModel-First ל Data-First בעיצומו. בעוד ששנים הניחו שמודלים טובים יותר הם הפתרון לכל התחלואות שאנו מכירים, מומחי AI, אומרים היום באופן גורף: איכות הדאטה היא הגורם שיביא לשיפור ביצועים מהותי יותר, חסכוני יותר ויבטיח מערכות טובות ובטוחות יותר.  

השורה התחתונה פשוטה: מודל אפשר להחליף בלחיצת כפתור, תרבות דאטה בונים. הארגונים שיצליחו בעידן ה– AIיהיו אלה המבינים שהעבודה האמיתית, המורכבת, הקריטית – היא הדאטה. מי שמאמץ היום גישת Data-First יקבל מחר מערכות אמינות יותר, הוגנות יותר ורווחיות יותר. מי שלא מציב את איכות הדאטה במרכז, משחק ב״רולטה טכנולוגית״. רק שבניגוד לקזינו, כאן בהפסד, כולנו נשלם את החשבון. 

 

מבוסס על מחקר עומק בינלאומי שנערך עם עשרות מנהלי דאטה ו– AI בכירים ברחבי העולם. למעמיקים/ות: 

Ziv, L., & Nakash, M. (2025). Behind the Algorithm: International Insights into Data-Driven AI Model Development. Machine Learning and Knowledge Extraction, 7(4), 122.
https://www.mdpi.com/2504-4990/7/4/122 

למידע נוסף:  https://www.linkedin.com/in/limorziv 

 

כלי נגישות