The Invisible Error: A Real Case of Silent Data Loss in AI Output

הערה על הנתונים

כל הדוגמאות בפוסט הופקו באמצעות נתונים סינתטיים: מטופלים, אתרים ותאריכי ביקור שהומצאו לצורך ההדגמה. לא נעשה שימוש בנתוני מחקר אמיתיים. קובצי המקור, הפרומפטים וכלי המעקב שה-AI יצר זמינים כולם להורדה בסוף הפוסט, כדי שתוכלו לשחזר את הבדיקה בעצמכם.

01משימה שנראית תפורה ל-AI

הנה משימה שכמעט כל מי שעוסק בניסוי קליני יזהה. יש לכם שני קבצים. אחד עם כל המטופלים שגויסו ותאריכי הגיוס שלהם. השני כולל את הביקורים של כל מטופל בניסוי, התאריכים שבהם התקיימו ואת לוח הביקורים עם חלונות הזמן המותרים מהפרוטוקול. המטרה, לייצר כלי מעקב אחד שמראה את ההתקדמות של כל מטופל, מסמן ביקורים שחרגו מחלון הפרוטוקול וביקורים חסרים.

בדיוק סוג העבודה החזרתית והמובנית ש-AI מטפל בה היטב. הפרומפט היה פשוט וטבעי:

צור כלי מעקב עבור המטופלים במחקר. אני רוצה לראות את ההתקדמות של כל מטופל, במיוחד ביקורים שבוצעו מחוץ לחלון הפרוטוקול וביקורים חסרים.

בתוך שניות ה-AI הפיק כלי אקסל מלוטש: דשבורד מסכם, טבלה לפי מטופל, רשימת חריגות נפרדת, ופירוט נקי של כמה ביקורים בוצעו בזמן, מוקדם, באיחור או חסרים. כלי המעקב נראה נכון. הוא לא.

02החלק שה-AI עשה נכון

כדאי להיות הוגנים כלפי ה-AI, כי קל לפרש את הכשל לא נכון. לוח הביקורים בפרוטוקול, יום היעד לכל ביקור וחלון הזמן המותר סביבו נכללו בקובץ המקור. ה-AI קרא אותם, יישם אותם נכון, וסימן במדויק ביקורים מחוץ לחלון מול הכלל מהפרוטוקול. החלק הקשה, זה שדומה לשיקול דעת, עבד.

ל-AI לא היה חסר מידע. הוא לא ניחש כלל שלא היה ברשותו. היה לו את כל המידע שהוא צריך, והוא השתמש בו נכון.

03מה השתבש בפועל

כלי המעקב דיווח על חמישה ביקורים כחסרים, כלומר שחמישה ביקורים מתוכננים מעולם לא התקיימו.

הם כן התקיימו. עבור שני המטופלים האחרונים בקובץ, תאריכי הביקור היו בנתוני המקור כל הזמן: שני ביקורים שהושלמו עבור מטופל אחד, וכל שלושת הביקורים עבור האחר. ה-AI פשוט איבד את השורות האלה בזמן בניית כלי המעקב, ואז דיווח על היעדרן כממצא.

בלי סימן, בלי הודעת שגיאה, בלי תא ריק שנותר בולט לעין, ובלי הערה שאומרת ״לא הצלחתי לעבד את הרשומות האלה.״ חמשת הביקורים שאבדו הופיעו בכלי המעקב כשהם נראים כמו ביקור שבאמת הוחמץ. מתוך כלי המעקב לבדו, לא הייתה דרך לדעת שמשהו לא בסדר.

Side-by-side comparison: the AI tracker flags five visits for subjects 004-024 and 004-025 as Missing, while the source file records all of those visits with real dates (synthetic data). — הנבדקים 004-024 ו-004-025 בכלי המעקב של ה-AI (משמאל) מול קובץ המקור (מימין). כלי המעקב מדווח על חמישה ביקורים כ״חסרים״ (ורוד), אף שכל אחד מהביקורים האלה קיים בנתוני המקור עם תאריך אמיתי (מודגש). הנתונים היו שם כל הזמן; הם פשוט הלכו לאיבוד בדרך.

04למה סוג כזה של כשל מסוכן

רוב הכשלים "מכריזים" על עצמם. קובץ לא נפתח, נוסחה נשברת, ה-AI אומר שהוא לא יכול לעשות משהו. אנחנו שמים לב, ומתקנים. כשל רועש מגן עלינו, כי הוא עוצר אותנו.

כשל שקט עושה את ההפך. הוא נותן לנו להמשיך. הנתונים שגויים, אבל כלי המעקב נראה מלא, שוטף ובטוח, ושום דבר לא מצביע על הבעיה. כדי לתפוס אותה, היינו צריכים לבדוק את התוצר מול המקור ידנית - בדיוק העבודה שרצינו לחסוך והסיבה שפנינו ל-AI. הנזק לא נובע מהטעות עצמה, אלא מ היעדר סימן שמאפשר למשהו שגוי להתקדם כשמאחוריו הביטחון המלא שלנו.

המקרה הזה חמור יותר מטעות שקטה רגילה, מסיבה מסוימת. רוב הטעויות השקטות עדיין משאירות משהו מעט חריג שאפשר לתפוס: ערך במקום הלא נכון, מספר שלא מסתדר, ולכן עדיין יש סיכוי שנבחין בהן. כאן זה לא קרה. תפקידו של ה-AI היה למצוא ביקורים חסרים, והנתונים שהוא איבד הופיעו בתור ביקורים חסרים. השגיאה לא נראתה כמו שגיאה. היא נראתה כמו הכלי שעושה את העבודה.

כשל שקט בשלמות נתונים הוא מצב שבו הנתונים שגויים, אבל התוצר לא נותן שום סיבה לחשוב כך. כאן, רשומה שאבדה לא נראתה כמו שגיאה היא נראתה כמו תוצאה.

05ה-AI כשל. ניסוח טוב יותר של פרומפט היה מגלה את השגיאה.

ראשית, חשוב לומר בבירור מה השתבש: ה-AI איבד נתונים. זה כשל אמיתי, ושום ניסוח לא היה מונע אותו בוודאות. AI עלול להשמיט שורות ולחבר מידע בצורה שגויה. ניסוח טוב יותר של פרומפט לא מעלים את הסיכון הזה.

מה שהניסוח כן יכול לעשות הוא להציף את הכשל. הפרומפט ביקש תשובה. הוא לא ביקש מה-AI להראות שהתשובה מבוססת על נתונים שלמים.

06איך ניסוח טוב יותר מוציא את הטעות לאור

אי אפשר לנסח פרומפט שימנע כל טעות. מה שכן אפשר לעשות הוא לאלץ כשל שקט להפוך לרועש, לגרום לכלי המעקב עצמו לחשוף את הבעיה במקום להסתיר אותה. שלושה הרגלים עושים את רוב העבודה.

1
להגדיר את המונחים, כדי שה-AI לא יסיק בשקט מונחים שגויים.
״ביקור חסר״ צריך לקבל משמעות ספציפית. למשל, שורת ביקור שקיימת אבל אין בה תאריך רשום; ומטופל שאין לו תאריך גיוס צריכים להיות מסומנים ״לא ניתן להעריך״, לא ״חסר״. אם לא נגדיר זאת, ה-AI יחליט בעצמו מבלי שנכיר את ההחלטה.
2
לגרום ל-AI להצליב את התוצר מול הנתונים.
לבקש ממנו, לפני שהוא מוסר תוצר, לדווח כמה רשומות נכנסו, כמה יצאו ולאשר שהמספרים תואמים. ההוראה הבודדת הזאת הייתה חושפת את השגיאה מיד: המקור הכיל 300 רשומות ביקור, כלי המעקב כלל רק 295. אילו התבקש להצליב, ה-AI היה נאלץ להסביר את חמש הרשומות החסרות במקום לקבור אותן בעמודת ה״חסר״.
3
לגרום ל-AI להצהיר מה לא הצליח לשבץ.
תשובה שמגיעה עם רשימה קצרה של ״זה מה שלא הצלחתי להביא בחשבון״ בטוחה הרבה יותר מתשובה נקייה שבלעה בשקט את החריגות.

כשמחברים את הכול, הגרסה החזקה יותר של אותו פרומפט משאירה את המידע בדיוק כפי שסופק ומוסיפה את בדיקת העצמי שהייתה חסרה:

בנה את כלי המעקב באמצעות חלונות הפרוטוקול בלוח הביקורים. השתמש רק בהם. הגדר ביקור כ״חסר״ רק אם השורה שלו קיימת אבל תאריך הביקור ריק; אם למטופל אין תאריך גיוס, סמן את הביקור ״לא ניתן להעריך״, לא חסר. לפני שתיתן לי את המעקב, הצלב ודווח: כמה מטופלים וכמה רשומות ביקור יש בכל קובץ מקור, וכמה מהם מופיעים בפלט שלך. המספרים חייבים להתאים. פרט כל רשומה שלא הצלחת לשבץ, ואשר ששום שורת מקור לא הושמטה.

הפרומפט הראשון ביקש מה-AI למצוא בעיות בנתונים. השני מבקש ממנו גם להביא את שלמות הנתונים בחשבון, והתוספת הזו היא ההבדל בין טעות שאנחנו מפספסים לבין טעות שאנחנו יכולים לתפוס.

The tracker produced by the improved prompt, showing all patient visits accounted for with no false missing-visit flags. — המעקב שהופק באמצעות הבקשה המשופרת. כל 300 רשומות הביקור נלקחו בחשבון, שלב ההצלבה עבר בהצלחה, ואף ביקור לא סומן בטעות כחסר.

07העיקרון שכדאי לזכור

ניסוח טוב יותר של פרומפט הוא לעיתים רחוקות עניין של מילים חכמות או של הוספת עוד ועוד פרטים. ניסוח טוב הוא עניין של צמצום המרחב של ה-AI לנחש, ושל דרישה ממנו לתת דין וחשבון על התוצרים שלו, כך שטעות תיאלץ ״להכריז על עצמה״ במקום להסתתר בתוך תוצאה שנראית בטוחה.

שאלה אחת שכדאי לשאול לפני שמסתמכים על כל תוצר שכלי AI מפיק:

“

איך אני יודע שהתוצר הזה עדיין מכיל את כל מה שהכנסתי?

08נסו בעצמכם

מקרה הבדיקה המלא זמין להורדה, כדי שתוכלו להריץ אותו ולראות בעצמכם את הטעות השקטה:

שני קובצי המקור — רשימת גיוס המטופלים ורשומות הביקורים עם לוח הפרוטוקול.
הבקשה המקורית וכלי המעקב שה-AI יצר בעקבותיה, עם חמשת הביקורים שאבדו.
הבקשה המשופרת, עם ההגדרות ושלב ההצלבה שמוציאים את הטעות לאור.

הורדת מקרה הבדיקה (ZIP)קובצי מקור, בקשות וכלי המעקב שה-AI יצר · נתונים סינתטיים

פתחו את המעקב, ואז השוו את הביקורים ה״חסרים״ מול רשומות המקור. הפער קטן, שקט, ובדיוק מהסוג שקל לפספס — וזו כל הנקודה.

מ-AI חופשי ל-AI מבוקר

בואו נדבר על AI בארגון שלכם

פוסט זה מיועד למטרות חינוכיות עבור אנשי מקצוע במחקר קליני. הוא אינו מהווה ייעוץ משפטי או רגולטורי. הדרישות עשויות להשתנות לפי תחום שיפוט, מסגרת רגולטורית וכלי או פלטפורמה ספציפיים. כל הנתונים המוצגים הם סינתטיים.