תוכן עניינים פתח
מה המחקר בדק ולמה זה חשוב עכשיו
במחקר שפורסם באוקטובר 2025 תחת הכותרת LLMs Reproduce Human Purchase Intent via Semantic Similarity Elicitation of Likert Ratings נבדק האם מודלים שפתיים יכולים לשמש כתחליף חלקי למשיבים אנושיים בסקרי כוונת רכישה, בלי לפגוע באמינות המדידה. המוקד איננו בשאלה האם המודל יודע לכתוב תשובה שנשמעת חכמה, אלא האם אפשר להפיק ממנו מדד שאפשר להסתמך עליו כשמקבלים החלטות אמיתיות. ארגונים רוצים לבחון יותר קונספטים, יותר ניסוחים, יותר תרחישים של מחיר ומסרים, והכול מהר יותר. קל לקבל מהמודל טקסט משכנע, אבל קשה יותר לקבל מספרים שנראים ומתנהגים כמו נתונים מסקר אנושי. המחקר הזה נכנס בדיוק לפער הזה בין “נשמע נכון” לבין “אפשר למדוד ולבחון לאורך זמן”.
סולם ליקרט ומה באמת מודדים כששואלים על כוונת רכישה
כוונת רכישה נמדדת לרוב באמצעות סולם ליקרט, כלומר בחירה באחת מחמש דרגות קבועות שנעות בין שלילה מוחלטת לכוונה חזקה לקנות. אבל הסולם איננו רק כלי להפקת ממוצע. הוא דרך לתרגם עמדה למבנה שאפשר להשוות. לכן המשמעות של המדד נקבעת לא רק לפי ממוצע הדירוגים, אלא לפי האופן שבו התשובות מתחלקות בין הדרגות. ההתפלגות מספרת אם הקהל מהוסס, אם הוא נוטה לבטחון, אם הוא מפוצל, ואם שינוי קטן באמת מזיז אנשים מדרגה אחת לאחרת. שתי קבוצות יכולות להציג אותו ממוצע, ועדיין לספר שני סיפורים שונים לגמרי. לכן, ברגע שהתפלגות נראית לא טבעית, קשה להאמין להשוואות בין מוצרים, קשה להבין אם שינוי במסר באמת עבד, וקשה לבסס תהליך החלטות על נתון שלא נראה כמו נתון שמגיע מבני אדם.
איפה זה נשבר כשמבקשים מהמודל לבחור מספר
כאן מופיעה הבעיה שמניעה את המחקר. כשמבקשים ממודל שפה לבחור דרגה באופן ישיר, התוצאה עלולה לסטות מהדפוסים האנושיים. לפעמים מתקבל ריכוז חריג סביב ערכים מסוימים, לפעמים קצוות חזקים מדי, ולפעמים שונות נמוכה שמטשטשת הבדלים בין מוצרים. סטייה כזאת הופכת את הנתון לפחות שימושי, משום שמדידה שנראית מלאכותית מקשה להסיק מסקנות על יתרון של קונספט אחד על פני אחר, או על שינוי אמיתי בעקבות מסר, מחיר או עיצוב.
הבעיה עמוקה יותר מהטיה נקודתית. סולם ליקרט נראה כמו סקאלה פשוטה של חמש דרגות, אבל בפועל הוא עובד כמו תרגום של שפה להחלטה. אדם לא “מרים 4” כמו שמרימים קלף. הוא אומר לעצמו משהו כמו “זה מעניין אותי, אבל יש לי הסתייגות”, ואז בוחר דרגה שמרגישה לו הכי קרובה למשמעות הזאת. לכן ההבדל בין דרגות סמוכות הוא לא מרחק מתמטי אלא הבדל בעוצמה, בביטחון ובמחויבות. אנשים משתמשים בסולם גם כדי לאותת זהירות, לא להיראות קיצוניים, או להפך להדגיש העדפה חזקה. לכן התפלגות אנושית טבעית היא חלק מהמידע, לא רעש שצריך למחוק. כשמודל שפה מתבקש לבחור דרגה ישירות, הוא מדלג על שכבת התרגום הזאת ומייצר ערך שמושפע יותר מהרגלי פלט ומהנחיה מאשר מהעמדה עצמה. כך יכולה להיווצר התפלגות שנראית נקייה, אבל איננה מציאותית, או כזאת שמגיבה באופן לא יציב לשינויים קטנים בניסוח.
SSR: איך הופכים תשובה מילולית לדירוג ליקרט בלי “לבחור מספר”
כדי להתמודד עם נקודת הכשל הזאת המחקר מציע גישה בשם Semantic Similarity Rating, או SSR. במקום להכריח את המודל לבחור מספר, מבקשים ממנו קודם תגובה קצרה במילים שמבטאת את כוונת הרכישה. לאחר מכן ממירים את המשמעות לדירוג ליקרט באמצעות השוואת דמיון סמנטי לחמש תשובות עוגן שמייצגות את חמש דרגות הסולם. כך הדירוג מתקבל כתוצאה של קרבה לשונית, ולא כבחירה מספרית ישירה. ההבטחה כאן כפולה: לקבל מדד שאפשר להשוות בין מוצרים ובין גרסאות, ובמקביל לשמור קשר לשפה טבעית שמסבירה מה עומד מאחורי הבחירה.
גוף המחקר מתאר את SSR כסדרת צעדים שמטרתה למנוע מהמודל לקפוץ ישר לדירוג. קודם מגדירים את משימת הסקר ואת ההקשר, ואז מבקשים מהמודל תשובה קצרה במילים על כוונת הרכישה. התשובה הזאת היא חומר הגלם המרכזי, כי היא מגלמת הסתייגויות, תנאים ועוצמה, בדיוק אותם רכיבים שבסולם ליקרט מתכווצים בדרך כלל למספר. לאחר מכן נכנסות לתמונה תשובות עוגן שמייצגות כל אחת מדרגות הסולם, ניסוחים קצרים שמנסחים מה זה אומר להיות בדרגה 1, 2, 3, 4 או 5. במקום לשאול את המודל איזו דרגה לבחור, מודדים עד כמה התשובה שלו דומה סמנטית לכל אחד מהעוגנים, וכך מתקבל מיפוי עקיף של המשמעות לדרגה.
למה השיטה נותנת גם מספרים שימושיים וגם הסבר שאפשר לעבוד איתו
היתרון של המבנה הזה הוא שהוא לא מחייב את המודל “להבין סטטיסטיקה” או “להחליט מספר”, אלא מאפשר למדידה להיווצר מתוך השפה. אם התשובה נשמעת מהוססת, היא תהיה קרובה יותר לעוגנים של האמצע. אם היא חד משמעית, היא תיטה לעוגנים של הקצוות. ברמה מעשית אפשר לראות בזה שכבת פרשנות שמחליפה הרגלים של מודלים לבחור ערכים מסוימים בלי קשר לתוכן. במקום דפוס פנימי, יש נקודת ייחוס חיצונית שמגדירה מהי כל דרגה, והדירוג נובע מקרבה אליה. לכן המחקר מדגיש לא רק ציון אלא התפלגות: אם המיפוי עובד, לא רק שהממוצע מתקרב, אלא שגם הפיזור בין הדרגות נראה אנושי יותר.
בנוסף, SSR משאיר בידיים של צוות המחקר נכס שלא קיים במדידה מספרית נקייה: ההסבר. גם אם בסוף רוצים מספר, הטקסט הוא המקום שבו נמצאים הגורמים, המחסומים והטריגרים. כך אפשר לזהות האם ירידה בדרגה נובעת ממחיר, מאמון במותג, מהתועלת המרכזית או מחוסר התאמה להרגלי שימוש, בלי לנחש בדיעבד. במילים אחרות, השיטה לא רק מייצרת מדד, היא משאירה עקבות שמאפשרים להבין אותו.
איך המחקר בודק שזה באמת דומה לבני אדם
כאן מגיעה השאלה שהמחקר מתמודד איתה בצורה ישירה: איך יודעים שהדירוגים שמתקבלים מ SSR באמת דומים לבני אדם, ולא רק נשמעים הגיוניים. גוף המחקר בוחר מסגרת בדיקה שמכריחה את השיטה לעמוד בשני מבחנים. המבחן הראשון הוא דמיון התפלגותי, כלומר האם חלוקת התשובות על פני חמש הדרגות מזכירה חלוקה אנושית, לא רק במרכז אלא גם בזנבות. המבחן השני הוא יציבות, כלומר האם אותה שיטה נוטה לחזור על עצמה באופן עקבי, ברמה שאפשר להתייחס אליה כמדידה ולא כאלתור. שני המבחנים חשובים במיוחד בסקרי כוונת רכישה, משום שההבדלים המעניינים הם לרוב עדינים. שינוי קטן בעיצוב האריזה או במשפט אחד במסר יכול להזיז אנשים מדרגה 3 ל 4, ואם המערכת עצמה לא יציבה או שהתפלגותה מלאכותית, השינוי הזה ייבלע ברעש.
מה לומדים מהנתונים ומה אומר ההיקף של הבדיקה
החוקרים בוחנים את SSR על מערך נתונים רחב יחסית: 57 סקרי מוצרים בתחום הטיפוח האישי ו 9,300 תגובות אנושיות. הבחירה בהיקף כזה מאפשרת להשוות לא רק תוצאה נקודתית אלא דפוס שחוזר על עצמו לאורך סקרים שונים. בהשוואה מול גישות שמבקשות מהמודל לדרג ישירות, או מול תרגום דירוג באמצעות מודל אחר שמשמש כ“שופט”, SSR מציג יתרון בכך שהוא שומר טוב יותר על הצורה האנושית של ההתפלגות. לפי תקציר המחקר, השיטה מגיעה לכ 90 אחוז מרמת היציבות החוזרת של בני אדם, ומציגה דמיון התפלגותי גבוה עם מדד KS מעל 0.85. המשמעות המעשית היא לא “דיוק” במובן של תשובה אחת נכונה, אלא אמינות תפעולית: אפשר להריץ הרבה קונספטים, לקבל התפלגויות, ולהאמין שההבדלים מייצגים משהו אמיתי ולא מצב רוח של מודל.
איך מיישמים את זה נכון בארגון
כשהתוצאות נראות מבטיחות, הפיתוי הוא להפוך את SSR למכונה שמחליפה סקרים. אבל אם קוראים את גוף המחקר, הכיוון שהוא מרמז עליו הוא שימוש בשיטה כדי לשנות את סדר העבודה, לא כדי למחוק את המחקר האנושי. במקום להתחיל מפאנל, להמתין לתשובות ואז לגלות שחלק גדול מהקונספטים לא שווים בדיקה, אפשר להתחיל בסינון מהיר. מודלים שפתיים מייצרים תגובות מילוליות, SSR מתרגם אותן לדירוגים, ומתקבלת תמונת מצב ראשונית עם התפלגות שאפשר לעבוד איתה. כך צוות יכול לבדוק יותר כיוונים בפחות זמן, לבחור את המועמדים המובילים, ורק אחר כך להשקיע תקציב וזמן במדידה אנושית מדויקת יותר.
היתרון התפעולי בולט משום שהפלט כפול. מצד אחד יש מספרים שאפשר להשוות, למשל לראות איזה קונספט מושך יותר בדרגות 4 ו 5 ואיזה נתקע סביב 3. מצד שני יש טקסט שמבהיר מה הסיבה, מה חסר, מה מרתיע ומה התנאי שיכול להזיז את הדירוג. עבור צוות מוצר, זה ההבדל בין לדעת שציון נמוך לבין להבין שהוא נמוך בגלל מחיר נתפס גבוה, תועלת לא ברורה או חשש מאיכות. עבור צוות שיווק, זה מאפשר לזהות איזה ניסוח מעלה ביטחון ואיזה ניסוח מייצר ספק, גם אם הממוצעים קרובים.
איפה צריך זהירות: עוגנים, המרת דמיון ופרסונות
המחקר גם מרמז על נקודת אחריות של מי שמיישם. תשובות העוגן הן לא פרט טכני. הן מגדירות את השפה של הסולם, ולכן ניסוח לא מאוזן יכול להטות את המיפוי. אם עוגן מסוים כתוב בשפה גבוהה מדי, או אם דרגה אחת מנוסחת באופן רגשי יותר מהאחרות, המערכת עלולה להימשך לשם בגלל התאמה סגנונית ולא בגלל שינוי אמיתי בכוונת רכישה. לכן צריך להתייחס לעוגנים כמו שמתייחסים לשאלון: לבדוק, ללטש, ולוודא שהם מאוזנים, מובחנים וקלים להבנה.
אותו דבר נכון לגבי הדמיון הסמנטי עצמו. השאלה איננה רק איזה מודל הטמעות בוחרים, אלא גם איך ממירים דמיון להסתברות על פני הדרגות, ומה עושים כאשר שתי דרגות מקבלות דמיון דומה. אלה פרטים שנראים שוליים, אבל הם אלה שמבדילים בין כלי מדידה לבין הדגמה.
מגבלה נוספת נמצאת במקום שבו קל מאוד לפשט: פרסונות סינתטיות. אם הפרסונות פשטניות מדי, מתקבל עולם שבו “גיל והכנסה” מסבירים הכול, ואז התוצאה עלולה לשחזר סטריאוטיפים ולא שונות אמיתית. מצד שני, פרסונות עמוסות בפרטים עלולות ליצור תחושת דיוק מזויפת. הדרך הנכונה היא להכניס לפרסונות משתנים שמחוברים להתנהגות קנייה בקטגוריה, למשל רגישות למחיר, נאמנות למותג, תדירות שימוש, ערוצי קנייה, ורמת מעורבות, ולא להסתפק בדמוגרפיה בלבד.
השורה התחתונה
גם עם המגבלות, התרומה של המחקר חזקה: הוא מציע דרך מסודרת להוציא כימות מתוך שפה במקום לכפות כימות על שפה. זה משנה את השאלה הארגונית מ “האם אפשר להחליף סקרים” ל “איפה מודלים שפתיים יכולים להוסיף שכבת מדידה מהירה שמקדימה את הסקר האנושי”. במונחים של תהליך, זה מאפשר להרחיב את שלב החקירה, לצמצם בזבוז על רעיונות חלשים, ולהגיע לסקר האנושי עם קונספטים מחודדים יותר והיפותזות ברורות יותר. במונחים של תוצאה, מתקבל שילוב שימושי בין התפלגות מספרית שאפשר להשוות לבין טקסט שמסביר מה עומד מאחוריה, וזה בדיוק החיבור שמחקר צרכנים מתקשה להשיג כשהוא נאלץ לבחור בין מהיר לבין אמין.

ניצן דימנד
מומחה שיווק דיגיטלי ופיתוח אסטרטגיה דיגיטליתהמשך קריאה - מאמרים נוספים
בניית אמון בפרסום כגורם להצלחה עסקית: ניתוח מחקר IPA
היחסים בין צרכנים לבין פרסום עברו שינוי הדרגתי אך עמוק. הציבור אינו מתייחס עוד למסרים מסחריים כאל נקודת מוצא ניטרלית, …
לקריאה >איך חידוד טקסט באתר הוביל לעלייה של 58% בהזכרות ו 642% בציטוטים בתשובות בינה מלאכותית בניסוי תוכן
החיפוש כפי שהכרנו אותו משנה צורה. במקום לעבור בין כמה תוצאות, לפתוח לשוניות ולהצליב כותרות, יותר משתמשים מבקשים תשובה אחת …
לקריאה >מנהלי שיווק כך תבדקו אם המבצע הבא שלכם מרוויח או מפסיד כסף
כשמנסים לענות ברצינות על השאלה האם מבצעים באמת עובדים צריך להתחיל מהגדרה של מה נחשב הצלחה. ברמה האינסטינקטיבית כמעט כל …
לקריאה >



