Качественные исследования
Исследования CX: глубинные интервью
Вебинары и митапы
Статьи
Анализ качественных данных
Блог
Блог

Синтетические респонденты наносят ответный удар

Отвечаем на вопросы и проясняем неясности, оставшиеся с прошлого раза.

Кому и зачем нужны синтетические респонденты?

Евангелисты предлагают заменить всех – и исследователей, и респондентов – на LLM. Это позволит ускорить проверку гипотез, вынеся ненадежных людей за скобки.

Очевидно, что нынешний уровень технологий пока не позволяет так сделать. И мы вынужденно переходим к более скромной задаче: отбросить заведомо неудачные идеи, гипотезы и концепции (concept-test).

Как мы писали, никакое интервью не даст вам ответа на вопрос, «взлетит или не взлетит» - но оно может помочь отсечь заведомо провальные концепции. А уже прошедшие фильтр концепции могут быть доработаны и проверены на людях. Именно поэтому мы проверяли концепции, которые провалились. Потому что если LLM из роли респондента может в принципе это сделать, то, наверное, у таких концепт-тестов есть потенциал?

И здесь мы сталкиваемся с двумя проблемами:

🅰️ Конформизм

LLM дают характерный вайб ответов. Это типичные «ходоки». Они очень хотят понравиться исследователю и подстроиться под него. Они одобряют все, что вы им предложите, и со всем согласны.

Виталий Болатаев поставил смелый эксперимент с Grok, предложив ему оценить идею пива с заведомо неприемлемым вкусом. Результат эксперимента - безусловное одобрение. Почему это так? Виталий пишет:

  • «ИИ может выдавать "угодливые" или "полярные" ответы, если в запросе есть намёк на предпочтение определённой точки зрения. Это не осознанное желание "угодить", а следствие статистической оптимизации: модель стремится максимизировать вероятность положительной оценки».

Возникает вопрос: можно ли решить проблему конформизма LLM с помощью промптинга в принципе? Или же нам нужно двигаться в сторону кастомных LLM и забыть условный Chat GPT как страшный сон? Спойлер: возможно, к этому и идет.

🅱️ Неполнота данных

Можем ли мы вообще полагаться на данные, заложенные в LLM? А что, если они неполны или системно искажены? Есть прекрасная статья «Персона, созданная LLM, - это обещание с подвохом» – где авторы ставят эксперименты. Общий вывод: «чем больше контента, созданного LLM, включалось в персоны, тем больше их смоделированные мнения расходились с реальными данными». Эти синтетические респонденты чаще выбирают экологичные машины, гуманитарные специальности, романтические фильмы и голосуют за демократов.

Критика нашего эксперимента:

1️⃣ «У вас неправильные промпты. Правильные должны быть не короче двух страниц»

Странно оценивать промпты по длине, а не по содержанию.

Но, как бы то ни было, повторение экспериментов с расширенным описанием персон и более детальным сеттингом интервью пока не опровергло наших результатов. Кошатница по-прежнему хочет купить Febreze, а айтишник из Сан-Франциско все также хочет попробовать AI-сервис для проверки договоров аренды.

Добавление в промпт инструкций для снижения конформизма не поменяло результат принципиальным образом.

2️⃣ «Role-prompting не подходит для синтетических респондентов в принципе»

Ксения Воейкова пишет, что ролевой промптинг не работает для reasoning LLM, и для таких задач нужно использовать цифровых двойников – отсылая к статье «Генеративные агенты: моделирование 1000 реальных людей». Авторы получили обнадеживающие результаты: точность цифровых двойников при воспроизведении опросников и экономических игр оказалась выше, чем у агентов, обученных на демографических данных или кратких описаниях.

Проблема в том, что авторы не тестировали никакие концепции - ни на людях, ни на цифровых двойниках. Следовательно, мы не знаем, применимы ли эти цифровые двойники для концепт-тестов – где мы должны не воспроизвести установки и ценности, а оценить конкретный продукт с точки зрения возможной покупки.

Если для создания цифрового двойника, который сможет тестировать концепции новых напитков, нам придется проводить U&A интервью с живыми респондентами, то не проще ли сразу опрашивать живых людей?

В третьей части сравним разные LLM между собой и проверим новые провальные концепции.

@PostPostResearch Телеграм-канал об исследованиях