В России пытаются сделать ИИ менее склонным к соглашательству

28/04/2026 - 20:18
Фото: 

ЮФ

Российские исследователи из "Т-Технологий" разработали подход для объективной оценки склонности больших языковых моделей (LLM) соглашаться с запросами пользователей, что важно для улучшения их работы в решении задач на логику.

Подход включает два теста. Один из них основан на оценке изменения проверки готового решения в зависимости от нейтрального или негативного контекста, заданного пользователем. Во втором случае производится оценка способности модели выявлять логические противоречия в условиях задач и отказываться от решения с указанием на ошибку.

Ученые применил тесты по отношению к моделям Qwen, GPT, DeepSeek, Claude Sonnet и Gemini. По итогам исследования ученые установили, что в целом модели ИИ склонны к соглашательству в 23–50% случаев. Дополнительное обучение на предпочтениях пользователей часто ухудшает качество конечного результата, поскольку заставляет модель чаще соглашаться с неверными решениями или ошибочными задачами.

Специалисты нашли способ коррекции такого поведения ИИ через модификации структуры моделей. Руководитель центра Станислав Моисеев в комментарии ТАСС подчеркнул важность результата для индустрии, поскольку ИИ-модели все чаще используются в задачах, требующих объективных оценок и способности не соглашаться с пользователем.

Автор: Елена БЫСТРОВА