в

ИИ не может подделать токсичность

 
Исследователи из Цюрихского, Амстердамского, Дьюкского и Нью-Йоркского университетов установили, что современные языковые модели искусственного интеллекта всё ещё можно легко отличить от людей — главным образом по чрезмерно дружелюбному и «гладкому» эмоциональному тону.
 
Учёные протестировали девять популярных моделей с открытым кодом — Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, DeepSeek-R1-Distill-Llama-8B и Apertus-8B-2509 — на примерах сообщений из соцсетей X (Twitter), Bluesky и Reddit. Алгоритмы-классификаторы, созданные в рамках проекта, смогли распознать тексты, сгенерированные ИИ, с точностью до 70–80%.
 
«Вычислительный тест Тьюринга»
 
Исследователи представили новый вариант «компьютерного теста Тьюринга» — метрику, которая оценивает, насколько речь ИИ приближена к реальной интернет-коммуникации. Система использует автоматический лингвистический анализ, чтобы выявлять признаки, по которым тексты нейросетей отличаются от человеческих — прежде всего в эмоциональной окраске.
 
«Даже после тщательной калибровки результаты LLM остаются заметно отличными от человеческих по эмоциональному тону и выражению эмоций», — отмечают авторы.
 
Почему ИИ «слишком вежлив»
 
Группа под руководством Николо Пагана из Цюрихского университета выяснила, что даже при применении сложных стратегий оптимизации (включая «тонкую настройку» и уточняющие подсказки) эмоциональные сигналы, присущие ИИ, не исчезают. Когда модели отвечали на реальные посты из соцсетей, они с трудом воспроизводили неформальные выражения, сарказм и лёгкий негатив, характерные для человеческой речи. Их уровень токсичности оставался значительно ниже.
 
Попытки повысить реалистичность — например, добавление примеров постов пользователей или дополнительного контекста — помогали лишь частично. Различия в длине предложений и структуре текста сглаживались, но эмоциональные различия сохранялись.
 
Неожиданные выводы
 
Учёные обнаружили, что модели с инструктивным обучением (Instruct) имитируют человека хуже, чем их базовые версии. Так, Llama 3.1 8B и Mistral 7B v0.1 показали лучшие результаты, достигая 75–85% точности в имитации человеческих ответов. Кроме того, масштабирование моделей не дало преимуществ — версия Llama 3.1 с 70 млрд параметров оказалась менее «человечной», чем модели с 8 млрд параметров.
 
Попытки «маскировать» тексты под человеческие снижали их смысловую близость к реальным ответам пользователей: оценка семантического сходства упала с 0,18–0,34 до 0,16–0,28 на разных платформах. То есть чем сильнее модель старалась «казаться человеком», тем легче было распознать, что перед нами ИИ.
 
Где ИИ прячется лучше
 
Различия проявились и между платформами. На X (Twitter) нейросети имитировали людей наиболее успешно — детекция была наименее точной.На Bluesky результаты были средними, а на Reddit — хуже всего: тексты ИИ отличались сильнее. Исследователи считают, что это связано с различием стиля общения пользователей и тем, насколько данные конкретных платформ использовались при обучении моделей.
 
Современные LLM остаются уязвимыми в области спонтанного выражения эмоций и естественной неоднозначности, характерной для человеческого общения. ИИ может имитировать грамматику и лексику, но его эмоциональная «приглаженность» остаётся заметным маркером искусственного происхождения.

Не пропустите интересное!
Підписывайтесь на наши каналы и читайте анонсы хай-тек новостей, тестов и обзоров в удобном формате!

Опубликован iskrakovrov

Нові супутникові дані. Вчені виявили несподівану особливість у магнітному полі Землі

Электрические Mercedes-Benz eActros 600 начали работать в интересах Amazon