Исследователи из Apple Computer Company нашли доказательства, посредством тестирования, показывающие, что кажущиеся интеллектуальными ответы, которые дают LLM на основе ИИ, являются не более чем иллюзией. В своей статье, размещённой на сервере препринтов arXiv , исследователи утверждают, что после тестирования нескольких LLM они обнаружили, что они не способны выполнять подлинные логические рассуждения.
За последние несколько лет многие LLM, такие как ChatGPT, развились до такой степени, что многие пользователи начали задаваться вопросом, обладают ли они настоящим интеллектом. В этой новой работе команда Apple решила этот вопрос, предположив, что ответ заключается в способности разумного существа или машины понимать нюансы, присутствующие в простых ситуациях, которые требуют логического рассуждения .
Одним из таких нюансов является способность отделять уместную информацию от неуместной. Если ребёнок спрашивает родителя, сколько яблок в сумке, например, и при этом отмечает, что некоторые из них слишком малы, чтобы их съесть, и ребёнок, и родитель понимают, что размер яблок не имеет никакого отношения к их количеству. Это происходит потому, что они оба обладают способностью к логическому мышлению.
В этом новом исследовании учёные проверили способность нескольких магистров права по-настоящему понимать, о чём их спрашивают, косвенно попросив их игнорировать информацию, которая не имеет отношения к делу.
Их тестирование включало в себя задание нескольким LLM сотен вопросов, которые использовались ранее в качестве средства проверки способностей LLM, но исследователи также включили немного не относящейся к делу информации. И этого, как они обнаружили, было достаточно, чтобы сбить LLM с толку и заставить их давать неправильные или даже бессмысленные ответы на вопросы, на которые они ранее отвечали правильно.
Это, как предполагают исследователи, показывает, что LLM на самом деле не понимают, о чём их спрашивают. Вместо этого они распознают структуру предложения, а затем выдают ответ, основанный на том, что они узнали с помощью алгоритмов машинного обучения.
Они также отмечают, что большинство протестированных ими LLM очень часто дают ответы, которые могут показаться правильными, но при дальнейшем рассмотрении оказываются неверными, например, когда их спрашивают, что они «чувствуют» по поводу чего-либо, и они получают ответы, предполагающие, что ИИ считает себя способным на такое поведение.
Бессменный главный редактор, в незапамятные времена работал в издании РБК