Темы. Главное (ГлавМедиа) – > 107
orig date 2025-06-12 12:24:48
15:21 12-06-2025
Forwarded from Новости IT | Вашу Цифру!
WOW, ИИ не думает!
Накануне Дня России (Всех патриотов – с праздником, ВЦ!) пресловутая корпорация Apple Inc. вдруг поставила под сомнение способность ведущих моделей общего (генеративного) ИИ к логическим рассуждениям. Исследование, результаты которого опубликованы на сайте Apple’s Machine Learning Research, касалось тестов вольших языковых моделей (LMM) известных разработчиков OpenAI, DeepSeek, Anthropic и Google.
Для невежд результаты яблочных исследователей оказались неожиданными: при решении сложных задач точность этих систем резко падает. Более того – рушится она и при ответах на самые примитивные вопросы, ответы на которые очевидны всем.
В эксперименте проверили большие языковые модели (LLM) o1 и o3 от OpenAI, R1 от DeepSeek, Claude 3.7 Sonnet от Anthropic и Gemini от Google. Каждой из моделей предлагались четыре классические логические задачи: переправа через реку, прыжки через шашки, укладка блоков и башня Ханоя.
В простых задачах продвинутые LLM со способностью к рассуждениям уступали обычным большим языковым моделям. В задачах средней сложности — превосходили их, а при переходе к действительно сложным головоломкам точность стремилась практически к нулю.
Даже при предоставлении пошаговых алгоритмов решения, например, для башни Ханоя, качество не улучшалось. Более того, модели вели себя непоследовательно: могли сделать до 100 правильных ходов в одной задаче, но проваливали первые пять – в другой.
Анализ показал, что по мере роста сложности LLM начинали использовать меньше токенов, то есть "размышляли" меньше, чем раньше, даже при наличии ресурсов. Это указывает на фундаментальные ограничения в поддержании цепочки рассуждений.
Рассуждающие модели работают по принципу "цепочки мыслей": они имитируют человеческую логику, разбивая сложные задачи на множество шагов и объясняя свои действия на каждом этапе. Однако исследователи Apple полагают, что этот подход основан не на "понимании", а на узнавании шаблонов из обучающих данных.
Аналитики Apple раскритиковали и принятые подходы к оценке ОИИ: существующие бенчмарки часто включают задачи, встречающиеся в обучающих выборках. Это искажает реальную картину.
К слову, в ведущей прессе параллельно стали косяком выходить аналитические заметки про то, что ОИИ не думает в принципе. Чат-боты просто ищут и находят именно то, что юзер хочет, и что ему будет приятно услышать. Этакие эхо-камеры прямо в духе главных тезисов книги "Ретротопия" – последней работы покойного великого социолога Зигмунта Баумана. Чат боты только льстят людям, а те тупо тащатся.
ВАШУ ЦИРУ! Многие посчитали, что Apple, отстающая в гонке ИИ, таким образом подрывает доверие к конкурентам и самому ИИ. Так, собственно, и есть. Все, чтобы не делала Apple в своем PR сейчас, должно как в басне "Лиса и Виногдад" свидетельствовать: "ОИИ – зелен, зачем он нам такой нужен?!"
Но вот, эксперт по машинному обучению и бывший руководитель группы в Gartner Андрей Бурков в посте в X назвал упомянутое исследование "важным вкладом в понимание возможностей ОИИ". Как и рассчитывала яблочная корпорация, Андрюша подчеркнул, что даже самые продвинутые модели остаются всего лишь – языковыми нейросетями – со всеми их безобразными родимыми пятнами
