"Це лимон" - найбільша модель AI Openai коли -небудь надходить до змішаних відгуків

Вердикт винесено: Найновіша і найпотужніша традиційна модель штучного інтелекту OpenAI, GPT-4.5, є великою, дорогою і повільною, забезпечуючи трохи кращу продуктивність, ніж при 30-кратній вартості на вході і 15-кратній вартості на виході. Нова модель, схоже, доводить, що давні чутки про навчання магістрів права без нагляду були правильними і що так звані “”, про які багато хто говорив роками, можливо, досягли свого природного кінця.

Експерт зі штучного інтелекту, який побажав залишитися невідомим, сказав Ars Technica: “GPT-4.5 – це лимон!”, порівнюючи заявлену продуктивність з різко зрослою ціною, а частий критик OpenAI Гері Маркус назвав реліз “нікчемним бургером” (хоча, якщо чесно, Маркус також вважає, що більшість можливостей OpenAI переоцінено).

Колишній дослідник OpenAI Андрій Карпаті вважає, що GPT-4.5 краще, ніж GPT-4o, але так, що це важко висловити. “Все трохи краще, і це приголомшливо, – написав він, – але не зовсім так, як можна було б тривіально вказати”.

OpenAI добре знає про ці обмеження, і вона зробила кроки, щоб пом’якшити потенційне розчарування, оформивши запуск як відносно стриману “Дослідницьку версію” для користувачів ChatGPT Pro і пояснивши обмеження моделі в GPT-4.5, опублікованому в четвер.
<"GPT-4.5 - це дуже велика і ресурсномістка модель, що робить її дорожчою, ніж GPT-4o, але не замінює її", - написали в компанії. "Через це ми оцінюємо, чи варто продовжувати надавати її в API в довгостроковій перспективі, оскільки ми балансуємо між підтримкою поточних можливостей і створенням майбутніх моделей".

Згідно з власними результатами тестування OpenAI, GPT-4.5 набрав значно менше балів, ніж імітаційні моделі міркувань OpenAI (і) на таких тестах, як математичні змагання AIME і наукові оцінки GPQA: GPT-4.5 набрав лише 36,7 відсотка на AIME в порівнянні з 87,3 відсотка у o3-mini. Крім того, GPT-4.5 коштує в п’ять разів більше, ніж o1, і в 68 разів більше, ніж o3-mini, за обробку вхідних даних.

А ще GPT-4.5 жахливий для кодування, умовно кажучи, з відсіканням знань про оновлення фреймворків розробки в жовтні 2023 року.

Графік

Технічний інвестор Пол Готьє (Paul Gauthier) дослідив можливості кодування GPT-4.5 і виявив, що GPT-4.5 посідає 10 місце за загальною продуктивністю (Claude 3.7 Sonnet з розширеним мисленням на першому місці, а o1 і o3 попереду), а також , що для завдань кодування GPT-4.5 не вартий тієї ціни, яку вам довелося б платити через API.

Згідно з бенчмарками OpenAI, GPT-4.5 дійсно демонструє деякі поліпшення в порівнянні з GPT-4o в певних областях. Модель отримала вищий бал у багатомовному тесті (загальні знання) – 85,1% порівняно з 81,5% у GPT-4o, що свідчить про кращу продуктивність у виконанні завдань на знання декількох мов. OpenAI також повідомляє, що GPT-4.5 продемонстрував покращену ефективність у зменшенні конфабуляцій (галюцинацій), при цьому компанія стверджує, що він генерує менше неправдивих або оманливих відповідей, ніж попередні версії.

Тестування OpenAI також показало, що люди, які оцінювали відповіді GPT-4.5, віддавали перевагу GPT-4o приблизно в 57 відсотках випадків, що свідчить про скромні, але вимірювані поліпшення в загальному користувацькому досвіді. Однак ці додаткові переваги пов’язані зі значно вищими обчислювальними вимогами та витратами.

Високий рівень відчуттів, низький рівень міркувань

Після виходу 4.5 генеральний директор OpenAI Сем Альтман (Sam Altman) висловив певні очікування щодо X, що модель сильна в чуттєвих відчуттях, але слабко аналітична. “Це перша модель, яка нагадує мені розмову з вдумливою людиною”, – написав він. Далі він додав: “Попередження: це не модель міркувань, і вона не поб’є бенчмарки. Це інший тип інтелекту, і в ньому є магія, якої я раніше не відчував”.

GPT-4.5 настільки масивний і неефективний, що Альтман також сказав, що компанія хотіла б випустити GPT-4.5 для всіх, але у компанії “закінчилися графічні процесори”. За його словами, ще більше на підході.

Можливо, через невтішні результати Олтман вирішив, що GPT-4.5 стане останньою з традиційних моделей ШІ OpenAI, а GPT-5 планується як динамічна комбінація “нерозумних” LLM і симульованих моделей міркувань, таких як o3.

Стратосферна ціна і технологічний глухий кут

Щодо ціни – вона просто неймовірна. GPT-4.5 коштує $75 за мільйон вхідних токенів і $150 за мільйон вихідних токенів через API, порівняно з $2,50 за мільйон вхідних токенів і $10 за мільйон вихідних токенів GPT-4o (токени – це фрагменти даних, які використовуються моделями ШІ для обробки). Для розробників, які використовують моделі OpenAI, така ціна робить GPT-4.5 непрактичним для багатьох додатків, де GPT-4o вже працює належним чином.

<Для порівняння, флагманська модель міркувань OpenAI, o1 pro, коштує $15 за мільйон вхідних токенів і $60 за мільйон вихідних токенів - значно менше, ніж GPT-4.5, незважаючи на те, що пропонує спеціалізовані можливості моделювання міркувань. Ще більш вражаючим є те, що модель o3-mini коштує всього $1,10 за мільйон вхідних токенів і $4,40 за мільйон вихідних токенів, що робить її дешевшою, ніж навіть GPT-4o, але забезпечує набагато вищу продуктивність при виконанні конкретних завдань.

OpenAI, ймовірно, вже деякий час знала про зменшення прибутковості навчання магістрів права. Як наслідок, більшу частину минулого року компанія провела, працюючи над імітаційними моделями міркувань, такими як o1 і o3, які використовують інший підхід до підвищення продуктивності, заснований на часі виведення (виконання), замість того, щоб закидати все більші обсяги навчальних даних на моделі ШІ в стилі GPT.

Результати бенчмарку OpenAI для тесту SimpleQA, який вимірює швидкість конфабуляції.

Хоча це здається поганою новиною для OpenAI в короткостроковій перспективі, конкуренція на ринку ШІ процвітає. Anthropic’s продемонстрував набагато кращу продуктивність, ніж GPT-4.5, і, як повідомляється, має більш ефективну архітектуру. Варто зазначити, що Claude 3.7 Sonnet, швидше за все, є системою моделей ШІ, які працюють разом за лаштунками, хоча Anthropic не надала подробиць про її архітектуру.

Наразі здається, що GPT-4.5 може бути останнім у своєму роді – технологічним глухим кутом для підходу до неконтрольованого навчання, який проклав шлях до нових архітектур у моделях ШІ, таких як міркування в часі висновку o3 і, можливо, навіть щось більш нове, наприклад, . Тільки час покаже, чим все закінчиться.

GPT-4.5 вже доступний для передплатників ChatGPT Pro, розгортання для передплатників Plus і Team заплановано на наступний тиждень, а через тиждень – для корпоративних і освітніх клієнтів. Розробники можуть отримати доступ до нього через різні API OpenAI на платних рівнях, хоча компанія не впевнена в його довгостроковій доступності.