Versiunea disponibilă prin API vine cu o fereastră de context de până la un milion de tokeni, cea mai mare oferită până acum de companie. Această capacitate permite modelului să analizeze și să țină cont de cantități foarte mari de text într-o singură conversație, fără să piardă informații importante din începutul discuției.
De asemenea, OpenAI susține că noul model utilizează mai eficient tokenii, reușind să rezolve aceleași sarcini cu un consum semnificativ mai mic de resurse față de versiunile anterioare.
Performanțe ridicate în testele de specialitate
GPT-5.4 a obținut rezultate foarte bune în mai multe benchmark-uri utilizate pentru evaluarea modelelor de inteligență artificială. Printre acestea se numără testele OSWorld-Verified și WebArena Verified, care analizează capacitatea unui model de a utiliza instrumente informatice.
Modelul a obținut și un scor de 83% în testul GDPval pentru activități de tip „knowledge work”, precum analiza de informații sau elaborarea de documente complexe. În plus, GPT-5.4 a ocupat primul loc în benchmark-ul APEX-Agents, care testează competențe profesionale în domenii precum dreptul și finanțele.
Mai puține erori și halucinații
OpenAI afirmă că noua versiune reduce semnificativ riscul de erori factuale. Conform testelor interne, GPT-5.4 este cu aproximativ 33% mai puțin probabil să facă greșeli în afirmații individuale comparativ cu modelul anterior, iar răspunsurile generale conțin cu aproximativ 18% mai puține erori.
Sistem nou pentru utilizarea instrumentelor
Lansarea GPT-5.4 include și un nou mecanism pentru gestionarea instrumentelor în versiunea API, numit Tool Search. Acesta permite modelului să caute definițiile instrumentelor doar atunci când are nevoie de ele, în loc să le încarce pe toate de la începutul procesului.
Potrivit dezvoltatorilor, această abordare reduce consumul de resurse și face ca solicitările către sistem să fie mai rapide și mai eficiente.
Noi teste de siguranță pentru raționamentul modelelor
OpenAI a introdus și o nouă metodă de evaluare a siguranței pentru a analiza modul în care modelul își explică procesul de gândire în sarcinile complexe. Testele indică faptul că versiunea de raționament a modelului are un risc mai mic de a distorsiona procesul intern de analiză.
Potrivit companiei, monitorizarea acestui proces rămâne un instrument important pentru creșterea siguranței sistemelor de inteligență artificială.