Raport

    We wtorek OpenAI wypuściło nowe narzędzia zaprojektowane, aby pomóc deweloperom i przedsiębiorstwom w budowaniu agentów AI — zautomatyzowanych systemów, które mogą samodzielnie wykonywać zadania — używając własnych modeli i frameworków AI firmy.

    Narzędzia są częścią nowego API Responses OpenAI, które pozwala firmom rozwijać niestandardowych agentów AI, którzy mogą wykonywać wyszukiwania w sieci, przeszukiwać pliki firmowe i nawigować po stronach internetowych, podobnie jak produkt Operator OpenAI. API Responses skutecznie zastępuje API Assistants OpenAI, które firma planuje wycofać w pierwszej połowie 2026 roku.

    Szum wokół agentów AI znacznie wzrósł w ostatnich latach, mimo że branża technologiczna zmaga się z pokazaniem ludziom, a nawet zdefiniowaniem, czym naprawdę są „agenci AI”. W najnowszym przykładzie szumu wokół agentów wyprzedzającego ich użyteczność, chiński startup Butterfly Effect w tym tygodniu stał się wiralowy dzięki nowej platformie agentów AI o nazwie Manus, którą użytkownicy szybko odkryli, że nie spełnia wielu obietnic firmy.

    Innymi słowy, stawka jest wysoka dla OpenAI, aby dobrze zrealizować agentów.

    „Dość łatwo jest zademonstrować swojego agenta,” powiedział Olivier Godement, szef produktu API OpenAI, w wywiadzie dla TechCrunch. „Skalowanie agenta jest dość trudne, a sprawienie, by ludzie często go używali, jest bardzo trudne.”

    Na początku tego roku OpenAI wprowadziło dwóch agentów AI w ChatGPT: Operator, który nawigował po stronach internetowych w imieniu użytkownika, oraz deep research, który kompilował raporty badawcze. Oba narzędzia oferowały wgląd w to, co może osiągnąć technologia agentów, ale pozostawiały wiele do życzenia w kwestii „autonomii”.

    REKLAMA
    Raport

    Teraz, dzięki API Responses, OpenAI chce sprzedawać dostęp do komponentów, które napędzają agentów AI, pozwalając deweloperom budować własne aplikacje w stylu Operatora i deep research. OpenAI ma nadzieję, że deweloperzy będą mogli stworzyć niektóre aplikacje z technologią agentów, które będą bardziej autonomiczne niż to, co jest dostępne dzisiaj.

    Korzystając z API Responses, deweloperzy mogą korzystać z tych samych modeli AI (w wersji podglądowej) pod maską narzędzia wyszukiwania w sieci ChatGPT OpenAI: GPT-4o search i GPT-4o mini search. Modele te mogą przeszukiwać sieć w poszukiwaniu odpowiedzi na pytania, cytując źródła podczas generowania odpowiedzi.

    OpenAI twierdzi, że GPT-4o search i GPT-4o mini search są wysoce dokładne pod względem faktów. Na benchmarku SimpleQA firmy, który mierzy zdolność modeli do odpowiadania na krótkie, poszukujące faktów pytania, GPT-4o search uzyskuje wynik 90%, podczas gdy GPT-4o mini search uzyskuje 88% (im wyższy, tym lepszy). Dla porównania, GPT-4.5 — znacznie większy, niedawno wydany model OpenAI — uzyskuje tylko 63%.

    API Responses zawiera również narzędzie do przeszukiwania plików, które może szybko przeszukiwać pliki w bazach danych firmy w celu uzyskania informacji. (OpenAI twierdzi, że nie będzie trenować modeli na tych plikach.) Ponadto deweloperzy korzystający z API Responses mogą korzystać z modelu Computer-Using Agent (CUA) OpenAI, który napędza Operatora. Model generuje działania myszy i klawiatury, pozwalając deweloperom automatyzować zadania związane z używaniem komputera, takie jak wprowadzanie danych i przepływy pracy aplikacji.

    Przedsiębiorstwa mogą opcjonalnie uruchamiać model CUA, który jest wydawany w wersji podglądowej badań, lokalnie na własnych systemach, powiedział OpenAI. Konsumencka wersja CUA dostępna w Operatorze może podejmować działania tylko w sieci.

    Aby było jasne, API Responses nie rozwiąże wszystkich problemów technicznych nękających agentów AI dzisiaj.

    Chociaż narzędzia wyszukiwania zasilane AI są dokładniejsze niż tradycyjne modele AI — co nie jest zaskakujące, biorąc pod uwagę, że mogą po prostu znaleźć poprawną odpowiedź — wyszukiwanie w sieci nie rozwiązuje problemu halucynacji AI. GPT-4o search nadal popełnia błędy w 10% pytań faktograficznych. Poza ich dokładnością, narzędzia wyszukiwania AI również mają tendencję do trudności z krótkimi, nawigacyjnymi zapytaniami (takimi jak „wynik Lakers dzisiaj”), a ostatnie raporty sugerują, że cytaty ChatGPT nie zawsze są wiarygodne.

    W poście na blogu dostarczonym TechCrunch, OpenAI powiedziało, że model CUA „nie jest jeszcze wysoce niezawodny w automatyzacji zadań na systemach operacyjnych” i że jest podatny na popełnianie „niezamierzonych” błędów.

    Jednak OpenAI powiedziało, że są to wczesne iteracje ich narzędzi agentów i że stale pracuje nad ich ulepszaniem.

    Wraz z API Responses, OpenAI wydaje zestaw narzędzi open-source o nazwie Agents SDK, który oferuje deweloperom darmowe narzędzia do integracji modeli z ich wewnętrznymi systemami, wprowadzenia zabezpieczeń i monitorowania działań agentów AI w celu debugowania i optymalizacji. Agents SDK jest swego rodzaju kontynuacją Swarm OpenAI, frameworka do orkiestracji wielu agentów, który firma wydała pod koniec zeszłego roku.

    Godement powiedział, że ma nadzieję, że OpenAI może w tym roku zniwelować lukę między demonstracjami agentów AI a produktami, i że, jego zdaniem, „agenci są najbardziej wpływową aplikacją AI, która się wydarzy.” To echo proklamacji CEO OpenAI Sama Altmana złożonej w styczniu: że 2025 rok to rok, w którym agenci AI wejdą na rynek pracy.

    Niezależnie od tego, czy 2025 rok rzeczywiście stanie się „rokiem agenta AI”, najnowsze wydania OpenAI pokazują, że firma chce przejść od efektownych demonstracji agentów do wpływowych narzędzi.