Przegląd nowości od OpenAI - Spring Update 2024

Za nami arcyciekawa konferencja Spring Update, podczas której OpenAI zaprezentowało szereg nowości. Przyjrzyjmy się im.

Podsumowanie głównych punktów:

Nie ma GPT-5, jest za to GPT-4o. Nie jest to rewolucja, lecz przemyślana ewolucja.
GPT-4o jest dwukrotnie szybszy od GPT-4 Turbo, dwukrotnie tańszy i potrafi przetwarzać obraz i dźwięk.
Nowy model jest również znacznie „płynniejszy” niż jego poprzednicy. Przetwarza mowę i obraz w czasie rzeczywistym.
W przeciwieństwie do swojego poprzednika GPT-4o jest dostępny również dla darmowych użytkowników, lecz z pewnymi ograniczeniami.
OpenAI wprowadza nową aplikację desktopową z GPT, dostępną na systemy MacOS.

Muszę przyznać, że gdy chwilę po premierze obejrzałem jej zapis, to „zbierałem szczękę z podłogi”. 🙂 Jeśli jeszcze jej nie widziałaś/-eś, to zachęcam Cię do poświęcenia pół godziny na jej obejrzenie. Link do pełnego nagrania zamieszczam poniżej.

Nowy model – GPT-4o

Prezentacja GPT-4o była jednym z głównych punktów konferencji Spring Update, która odbyła się 13 maja. Zapis głównej konferencji .

Nazwa modelu, a konkretnie litera „o” w nazwie odnosi się do łacińskiego słowa „omni”, oznaczającego „wszechstronny”. Wydaje mi się, że idealnie oddaje ono ideę stojącą za modelem. Nowy flagowiec OpenAI wprawdzie posiada ten sam poziom inteligencji, co GPT-4, ale:

Ma być zdolny do przetwarzania obrazów, dźwięków i tekstu.
Potrafi przetwarzać mowę „na żywo”, w trybie ciągłym. GPT-4o potrafi bezpośrednio konwertować dźwięk na odpowiedź, z pominięciem transkrypcji. Nie trzeba zatem nienaturalnie długo czekać na odpowiedź. Co więcej, człowiek może przerywać GPT-4o podczas rozmowy. Dzięki temu korzystanie z trybu głosowego ma znacznie bardziej przypominać konwersację pomiędzy dwojgiem ludzi.
Znacznie lepiej niż GPT-4 rozumie i przetwarza obrazy.
Potrafi przetwarzać wideo trybie w ciągłym (lub bliskim trybowi ciągłemu ;-)).
Rozpoznaje emocje w tonie głosu i wyrazie twarzy danej osoby. W trybie głosowym sam potrafi je wyrażać.

Pracownicy OpenAI zaprezentowali szereg możliwości nowego modelu. Poniżej najciekawsze z nich:

Przykład rozpoznawania emocji z obrazu.
Wideo, które zrobiło na mnie największe wrażenie – interakcja pomiędzy dwoma modelami. Jeden z nich tylko słucha i mówi, a drugi słucha, mówi i ma dostęp do kamery telefonu. Komunikują się ze sobą, opisują otoczenie i… śpiewają. 🙂 Człowiek jedynie „nadzoruje” całość i tłumaczy zasady.
GPT-4o tłumaczy rozmowę pomiędzy dwoma pracownikami OpenAI. Ponownie, na żywo, w trybie ciągłym.
Coś dla miłośników Data Science – asystent kodowania w problemie analizy danych szeregów czasowych. 🙂
Pokaz wyrażania emocji – reakcja GPT-4o na żart.

Filmów pokazujących możliwości nowej wersji GPT jest znacznie więcej. Wszystkie znajdziesz na kanale OpenAI na YouTube.

W tym miejscu warto zaznaczyć, że nie wszystkie zmiany będą widoczne w GPT-4o od razu. Jak wynika z publikacji na blogu OpenAI, część z nich będzie wdrażana fazami (np. nowy tryb głosowy).

Planujemy uruchomić nowy tryb głosowy wraz z tymi nowymi funkcjami w wersji alfa w nadchodzących tygodniach, z wczesnym dostępem dla użytkowników Plus w miarę szerszego wdrażania.

Nowości dla darmowych użytkowników

Korzystając z GPT-4o, darmowi użytkownicy będą mieli teraz dostęp do takich funkcji jak:

Inteligencja modelu na poziomie GPT-4
Analiza obrazów.
Zaawansowana analiza danych i tworzenie wykresów.
Załączanie i przesyłanie plików w celu pomocy w streszczaniu, pisaniu lub analizie.
GPT Store.
Pamięć GPT.

Do tej pory darmowi użytkownicy mieli dostęp jedynie do wersji GPT-3.5. By skorzystać z GPT-4 konieczny był zakup subskrypcji Plus, za 20$ miesięcznie. Od teraz to się zmieni.

Pracownicy OpenAI zarówno na swojej stronie internetowej, jak i podczas prezentacji kilkukrotnie zaznaczali, jak bardzo zależy im na zapewnieniu dostępu do AI dla wszystkich. Z tego też powodu zdecydowali, że nowy „flagowiec” będzie dostępny za darmo dla osób posiadających konto na ich platformie. To dobra wiadomość. Jest jednak jeszcze jedna, tym razem zła. Będą limity i to dosyć konserwatywne. Jak możemy przeczytać na blogu OpenAI:

Liczba wiadomości, które użytkownicy darmowi mogą wysyłać za pomocą GPT-4o, będzie ograniczona w zależności od użycia i zapotrzebowania.

W praktyce zwykły użytkownik nie będzie w stanie ocenić jak długo jeszcze może korzystać z „inteligentniejszego” asystenta. Po wyczerpaniu limitu model automatycznie przełączy się na darmowego GPT-3.5. Mechanizm wyświetli nam przy tym stosowne powiadomienie.

Ja dostęp do GPT-4o w wersji Free otrzymałem dokładnie w czwartek 16 maja 2024. Pierwsze co rzuciło mi się w oczy, to bardzo małe limity, jeśli chodzi o dzienną długość rozmowy. Nie wiem, jak owe limity dokładnie są liczone, ale pierwszego dnia swój limit wyczerpałem po ok. 5-10 minutach.

Pomniejsze, mniej istotne aktualizacje

Nowy, flagowy model to nie wszystko. Jest kilka innych, pomniejszych zmian, związanych z dostępnością do asystenta. Oto kilka z nich:

Nowa aplikacja na MacOS (zainstalowałem, lecz niestety nie mam jeszcze dostępu).
Aktualizacja designu głównej strony asystenta – chat.openai.com
ChatGPT z oficjalnym wsparciem dla ponad 50 języków, w tym dla języka polskiego.

Podsumowanie

Całą konferencję z punktu widzenia ogromnego fana AI, ale i eksperta na co dzień pracującego przy implementacji tego typu rozwiązań, oceniam bardzo pozytywnie. Bardzo imponuje mi obrana przez OpenAI strategia rozwoju ich kluczowego produktu. Decydują się na drobne, lecz przemyślane zmiany, dzięki którym GPT staje się coraz bardziej kompletny.

Na nagraniach w niektórych momentach widać pewne niedoskonałości, np. GPT, zamiast skupić się na twarzy osoby, której emocje ma rozpoznawać, w pierwszej chwili opisuje poprzednio przesłany obraz (41 sekunda tego nagrania). W mojej ocenie dodają one jedynie realizmu i uroku całej prezentacji. Stawia ich to w opozycji do Google, które (lekko mówiąc) naciągało rzeczywistość w nagraniach prezentujących model Gemini pod koniec ubiegłego roku.

Trudno nie odnieść wrażenia, że to, co obserwujemy, coraz bardziej zaczyna przypominać rzeczywistość, którą przedstawia film „Ona” z 2013 roku. Prezes OpenAI – Sam Altman – zdaje się sam po cichu wskazywać na inspiracje tym tytułem. Miejmy tylko nadzieję, że twórcy GPT, prócz inspiracji, wyciągnęli lekcje z niego płynące. 😉

A Ty jakie masz odczucia po obejrzeniu prezentacji i zapoznaniu się z listą nowości? A może miałeś/-aś już okazję testować GPT-4o? Proszę, podziel się swoimi wrażeniami w komentarzu poniżej. Chętnie się dowiem, jakie są Twoje przemyślenia i doświadczenia. 🙂

Źródła:

Źródło tytułowej grafiki: Andrew Neel, Unsplash