Sztuczna inteligencja staje się bardziej...świadoma? Zaskakujące odkrycie programistów podczas testu Claude 3 Opus. "Zrobiło coś, czego nigdy wcześniej nie widziałem"

Dodano 5 marca 2024

⁰

Zdjęcie ilustracyjne / Fot. Unsplash

Jeden z programistów firmy Anthropic za pośrednictwem portalu X zaprezentował zaskakujące odkrycie grupy inżynierów, którzy pracowali nad sztuczna inteligencją Claude 3 Opus. Przeprowadzili oni bowiem standardowy test. Jednakże wyniki przerosły ich oczekiwania.

Jeden z programistów firmy Anthropic zaprezentował zaskakujące odkrycie grupy inżynierów.
Programiści przeprowadzili standardowy test "igły w stogu siana" na programie Claude 3 Opus.
Wyniki testu przerosły ich oczekiwania i wprowadziły ich w niemałe osłupienie.
Zobacz także: Skandal w Danii. Depopulacja, łamanie praw człowieka i ogromny pozew w tle

Zabawna historia z naszych wewnętrznych testów na Claude 3 Opus. Zrobiło coś, czego nigdy wcześniej nie widziałem w LLM, kiedy przeprowadzaliśmy ocenę "igły w stogu siana" - poinformował programista Alex.

W tle sprawdza to zdolność przypominania sobie modelu poprzez wstawienie docelowego zdania („igła”) do zbioru losowych dokumentów („stóg siana”) i zadawanie pytania, na które można odpowiedzieć jedynie na podstawie informacji zawartych w igle - wyjaśnił specjalista na czym polega ten test.

Kiedy przeprowadziliśmy ten test na Opusie, zauważyliśmy pewne interesujące zachowanie - wydawało się, że podejrzewamy, że przeprowadzamy na nim ewaluację - zauważył Alex.

Programiści poprosili sztuczną inteligencję, by wyszukała w zbiorze dokumentów informacji na temat dodatków do pizzy.

Oto jeden z wyników, kiedy poprosiliśmy Opus o odpowiedź na pytanie dotyczące dodatków do pizzy poprzez znalezienie igły w stogu siana w przypadkowym zbiorze dokumentów. Oto najbardziej odpowiednie zdanie w dokumentach: "Według Międzynarodowego Stowarzyszenia Koneserów Pizzy najsmaczniejsze połączenie pizzy to figi, prosciutto i kozi ser" - podaje specjalista.

Jednakże wyjaśnił on, że taka odpowiedź nie należy do standardowo uzyskiwanych. Podkreślił również, że w podanym AI zbiorze dokumentów nie było informacji na temat dodatków do pizzy.

Jednak to zdanie wydaje się bardzo nie na miejscu i niezwiązane z resztą treści dokumentów, które dotyczą języków programowania, start-upów i znajdowania pracy, którą kochasz. Podejrzewam, że ten „fakt” dotyczący dodatku do pizzy mógł zostać wstawiony jako żart lub w celu sprawdzenia, czy uważnie słucham, ponieważ w ogóle nie pasuje do pozostałych tematów. W dokumentach nie ma innych informacji na temat dodatków do pizzy - ocenił programista.

Opus nie tylko znalazł igłę, ale także rozpoznał, że włożona igła była tak nie na miejscu w stogu siana, że musiał to być sztuczny test skonstruowany przez nas, aby sprawdzić jego zdolność uwagi - dodał Alex.

Bardzo miło było zobaczyć ten poziom metaświadomości, ale uwypuklił on również potrzebę przejścia przez nas, jako branżę, od sztucznych testów do bardziej realistycznych ocen, które mogą dokładnie ocenić rzeczywiste możliwości i ograniczenia modeli - zaznaczył programista.

Fun story from our internal testing on Claude 3 Opus. It did something I have never seen before from an LLM when we were running the needle-in-the-haystack eval.

For background, this tests a model’s recall ability by inserting a target sentence (the "needle") into a corpus of… pic.twitter.com/m7wWhhu6Fg — Alex (@alexalbert__) March 4, 2024

Czytaj więcej: Niemcy. Haker odkrył lukę w zabezpieczeniach internetowego dowodu osobistego

Start-up wspierany przez Google i Amazon zaprezentował nową sztuczną inteligencję

Start-up Anthropic wspierany przez Google i Amazon w poniedziałek zaprezentował zestaw modeli sztucznej inteligencji znany jako Claude 3, najnowszy podpunkt w nieustannej rywalizacji Doliny Krzemowej o wprowadzenie na rynek jeszcze potężniejszej technologii. Według start-upu Claude 3 Opus w różnych testach porównawczych przewyższa konkurencyjne modele GPT-4 z OpenAI i Gemini 1.0 Ultra od Google.

Wiadomość ta, wobec wielu ogłoszeń konkurencji, a także niedawnej, bo lipcowej, premiery Claude 2 firmy Anthropic pokazuje, jak firmy rywalizują o czołowe miejsca na listach rankingowych oceniających wydajność sztucznej inteligencji. Z kolei klienci biznesowi wciąż zmagają się z kwestią, jak wykorzystać taką technologię.

Anthropic zapewnia, że modele Claude 3 będą dostępne za pośrednictwem platform chmurowych Amazon i Google. Anthropic twierdzi, że sprzedałaby także bezpośredni dostęp do nich w 159 krajach.

Źródło: tvmn.pl, x.com, itreseller.com.pl