Microsoft prezentuje Phi-4: nową AI doskonałą w matematyce i językach

gru 16, 2024

—

Microsoft ogłosił niedawno wprowadzenie Phi-4, nowego modelu AI, który wyróżnia się przede wszystkim swoimi rozmiarami. W odróżnieniu od dużych modeli językowych (Large Language Models, LLM), takich jak te wykorzystywane przez ChatGPT czy Copilot, Phi-4 należy do kategorii małych modeli językowych (Small Language Models, SLM). Jego twórcy zadbali jednak o to, by miał asa w rękawie – Phi-4 doskonale radzi sobie z rozwiązywaniem zaawansowanych problemów matematycznych i przetwarzaniem języka.

Model ten wykazuje zaskakujące możliwości, wyprzedzając swoimi osiągami nawet takie „giganty” jak Gemini Pro 1.5 w zadaniach matematycznych na poziomie konkursowym. Jak to możliwe? Wszystko wskazuje na to, że klucz tkwi w nowoczesnych metodach szkolenia oraz prężnym postępowaniu po zakończeniu głównej fazy uczenia.

Dlaczego małe modele językowe zdobywają popularność?

Małe modele AI, jak ChatGPT-4o mini, Gemini 2.0 Flash czy Claude 3.5 Haiku, cieszą się coraz większym zainteresowaniem, i to nie bez powodu. W porównaniu do większych odpowiedników są one:

szybsze w działaniu,
tańsze w eksploatacji.

Jeszcze do niedawna wydawało się, że ich wydajność zawsze będzie ustępować LLM. Ale teraz, wraz z postępami w ich rozwoju, różnice między nimi a „większymi braćmi” coraz częściej się zacierają. W przypadku Phi-4 Microsoft postawił na syntetyczne, wysokiej jakości zestawy danych, które posłużyły w procesie szkolenia modelu. Kluczową rolę odegrało również dopracowanie technik stosowanych już po zakończeniu głównego etapu trenowania modelu – to prawdziwy przełom w rozwijaniu małych modeli AI.

Co sprawia, że Phi-4 jest tak wyjątkowy?

Jednym z największych wyzwań przy tworzeniu zaawansowanych modeli AI zawsze było pokonanie tak zwanego „pre-training data wall” – bariery wynikającej z ogromnych zasobów przetwarzania i danych wymaganych na etapie wstępnego uczenia maszynowego. Coraz częściej jednak producenci, zamiast zwiększać moc obliczeniową, koncentrują się na ulepszeniach w trakcie i po zakończeniu szkolenia modelu. Phi-4 to doskonały przykład takiego podejścia.

Co ciekawe, choć możliwości Phi-4 wydają się imponujące, model ten nie jest dostępny do bezpośrednich interakcji takich, jak z ChatGPT. Microsoft udostępnił go na platformie Azure AI Foundry, narzędziu wspomagającym deweloperów w tworzeniu aplikacji opartych na generatywnej sztucznej inteligencji. Możliwość samodzielnego testowania Phi-4 jest ograniczona – wymaga podpisania odpowiedniej licencji badawczej. Jego dalsze zastosowania zależą więc od kreatywności programistów.

Z niecierpliwością czekamy na pierwsze projekty i narzędzia oparte na Phi-4. Potencjał tego modelu nie budzi wątpliwości, zwłaszcza w obszarach wymagających złożonego rozumowania matematycznego czy przetwarzania języka.