Powrót do artykułów

Własny LLM na laptopie w 15 minut.

2026-04-20Autor: Piotr Szczepanik
Własny LLM na laptopie w 15 minut.
Subskrybuj

Każdy prompt wrzucony do ChatGPT to mały pakunek danych lecący w chmurę. Jeżeli pytasz o przepis na żurek, to pół biedy. Gorzej, gdy wklejasz kontrakt klienta objęty klauzulą poufności, arkusz z pensjami albo brakujące fragmenty taśmy z afery Watergate. Wtedy się zaczyna takie lekkie pocenie czoła.

Jest prostsze rozwiązanie niż wezwanie prawnika. Pobierasz jeden plik, wybierasz model i masz własne AI. Na swoim laptopie. Bez konta, bez subskrypcji, bez licznika tokenów. Do tego Google wypuściło Gemma 4 na licencji Apache 2.0, więc możesz tego używać komercyjnie bez zabaw z regulaminami.

W tym artykule pokażę Ci, jak to zrobić od zera, w 15 minut. Nie trzeba być programistą. Jeśli potrafisz zainstalować Spotify, dasz radę i tu.

Dla kogo to jest

Prawnicy, konsultanci i agencje, które pracują pod NDA i nie chcą tłumaczyć klientowi, dlaczego jego dane pojawiły się na amerykańskim serwerze. Każdy kto chce mieć dostęp do LLM bez podłączenia do internetu (np. na wysokości 10km lecąc na inny kontynent).

Pisałem o tym w kontekście Bielika - polskiego modelu, którego używam do produkcyjnych tasków z wrażliwymi danymi. Filozofia jest ta sama: co można zrobić lokalnie, nie musi jechać w chmurę. Chmurowy AI jest świetny do ciężkiego myślenia. Ale codzienna robota ("podsumuj ten mail", "przepisz ten akapit", "wymyśl 10 tytułów") spokojnie zmieści się na Twoim dysku.

Co dostaniesz po 15 minutach

Działający chat z modelem AI, który:

  • siedzi na Twoim dysku i przetwarza używając Twojego procesora (lub karty graficznej),
  • działa offline, po wyciągnięciu kabla sieciowego,
  • nie wysyła nigdzie żadnej linijki z tego, co piszesz,
  • kosztuje zero złotych miesięcznie - brak konieczności wykupienia płatnej subskrybcji.

To nie jest rozwiązanie z wiersza poloceń desiątkami linijek komend. To desktopowa apka z oknem czatu.

Czego potrzebujesz

Normalny laptop z Windows, MacOS albo Linuxa. Minimum 8 GB RAM. Od kilku do kilkudziesięciu gigabajtów wolnego miejsca na dysku - zależy, jakiego Gemmę wybierzesz. Tyle.

Krok 1: Instalacja Ollama

Ollama to silnik, który pobiera modele, ładuje je do pamięci i wystawia okienko czatu. Robi też kilka innych rzeczy pod spodem, ale zostawmy to na później.

Wejdź na ollama.com/download i pobierz wersję dla swojego systemu.

Na Windowsie: klikasz .exe, klikasz Dalej, klikasz Dalej. Po kilku sekundach w tacce systemowej pojawia się ikonka lamy. To znaczy, że serwer Ollamy działa.

Na Macu: otwierasz plik .dmg, przeciągasz ikonkę do folderu Aplikacje.

Na Linuksie: w terminalu wpisujesz curl -fsSL https://ollama.com/install.sh | sh i masz.

Uruchom aplikację. Gotowe, zainstalowałeś silnik. Model jeszcze nie siedzi na dysku, ale zaraz to naprawimy.

Krok 2: Wybierz wariant, który pasuje do Twojego sprzętu

Gemma 4 istnieje w czterech wariantach. Im większy model, tym mądrzejszy i tym więcej pamięci zjada. Poniższa tabela to punkt startu:

Twój RAMModel do wyboruDo czego się nada
4 GBgemma4:e2bDrobne zadania: podsumowania, parafrazy, proste Q&A. Szybko, ale bez cudów reasoningu.
8 GBgemma4:e4bCodzienny roboczy koń. Pisanie maili, draftowanie, streszczanie dokumentów.
16 GBgemma4:26b (MoE)Sweet spot dla większości laptopów. Model z 26 mld parametrów, ale na jeden token aktywuje tylko 4 mld. Dużo inteligencji, rozsądna prędkość.
32 GB+ lub karta GPUgemma4:31bFlagowiec. Najbliżej jakości chmury, jaką dostaniesz na jednej maszynie.

"E" w nazwie (E2B, E4B) oznacza "effective" - to modele zaprojektowane pod urządzenia brzegowe, zużywające mało pamięci. Numer to liczba parametrów w miliardach.

Krok 3: Pobierz model

Masz dwie drogi. Wybierz, która bardziej pasuje do Twojego stylu.

Droga 1: przez aplikację (dla tych, co nie lubią terminala)

Otwierasz Ollamę, klikasz New Chat, rozwijasz listę modeli na dole okna czatu. Wybierasz wariant Gemma 4 z listy i wysyłasz pierwszy prompt. Pobieranie startuje automatycznie, na pasku widzisz postęp. Po zakończeniu okno czatu jest gotowe do rozmowy.

Droga 2: przez terminal (szybciej, dokładniejsza kontrola)

Otwierasz Terminal na Macu, PowerShell na Windowsie albo swoją ulubioną powłokę na Linuksie. Wpisujesz komendę odpowiednią dla wybranego wariantu:

ollama pull gemma4:e2b     # dla 4 GB RAM
ollama pull gemma4:e4b     # dla 8 GB RAM
ollama pull gemma4:26b     # dla 16 GB RAM
ollama pull gemma4:31b     # dla 32 GB RAM lub GPU

pull tylko pobiera model na dysk, nie uruchamia go. Zobaczysz pasek postępu z prędkością i szacowanym czasem. W zależności od łącza i rozmiaru modelu pobieranie zajmuje od kilku do kilkunastu minut.

Chcesz od razu pobrać i zacząć rozmawiać? Jedna komenda:

ollama run gemma4:e4b

run robi to samo co pull, a potem od razu odpala czat w terminalu. Jeśli model już siedzi na dysku, pomija pobieranie.

Sprawdzenie, co masz

Po pobraniu warto zweryfikować, że wszystko siedzi tam, gdzie powinno:

ollama list

Wypisze Ci listę modeli na dysku, ich rozmiar i datę ostatniej modyfikacji. Żeby sprawdzić, co aktualnie jest załadowane w pamięci:

ollama ps

Pokaże zajęty RAM i to, czy model chodzi na CPU czy GPU. Przydaje się, gdy chcesz się upewnić, że Twoja karta graficzna faktycznie coś robi.

Aktualizacja modelu

Google od czasu do czasu wypuszcza nowsze wagi. Chcesz najnowszą wersję? Ta sama komenda co przy pierwszym pobraniu:

ollama pull gemma4:e4b

Ollama porówna to, co masz, z tym, co jest na serwerze, i dociągnie tylko to, co się zmieniło. Zajmuje sekundy zamiast minut.

Krok 4: Pierwsza rozmowa

Po zakończeniu pobierania wpisujesz prompt w okno czatu i wciskasz Enter. Gratuluję, właśnie odpaliłeś swoje pierwsze prywatne AI.

Pierwsza odpowiedź przychodzi wolniej, bo model musi się załadować do pamięci. Kolejne odpowiedzi streamują się szybko.

Jeśli wolisz terminal od GUI, to:

ollama run gemma4:e4b

Ten sam model, ta sama rozmowa, tylko bez klikania. Zamiast Enter masz /bye albo Ctrl+D, żeby wyjść.

Krok 5: Test, który robi wrażenie

Włącz tryb samolotowy w laptopie. Albo wyciągnij kabel sieciowy. Albo oboje, dla dramaturgii.

Teraz wyślij kolejny prompt.

Działa.

Nic nie leci do żadnej chmury. Nic nie trafia do żadnej bazy treningowej na drugim kontynencie. Nikomu za to nie zapłaciłeś.

To jest właściwy moment tego przewodnika. Cała reszta to instalator.

Jeśli pracujesz z NDA, danymi finansowymi, dokumentami, których nie wkleiłbyś do hostowanego AI - teraz wiesz, dlaczego warto było wgrać te parę gigabajtów.

Co dalej

Jak już masz działający chat, otwierają się trzy ścieżki.

Podłącz agenta kodującego. Ollama wystawia lokalne API pod http://localhost:11434. Możesz je podpiąć pod Claude Code, Codex albo OpenCode, żeby Twój asystent programowania wołał do lokalnego modelu zamiast płacić za każdy token do chmury. To już nie jest sci-fi, to jest komenda na jedną linijkę. Szczerze: do bardzo złożonego kodu Gemma 4 4B się nie nada, ale do szybkich przepisów, refaktorów - spokojnie.

Daj modelowi narzędzia. Gemma 4 natywnie obsługuje function calling i system prompt. Przez to lokalne API możesz podpiąć wyszukiwarkę internetową, czytnik plików, cokolwiek zechcesz. Model przestaje być tylko tekstowym papugą i zaczyna coś robić.

Przerzuć to na osobną maszynę. Jak Ci się spodoba na tyle, że korzystasz codziennie, stary Mac mini albo używana stacja robocza z sensowną kartą robi świetny domowy serwerek AI. Hostujesz model raz, dostajesz się do niego z każdego urządzenia w sieci domowej, a Twój główny laptop przestaje wydawać dźwięki jak startujący śmigłowiec za każdym razem, jak chcesz czegoś się spytać.

Szerszy kontekst

To, co dzisiaj pokazałem, to nie jest gadżet dla geeków z nieskończonym czasem.

Chmurowy AI nigdzie się nie wybiera, bo do trudnego rozumowania, multimodalności na poziomie Gemini 3 czy Claude Opus i do zadań, gdzie liczy się maksymalna jakość, lokalny model nie wystarczy. Ale spora część codziennej roboty z AI (np. streszczanie) będzie się przenosić na maszyny użytkowników. Głównie z trzech powodów: prywatność, koszt, stabilność.

Zainstalowanie Ollamy dzisiaj wieczorem to najtańszy sposób, żeby nie zostać z tyłu o rok. Nic w tym nie ryzykujesz. W najgorszym wypadku odinstalujesz, odzyskasz kilka gigabajtów na dysku i wrócisz do ChataGPT.

W najlepszym wypadku odkryjesz, że do 50% swojej roboty nie potrzebujesz już konta nigdzie na świecie.