Jak uruchomić LLM na laptopie

W przypadku Pistilli wybór lokalnych modeli w przeciwieństwie do chatbotów online ma wpływ na prywatność. „Technologia oznacza moc” – mówi. „I tak, kto (zawsze) jest właścicielem technologii, również jest właścicielem mocy”. Stany, organizacje, a nawet osoby mogą być zmotywowane do zakłócenia koncentracji władzy AI w rękach kilku firm poprzez prowadzenie własnych lokalnych modeli.

Oderwanie od dużych firm AI oznacza również większą kontrolę nad doświadczeniem LLM. Online LLM nieustannie zmieniają się pod stopami użytkowników: w kwietniu Chatgpt nagle zaczął ssać do użytkowników znacznie bardziej niż wcześniej, a w zeszłym tygodniu Grok zaczął nazywać się Mechahitler na X.

Dostawcy dostosowują swoje modele przy niewielkim ostrzeżeniu i chociaż poprawki te mogą czasami poprawić wydajność modelu, mogą również powodować niepożądane zachowania. Lokalne LLM mogą mieć swoje dziwactwa, ale przynajmniej są konsekwentne. Jedyną osobą, która może zmienić twój model lokalny, jesteś ty.

Oczywiście każdy model, który może zmieścić się na komputerze osobistym, będzie mniej potężny niż najważniejsze oferty online od głównych firm AI. Ale praca ze słabszymi modelami ma korzyść – mogą zaszczepić cię bardziej zgubne ograniczenia ich większych rówieśników. Małe modele mogą na przykład halucynacja częściej i bardziej oczywiście niż Claude, GPT i Gemini, a zobaczenie tych halucynacji może pomóc w budowaniu świadomości, w jaki sposób i kiedy większe modele mogą również leżeć.

„Uruchamianie lokalnych modeli jest naprawdę dobrym ćwiczeniem do rozwijania tej szerszej intuicji dla tego, co te rzeczy mogą zrobić”, mówi Willison.

Jak zacząć

Lokalne LLM są nie tylko dla biegłości. Jeśli czujesz się komfortowo, korzystając z interfejsu wiersza polecenia komputera, który pozwala przeglądać pliki i uruchamiać aplikacje za pomocą monitów tekstowych, Ollama jest świetną opcją. Po zainstalowaniu oprogramowania możesz pobrać i uruchomić dowolny z setek modeli, które oferują za pomocą jednego polecenia.

Jeśli nie chcesz dotykać niczego, co nawet wygląda jak kod, możesz wybrać LM Studio, przyjazną dla użytkownika aplikację, która wymaga dużo domysłu z uruchamiania lokalnych LLM. Możesz przeglądać modele z przytulania twarzy z prawej w aplikacji, która zapewnia mnóstwo informacji, które pomogą Ci dokonać właściwego wyboru. Niektóre popularne i powszechnie używane modele są oznaczone jako „wybory personelu”, a każdy model jest oznaczony zgodnie z tym, czy można je uruchomić całkowicie na szybkim procesorze GPU twojego maszyny, muszą być udostępnione między procesorem graficznym i wolniejszym procesorem, czy też jest zbyt duży, aby w ogóle zmieścić się na urządzeniu. Po wybraniu modelu możesz go pobrać, załadować i rozpocząć interakcję z nim za pomocą interfejsu czatu aplikacji.

Podczas eksperymentu z różnymi modelami zaczniesz wyczuć, co może poradzić sobie z maszyną. Według Willisona, każdy miliard parametrów modelu wymaga około jednego GB pamięci RAM do uruchomienia, i okazało się, że przybliżenie jest dokładne: mój własny laptop 16 GB udało się uruchomić QWEN3 14B Alibaba, o ile rzuciłem prawie każdą aplikację. Jeśli napotykasz problemy z szybkością lub użytecznością, zawsze możesz się zmniejszyć – otrzymałem również rozsądne odpowiedzi z QWEN3 8B.