StoryChain Lab [3.0] [py] - Od obrazu do mikro-powieści. [full] [textGen] [only Polish language] [no NSFW]

analogTime

0

9

model-image-0

Details

Download Files (1)

Model description

(wersja stabilna) (model zwraca tekst po po polsku) (testowane na lokalnych modelach multimodalnych: qwen3-vl-8b, modele no thinking oraz Bielik-11B-v3.0-Instruct Q5_K_M).

Wersja finalna StoryChain Lab (w przypadku tego narzędzia już więcej nic nie wycisnę z tego modelu. Jedyne co można zrobić, to poprawić funkcjonalność promptów sterujących).

W tej wersji zaimplementowane zostało rozwiązanie Proxy Vision, które działa tylko dla Stage 1 (Analiza Obrazu). Pozostałe etapy opierać się będą bezpośrednio na modelu Bielik.

Jak to:

Zainstaluj LM Studio,
Pobierz model multimodalny np. qwen3-vl-8b (użyłem modeli no-thinking),
Pobierz model Bielik-11B-v3.0-Instruct Q5_K_M,
Załaduj model multimodalny i uruchom LM Server,
Musisz mieć poprawnie zainstalowany Python,
Kliknij install.bat,
Kliknij start.bat

W GUI kliknij na [wczytaj obraz]. Obraz powiązany zostanie ze Stage 1: Analiza Obrazu. Kliknij na [Generuj]. Poczekaj na zakończenie analizy treści obrazu (nie używaj obrazów o wysokiej rozdzielczości, użyj obrazów 512x512, 512x768, 768x768, 768x512),
Wyładuj model multimodalny,
Załaduj model Bielik-11B-v3.0-Instruct Q5_K_M i kliknij na [Refresh],
Przejdź do kolejnych etapów Stage 2-6

WAŻNE:

podczas generowania tekstu nie klikaj w poprzednie etapy,
w przypadku problemów zapisz wygenerowany tekst i ponownie wczytaj go do danego Stage co pozwoli przejść do kolejnego etapu,
możesz edytować tekst (tekst główny oraz podsumowania).

Paczka zawiera prompty sterujące (stare, nowe) w wersji pl oraz eng. Eksperymentuj.

Images made by this model

Sort by