StoryChain Lab [3.0] [py] - Od obrazu do mikro-powieści. [full] [textGen] [only Polish language] [no NSFW]

详情

模型描述

(wersja stabilna) (model zwraca tekst po po polsku) (testowane na lokalnych modelach multimodalnych: qwen3-vl-8b, modele no thinking oraz Bielik-11B-v3.0-Instruct Q5_K_M).

Wersja finalna StoryChain Lab (w przypadku tego narzędzia już więcej nic nie wycisnę z tego modelu. Jedyne co można zrobić, to poprawić funkcjonalność promptów sterujących).

W tej wersji zaimplementowane zostało rozwiązanie Proxy Vision, które działa tylko dla Stage 1 (Analiza Obrazu). Pozostałe etapy opierać się będą bezpośrednio na modelu Bielik.

Jak to:

  • Zainstaluj LM Studio,

  • Pobierz model multimodalny np. qwen3-vl-8b (użyłem modeli no-thinking),

  • Pobierz model Bielik-11B-v3.0-Instruct Q5_K_M,

  • Załaduj model multimodalny i uruchom LM Server,

  • Musisz mieć poprawnie zainstalowany Python,

  • Kliknij install.bat,

  • Kliknij start.bat

  • W GUI kliknij na [wczytaj obraz]. Obraz powiązany zostanie ze Stage 1: Analiza Obrazu. Kliknij na [Generuj]. Poczekaj na zakończenie analizy treści obrazu (nie używaj obrazów o wysokiej rozdzielczości, użyj obrazów 512x512, 512x768, 768x768, 768x512),

  • Wyładuj model multimodalny,

  • Załaduj model Bielik-11B-v3.0-Instruct Q5_K_M i kliknij na [Refresh],

  • Przejdź do kolejnych etapów Stage 2-6

WAŻNE:

  • podczas generowania tekstu nie klikaj w poprzednie etapy,

  • w przypadku problemów zapisz wygenerowany tekst i ponownie wczytaj go do danego Stage co pozwoli przejść do kolejnego etapu,

  • możesz edytować tekst (tekst główny oraz podsumowania).

Paczka zawiera prompty sterujące (stare, nowe) w wersji pl oraz eng. Eksperymentuj.

此模型生成的图像