경험삼아 mlx기반 QLoRA 해보기-2부 by scolpion 님의 블로그

2025-11-07 15:29:34

1-실행결과

python3 -m mlx_lm.generate --model ./fused_sql_model

<frozen runpy>:128: RuntimeWarning: 'mlx_lm.generate' found in sys.modules after import of package 'mlx_lm', but prior to execution of 'mlx_lm.generate'; this may result in unpredictable behaviour
Calling `python -m mlx_lm.generate...` directly is deprecated. Use `mlx_lm.generate...` or `python -m mlx_lm generate ...` instead.
==========
Hello! How can I assist you today? 😊
==========
Prompt: 9 tokens, 71.300 tokens-per-sec
Generation: 12 tokens, 31.807 tokens-per-sec
Peak memory: 8.196 GB

2- 써보기

동작하는걸 확인하고 편하게 쓰기위해서 lmstudio에서 쓸수있도록 등록해줍니다.

/Users/사용자명/.lmstudio/models/lmstudio-community

여기에다가 mkdir 원하는 폴더명해줍니다.

통상적으로 제작자/모델명으로 합니다.

여기다가 파일을 옮겨준 후,

lmstudio를 재시작합니다.

시작하면 나오는 chat 화면에서 내 모델이 인식이 되어있고, 클릭해서 허깅페이스에서 받은 모델들처럼 편하게 사용할 수 있습니다.

몇개 대화를 해보니까
24.00 tok/sec
•
3096 tokens
•
6.63s to first token
•
Stop reason: EOS Token Found

이렇게 나오네요.
어차피 4b라 품질을 기대한건 아니고 어떻게 돌아가는 시스템인지 맛보기였으니까 만족합니다.

동일모델 허깅페이스에서 받은 모델과 살짝 다른 응답이있는걸 보면 학습효과가 없진 않은것 같은데,,,

4B라 애초에 품질이 구려서 뭐라 평가를 못하겠네요.

학습하는 동안 부하와 온도입니다.

4b-bit 모델인데 렘만 엄청 먹더라구요.

2주뒤 추가내용

갑자기 용량부족 알림떠서 보니까 ./cache/huggingface 에 많이 남네요.

혹시 용량 부족하신분들은 확인해보세요.

저는 모젤 구워서 아예 lmstudio 로 옮겨놔서 다 지웠습니다.

outlines ls -l

outlines 폴더도 있는데 이건 python LLM 라이브러리라 구지?안지우셔도 됩니다.(실행하면 또생김)
total 42192
drwxr-xr-x@ 3 ****staff        96 Aug 12 16:07 0b
drwxr-xr-x@ 3 **** staff        96 Nov  7 14:55 17
-rw-r--r--@ 1 **** staff  21557248 Nov 24 12:48 cache.db
-rw-r--r--@ 1 **** staff     32768 Nov 24 12:48 cache.db-shm
-rw-r--r--@ 1 **** staff      8272 Nov 24 12:48 cache.db-wal

'LLM' 카테고리의 다른 글

구형 노트북 서빙머신 구축-1 (0)	2026.05.27
경험삼아 mlx기반 QLoRA 해보기-1부 (0)	2025.11.07
DeepSeek 깔아보기 (0)	2025.01.29
PHI4써보기 (0)	2025.01.15

'LLM' 카테고리의 다른 글

티스토리툴바