2026-06-30 게시 됨2026-07-02 업데이트 됨Programming, Python몇 초안에 읽기 (약 108 단어)

Local LLM 시리즈

Qwen3.6-27B

Qwen 3.6 27B는 로컬 개발의 최적 지점

https://news.hada.io/topic?id=30942

unsloth/Qwen 3.6 27B gguf

https://huggingface.co/unsloth/Qwen3.6-27B-GGUF

실행 (3080ti)

$ llama-server –help | grep -E “slot|parallel|draft”

1 2	llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080

Jackrong/Qwopus3.6-27B-Coder-Compat-MTP-GGUF

https://huggingface.co/Jackrong/Qwopus3.6-27B-Coder-Compat-MTP-GGUF

2026-06-10 게시 됨2026-06-23 업데이트 됨Programming, Python7분안에 읽기 (약 992 단어)

Codex 개발시 불편한 것

Local LLM 시리즈

프로젝트에 여러 폴더 포함하기

결론부터 말씀드리면, Lib_StockMart 폴더를 굳이 Stock-Agent 아래로 이동시키지 않아도 외부 폴더 상태 그대로 Codex CLI에 주입할 수 있는 방법이 있습니다.

현재 /home/qkboo/Projects/Lib_StockMart의 소스코드를 볼 수 없는 이유는, Codex CLI가 실행될 때 기본적으로 현재 터미널이 위치한 디렉터리(Stock-Agent)와 그 하위 폴더만 자동으로 컨텍스트에 스캔(인덱싱)하도록 설계되어 있기 때문입니다. 프로필에 등록하는 행위는 ‘이 경로를 신뢰한다’는 허가 선언일 뿐, 실행 시 자동으로 멀리 떨어진 다른 폴더를 끌고 오지는 않습니다.

이 구조적 한계를 깨고 독립된 두 폴더를 유기적으로 탐색하게 만드는 2가지 확실한 해결책을 제시해 드립니다.

해결책 1: 심볼릭 링크(Symbolic Link) 생성 (가장 추천)

리눅스(WSL)의 심볼릭 링크 기능을 사용하면, Lib_StockMart 폴더를 원래 위치에 그대로 둔 채 Stock-Agent 내부에 바로가기(폴더 링크)를 심을 수 있습니다. 이렇게 하면 Codex는 해당 링크를 일반 하위 디렉터리로 인식하여 완벽하게 파일을 읽고 @ 검색 대상에 포함시킵니다.

터미널을 열고 다음 명령어를 실행하세요:

# Stock-Agent 디렉터리로 이동
cd /home/qkboo/Projects/Stock-Agent

# 원래 위치에 있는 Lib_StockMart를 현재 폴더에 'lib'라는 이름의 링크로 연결
ln -s /home/qkboo/Projects/Lib_StockMart ./lib

이렇게 세팅하면 구조는 아래와 같이 유지되며, Lib_StockMart 내부 코드를 수정하면 양쪽 모두 실시간으로 반영됩니다:

/home/qkboo/Projects/Stock-Agent/lib ➡️ (실제로는 Lib_StockMart를 가리킴)

💡 중요 조치 사항: 심볼릭 링크를 생성한 후, Codex 대화창에서 /reload 명령어를 입력하거나 터미널에서 **codex --profile goyangi_coder --refresh**를 실행해 새롭게 연결된 외부 라이브러리 폴더의 인덱싱을 강제로 갱신해 주어야 @ 검색에 나타나기 시작합니다.

해결책 2: 실행 시점에 다중 파일/디렉터리 명시적 주입

만약 폴더 내부에 바로가기를 심는 구조가 마음에 들지 않는다면, Codex CLI를 실행하는 스크립트 단에서 두 디렉터리를 강제로 병합하여 인덱싱하도록 명령하는 방법이 있습니다.

현재 사용 중이신 단축어(alias cx="...") 설정을 아래와 같이 변경해 보세요.

1
2
3

# 임시 인덱싱 경로로 외부 라이브러리 폴더를 추가 주입하는 단축어 예시
alias cx="codex --profile goyangi_coder --file /home/qkboo/Projects/Lib_StockMart"

동작 원리: 이렇게 실행하면 현재 위치한 Stock-Agent 소스 코드뿐만 아니라, --file 옵션으로 전달된 공통 라이브러리(Lib_StockMart) 내부의 소스 트리까지 통째로 로컬 모델(gemma-4)의 기억(Context) 속에 밀어 넣어주게 됩니다.

🧐 요약 및 퀀트 개발 환경 제언

가장 깔끔하고 현업 표준에 맞는 방식은 [해결책 1 (심볼릭 링크)]입니다. 주식 데이터 분석 엔진(Stock-Agent)을 개발하다가 공통 마켓 데이터 라이브러리(Lib_StockMart)의 내부 클래스나 유틸리티 함수를 호출해야 할 때, 코드를 물리적으로 복사할 필요 없이 @lib/ 형식으로 참조하여 곧바로 퀀트 로직 최적화 팁을 얻을 수 있습니다.

2026-05-30 게시 됨2026-07-05 업데이트 됨Programming, Python7분안에 읽기 (약 1097 단어)

Codex Tips1 - token

codex 사용중 config 에서 지정 가능한 옵션을 정리.

Local LLM 시리즈

web search

로컬 llama-server는 자체 인터넷 검색 기능이 없습니다.

enable_web_search,
search_web_for_info:

model_reasoning_effort = "xhigh"
approval_policy = "on-request"
approvals_reviewer = "guardian_subagent"

personality = "pragmatic"
enable_web_search = false
search_web_for_info = false

codex 프로필중 token 영향

max_context_tokens: 서버의 한계치보다 약 1,000~2,000 토큰 정도 낮게 설정
autodetect_capabilities: 클라이언트가 서버의 기능을 자동으로 탐지하는 옵션입니다. 로컬 서버의 경우 가끔 툴 콜(Tool Call)이나 모델 스펙을 잘못 오인하여 맞지 않는 API 규격을 찔러넣을 수 있으므로, 기능을 끄고 명시적으로 수동 제어하는 것이 안정적입니다.

1
2
3

max_context_tokens = 30000
autodetect_capabilities = false
model_auto_compact_token_limit = 900000

token 초과 에러

토큰 초과 에러와 codex

"■ {"error":{"code":400,"message":"request (24592 tokens) exceeds the available context size (24576 tokens), try increasing it","type":"exceed_context_size_error","n_prompt_tokens":24592,"n_ctx":24576}}" 에러가 나면 /clear 를 해야 하는지 아니면 서버를 재시작 해야 한느지

결과 백업하기

Codex(또는 Cline 등) 채팅창에서 /clear를 입력하면 이전 대화 기억이 완전히 포맷(초기화)되기 때문에, 말 그대로 ‘기존 대화 흐름을 완벽히 이어서’ 진행하는 것은 불가능합니다.

하지만 에이전트가 이전에 어디까지 작업했는지 컨텍스트(문맥)의 핵심 요약본만 찔러 넣어주면 바로 다음 단계부터 자연스럽게 이어서 작업하게 만들 수 있습니다.

1단계: 에이전트에게 상황 요약 요청하기 (최후의 유언)

에러가 나서 멈춘 바로 그 상태에서(아직 /clear를 치기 전), 채팅창에 아래와 같이 입력하여 에이전트 스스로 현재까지의 진행 상황을 요약하게 만듭니다. (토큰이 넘쳐도 짧은 단답형 요청은 서버가 처리해 줄 가능성이 높습니다.)

“우리가 지금까지 바꾼 파일 목록, 수정한 핵심 내용, 그리고 바로 다음에 진행해야 했던 ‘남은 작업 단계’를 리스트로 간결하게 요약해 줘.”

2단계: 요약본 복사 및 세션 초기화

에이전트가 출력해 준 요약본(진행 상황 + 남은 작업)을 마우스로 드래그하여 복사(Ctrl + C)해 둡니다.
이제 안심하고 채팅창에 /clear를 입력하여 무거워진 토큰 메모리를 완전히 비워줍니다. (컨텍스트가 0으로 리셋됩니다.)

3단계: 복사한 요약본을 주입하며 이어서 진행

초기화된 새 대화창에 복사해 둔 요약본과 함께 컨텍스트를 주입하는 프롬프트를 던집니다.

“방금 세션을 리셋했어. 이전 세션의 작업 문맥을 이어받아줘.
[이전 세션 요약]

수정한 파일: src/models/trading.py

수정 내용: GARCH 모델 인디케이터 연산 로직 추가 완료

남은 작업: 변경된 로직을 기반으로 KRX API 연동 테스트 코드 작성하기

위 내용 이어서 다음 남은 작업을 바로 진행해 줘.”

💡 현실적인 추가 팁

만약 1단계에서조차 토큰이 완전히 꽉 막혀 에이전트가 대답을 아예 안 뱉는다면, 요약 요청을 건너뛰고 질문자님이 눈으로 보시던 마지막 작업 상태(예: “어떤 파일 가중치 수정하다가 멈춤”)를 기억하셨다가 3단계 형식처럼 직접 적어서 주입하시면 됩니다.

로컬 LLM을 활용한 에이전트 코딩 시에는 이처럼 “대화가 길어지면 요약본을 챙겨서 /clear 후 재주입한다”는 매커니즘을 기억해 두시면 흐름을 잃지 않고 쾌적하게 작업을 이어가실 수 있습니다.

plugin: caveman

https://github.com/JuliusBrussee/caveman#readme

1 2	# macOS · Linux · WSL · Git Bash curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh \| bash

Turn it on: type /caveman or say “talk like caveman”. Turn it off: say “normal mode”. On Claude Code, Codex, and Gemini it’s already on from message one. No command needed.

2026-05-30 게시 됨2026-06-28 업데이트 됨Programming, Python18분안에 읽기 (약 2767 단어)

(Local LLM) Ollama 시작하기

Local LLM 시리즈

Ollama 란

ollama 는 LLM model 을 local machine 에서 서버로 서비스를 제공할 수 있는 플랫폼이다.

ollama 제공 및 외부 LLM Model 을 서버 및 채팅 제공 CLI
LLM model 파라미터 조정

Gemini 통해 그린 ollama 서비스 다이어그램.

┌─────────────────────────────────────────────────────────────────┐
│ Windows 11 Host (ASUS A14 / RTX 4060 Laptop GPU 8GB)            │
│                                                                 │
│ ┌────────────────────────┐        [Mirrored Network Mode]       │
│ │   Windows App / IDE    │        - Ports are shared directly   │
│ │  (VS Code, Cursor 등)   │       - No Port Forwarding Needed   │
│ └───────────┬────────────┘                                      │
│             │ (HTTP Request to localhost:11434)                 │
│             ▼                                                   │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │  WSL2 Ubuntu Environment (goyangi2)                         │ │
│ │                                                             │ │
│ │   ollama.service [systemd]                                  │ │
│ │   └── Port: 0.0.0.0:11434 (LISTENING)                       │ │
│ │                                                             │ │
│ │         ┌──────────────────────────────────────────────┐    │ │
│ │         │ Ollama Runner (llama.cpp / GGML Backend)     │    │ │
│ │         └──────────────────────┬───────────────────────┘    │ │
│ └────────────────────────────────┼────────────────────────────┘ │
│                                  │                              │
│ ┌────────────────────────────────▼────────────────────────────┐ │
│ │  NVIDIA CUDA Driver Layer                                   │ │
│ └────────────────────────────────┬────────────────────────────┘ │
│                                  │ (100% GPU Offload)           │
│                                  ▼                              │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │  RTX 4060 VRAM (8GB) Dedicated Memory                       │ │
│ │  ├── Model Weights (Gemma 4 4.6B Q5) ─── [ 5.4 GiB ]        │ │
│ │  ├── KV Cache (num_ctx: 12288) ───────── [ 392.0 MiB ]      │ │
│ │  └── Compute Graph (CUDA0) ───────────── [ 302.0 MiB ]      │ │
│ │                                                             │ │
│ │  └── [ 🚀 Total GPU Memory Used: 6.6 GiB / 8.0 GiB ]        │ │
│ └─────────────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────┘

ollama 설치

ollama CLI 와 Model 은 아래 사이트에서 다운로드 받을 수 있다.

https://ollama.com/download/

설치후 LLM Chat, API call, Codex / Claude CLI 에 연동해서 사용할 수 있다.

설치

https://ollama.com/download/linux

1	curl -fsSL https://ollama.com/install.sh \| sh

ollama CLI 명령

$ ollama
Ollama 0.21.2

▸ Chat with a model
    Start an interactive chat with a model

  Launch OpenClaw (install)
    Personal AI with 100+ skills

  Launch Claude Code
    Anthropic's coding tool with subagents

  Launch OpenCode (not installed)
    Anomaly's open-source coding agent

  More...
    Show additional integrations

사용 가능한 명령:

Usage:
  ollama [flags]
  ollama [command]

Available Commands:
  serve       Start Ollama
  create      Create a model
  show        Show information for a model
  run         Run a model
  stop        Stop a running model
  pull        Pull a model from a registry
  push        Push a model to a registry
  signin      Sign in to ollama.com
  signout     Sign out from ollama.com
  list        List models
  ps          List running models
  cp          Copy a model
  rm          Remove a model
  launch      Launch the Ollama menu or an integration
  help        Help about any command

Flags:
  -h, --help         help for ollama
      --nowordwrap   Don't wrap words to the next line automatically
      --verbose      Show timings for response
  -v, --version      Show version information

Use "ollama [command] --help" for more information about a command.

모델 다운로드 pull 명령으로 ollama 저장소 제공 모델 다운로드할 수 있다.

https://ollama.com/search : 모델을 선택해 세부 Model 의 이름을 찾는다.

[pull 명령]

pull 명령으로 모델을 다운로드 한다.

1
2
3

$ ollama pull gemma4:e2b
pulling manifest
pulling 4e30e2665218:   2% ▕█             ▏ 109 MB/7.2 GB   56 MB/s    2m5s

pull 로 다운받은 모델 저장 디렉토리:

/usr/share/ollama/.ollama/models :(시스템 서비스 실행 시)

[Ollama 경로 변경]

Ollama는 환경 변수 OLLAMA_MODELS 를 참조합니다.

1	export OLLAMA_MODELS="/data/models/ollama"

설정 후 source ~/.bashrc와 sudo systemctl restart ollama를 잊지 마세요.

[ls 명령]

모델 목록 조회

$ ollama ls
NAME                     ID              SIZE      MODIFIED
gemma4:e2b               7fbdbf8f5e45    7.2 GB    3 days ago
gemma4-e4b-32k:latest    6d2a1a196ef9    9.6 GB    4 weeks ago
gemma4:e4b               c6eb396dbd59    9.6 GB    4 weeks ago
qwen2.5-coder:latest     dae161e27b0e    4.7 GB    4 weeks ag

gemma4-e4b: 다운로드한 원래 모델
gemma4-e4b-32k: 모델의 파라미터를 수정한 Modelfile 에서 생성한 새 모델

[rm 명령]

rm 명령으로 다운 받은 모델을 삭제한다.

1	ollama rm gemma4:e4b

[show 명령]

show 명령으로 모델의 세부 정보를 조회할 수 있다.

$ ollama show gemma4:e4b
  Model
    architecture        gemma4
    parameters          8.0B
    context length      131072
    embedding length    2560
    quantization        Q4_K_M
    requires            0.20.0

  Capabilities
    completion
    vision
    audio
    tools
    thinking

  Parameters
    temperature    1
    top_k          64
    top_p          0.95

  License
    Apache License
    Version 2.0, January 2004
    ...

[run 명령]

run 명령은 ollama 모델로 다운받은 NAME 이름의 모델을 서비스로 시작해 준다.

시스템의 ollama 서비스를 시작해 http로 11434 포트를 통해서 제공된다.
run 명령은 CLI 채팅을 시작

ollama run gemma4:e2b
>>> Send a message (/? for help)
>>>
Use Ctrl + d or /bye to exit

run NAME 명령 혹은 serve 명령으로 시스템 서비스로 11434 포트를 통해 웹서비스가 시작된다.

1
2
3

$ sudo ss -tunlp | grep ollama
tcp   LISTEN 0      4096        127.0.0.1:35965      0.0.0.0:*    users:(("ollama",pid=824718,fd=3))
tcp   LISTEN 0      4096        127.0.0.1:11434      0.0.0.0:*    users:(("ollama",pid=165,fd=3))

브라우저로 11434 포트에 접속해 보면 ‘Ollama is running’ 을 확인 가능하다.

[ps 명령]

ps 명령은 실행중인 ollama 프로세스를 확인할 수 있다.

1
2
3

$ ollama ps
NAME          ID              SIZE      PROCESSOR          CONTEXT    UNTIL
gemma4:e2b    7fbdbf8f5e45    7.7 GB    75%/25% CPU/GPU    4096       4 minutes from now

ollama 는 설치시 리눅스 계열에서는 systemd 로 설치된다. systemd 상태를 확인할 수 있다.

$ systemctl status ollama
● ollama.service - Ollama Service
     Loaded: loaded (/etc/systemd/system/ollama.service; enabled; preset: enabled)
     Active: active (running) since Fri 2026-05-29 22:02:07 KST; 9h ago
   Main PID: 165 (ollama)
      Tasks: 25 (limit: 28826)

[로그 확인]

로그 확인은 journalctl 를 사용한다.

journalctl -u ollama -f
 5월 29 07:42:11 goyangi2 ollama[165]: time=2026-05-29T07:42:11.649+09:00 level=INFO source=server.go:1398 msg="waiting for server to become available" status="llm server loading model"
 5월 29 07:42:19 goyangi2 ollama[165]: time=2026-05-29T07:42:19.188+09:00 level=INFO source=server.go:1402 msg="llama runner started in 69.72 seconds"
 5월 29 07:42:19 goyangi2 ollama[165]: [GIN] 2026/05/29 - 07:42:19 | 200 |         1m10s |       127.0.0.1 | POST     "/api/generate"

줄수 만큼 로그 기록 확인

1	journalctl -u ollama -n 100

[OpenAI API 호환 엔드포인트]

Ollama는 별도의 설정 없이도 OpenAI와 호환되는 API 엔드포인트를 기본적으로 제공합니다.

기본 주소: http://localhost:11434/v1
채팅 API: http://localhost:11434/v1/chat/completions

[stop 명령]

1	ollama stop

ollama 시스템 서비스를 시작한다.

1	ollama serve

systemd 를 직접 종료할 수 있겠다.

1	sudo systemctl stop ollama

서비스 환경변수 확인

1	$ sudo systemctl show ollama --property=Environment

Modelfile 로 성능 조정

ollama 는 Modelfile 을 이용해 기존 모델의 파라미터를 조정해 새로운 모델로 서빙할 수 있다.

모델파일

Modelfile 은 텍스트 파일로 특정 모델의 파라미터, 프롬프를 조정해 새로운 모델로 생성할 수 있다.

모델은 FROM 구문에 지정한다. 1) ollma 에 등록된 모델을 사용하거나, 2) gguf 경로, 3) hf.co 의 URI 를 사용하면 된다.

$ ollama ls
NAME                                                      ID              SIZE      MODIFIED
qwen3-14b-han:latest                                      bb1dc5fee044    9.0 GB    10 hours ago
hf.co/unsloth/Qwen3-14B-GGUF:Q4_K_M                       1c75fc1b9127    9.0 GB    10 hours ago
gemma4-e4b-32k:latest                                     2bb4cc1b3660    9.6 GB    3 days ago
my-default:latest                                         2bb4cc1b3660    9.6 GB    3 days ago
gemma4:e4b                                                c6eb396dbd59    9.6 GB    3 days ago

모델파일 작성

Modelfile 작성시 텍스트 파일에 FROM 구문으로 모델을 지정하고 팔라미터를 설정하면 된다.

다음은 ollama 모델에 할당한 num_ctx 토큰량 컨텍스트 크기를 직접 지정하는 예이다.

1 2	FROM qwen2.5-coder:7b # 모델 이름(ollama 다운로드) 혹은 모델의 위치 PARAMETER num_ctx 32768 # 컨텍스트 크기를 32768(32k)로 설정

[모델 생성]

새 파라미터로 모델을 생성

1	ollama create qwen-7b-32k -f Modelfile

새 모델 런치

1	ollama run qwen-7b-32k

모델 파일 파라미터

GPU 가속 최적화 (GPU Layers 설정)

Ollama는 기본적으로 GPU에 모델 레이어를 분배하지만, 때때로 VRAM 여유가 있음에도 일부를 CPU(RAM)에 남겨두는 경우가 있습니다. 모든 연산을 GPU에서 처리하도록 강제하면 속도가 비약적으로 향상됩니다.

gpu layers 는 모델 메타 정보에서 확인이 가능하다

1
2
3

FROM qwen2.5-coder:7b
# -1은 가능한 모든 레이어를 GPU에 올리라는 뜻입니다.
PARAMETER num_gpu -1

Context Window

ollma 모델은 **Context Window(문맥 창)**가 4096 으로 제한되는데 num_ctx 토큰량 컨텍스트 크기를 직접 지정한다.

1	PARAMETER num_ctx 32768 # 컨텍스트 크기를 32768(32k)로 설정

KV 캐시 양자화 (Flash Attention 및 메모리 절약)

32k와 같은 긴 컨텍스트를 사용할 때 가장 많은 메모리를 잡아먹는 것은 모델 자체보다 KV Cache(이전 대화를 기억하는 메모리)입니다. Ollama 최신 버전에서는 이를 압축하여 VRAM 부담을 줄일 수 있습니다.

1	PARAMETER temperature 1.0

무작위 토큰 선택을 제한하여 코드 일관성 유지

PARAMETER top_p 0.95
PARAMETER top_k 64

기존 모델의 파라미터 확인

다운 받은 모델의 세부 파라미터를 확인할 수 있다. 이 정보를 모델 파일로 리다이렉트해서 편집해 사용할 수 있다.

ollama show 로 모델의 파라미터를 확인하고 결과를 모델 파일로 리다이렉트하면 저장할 수 있다.

1	ollama show qwen3-14b-coding --modelfile > Modelfile

필요한 부분을 수정후 새 모델로 실행하면 된다.

1 2	ollama create ds-v4 -f Modelfile ollama run ds-v4

2026-05-30 게시 됨2026-05-31 업데이트 됨Programming, Python4분안에 읽기 (약 648 단어)

Codex 와 Local LLM 연결하기

Local LLM 시리즈

Codex 와 Local LLM 연결하기

Codex 를 Local LLM 로 서빙하는 API End point 에 연동해 사용하는 방법을 정리 요약한다.

codexcli: 0.134 (20260526 설치)
client: Ausus A14 / RTX 4060 8GB
server: RTX 3080ti

설치와 시작

codex 를 설치하고 프로젝트 폴더에서 codex를 실행한다.

프로젝트를 시작하면 .codex/ 폴더의 config.toml 설정 파일에 [projects.] 섹션이 생성된다.

프로젝트 섹션에 codex 를 시작한 폴더가 설정된다.

# .codex/config.toml
personality = "pragmatic"

[projects."/home/user/My_Project"]
trust_level = "trusted"

[tui.model_availability_nux]
"gpt-5.5" = 4

모델 Provider 설정

config.toml 의 [model_providers.] 섹션에 LLM endpoint 를 명시적으로 설정할 수 있다.

# .codex/config.toml
personality = "pragmatic"

[projects."/home/user/My_Project"]
trust_level = "trusted"

[model_providers.goyangi]
name = "openai"                      # openai chat
base_url = "http://192.168.0.3:8001" # llama-server
wire_api = "responses"
requires_openai_auth = false

[model_providers.local_llm]
name = "openai"
base_url = "http://localhost:11434/v1"   # openai endpoint /v1 지정 필요
wire_api = "responses"
requires_openai_auth = false


[tui.model_availability_nux]
"gpt-5.5" = 4

wire_api = "responses" : 최신 버전의 codex 는 response 로 지정해야 한다고 한다.

모델에 대한 provider 설정을 알아보자.

프로파일 설정

config.toml 의 model_providers 의 선언한 provider 이름은 별도의 동일한 파일로 설정한다.

해당 provider 의 동일 이름의 .codex/PROFILENAME.tomy 파일을 참조하게 된다.

이곳에 LLM endpoiint 의 세부 모델에 대한 파라미터를 선언한다.

예를 들의 위의 goyangi_coder 는 다음 같이 구성된다.

#.codex/goyangi_coder.config.toml
model_provider = "goyangi"
model = "gpt-5"
approvals_reviewer = "user"
# 필요 시 추가 옵션
# max_tokens = 2048
# context_length = 8192

다른 프로바이더 local_llm 프로파일은 다음 같이 구성된다.

#.codex/local_llm.config.toml
model_provider = "local_llm"
model = "gemma-4"                  # 서비스가 제공하는 정확안 모델 이름
approvals_reviewer = "user"
# 필요 시 추가 옵션
# max_tokens = 2048
# context_length = 8192

시작

프로파일을 사용해서 codex 를 시작할 수 있다.

1	codex --profile local_llm

테스트

1	curl http://192.168.0.3:8001/v1/models

반환된 JSON 결과의 id 값이 "gemma-4"가 아니라 파일명 전체(예: "gemma-4-it-Q4_K_M.gguf")로 되어 있다면, 그 값을 그대로 model 필드에 적어주어야 매칭 실패 에러가 나지 않습니다.

한국어

Linux에서 Codex 한글 설정
Linux는 시스템 로케일이 UTF-8이면 추가 설정 없이 정상 작동합니다. locale 명령으로 확인하세요.

locale

LANG=ko_KR.UTF-8 또는 en_US.UTF-8이면 정상

만약 UTF-8이 아니라면:

sudo locale-gen ko_KR.UTF-8

sudo update-locale LANG=ko_KR.UTF-8

Qwen3.6-27B

실행 (3080ti)

Jackrong/Qwopus3.6-27B-Coder-Compat-MTP-GGUF

프로젝트에 여러 폴더 포함하기

해결책 1: 심볼릭 링크(Symbolic Link) 생성 (가장 추천)

해결책 2: 실행 시점에 다중 파일/디렉터리 명시적 주입

🧐 요약 및 퀀트 개발 환경 제언

web search

codex 프로필중 token 영향

token 초과 에러

결과 백업하기

1단계: 에이전트에게 상황 요약 요청하기 (최후의 유언)

2단계: 요약본 복사 및 세션 초기화

3단계: 복사한 요약본을 주입하며 이어서 진행

💡 현실적인 추가 팁

plugin: caveman

Ollama 란

ollama 설치

설치

ollama CLI 명령

Modelfile 로 성능 조정

모델파일

모델파일 작성

모델 파일 파라미터

기존 모델의 파라미터 확인

Codex 와 Local LLM 연결하기

설치와 시작

모델 Provider 설정

프로파일 설정

시작

테스트

한국어

LANG=ko_KR.UTF-8 또는 en_US.UTF-8이면 정상

최근 글

카테고리