Codex Tips1 - token

codex 사용중 config 에서 지정 가능한 옵션을 정리.


Local LLM 시리즈

  1. (Local LLM) Ollama 시작하기
  2. Codex 와 Local LLM 연결하기

로컬 llama-server는 자체 인터넷 검색 기능이 없습니다.

  1. enable_web_search,
  2. search_web_for_info:
1
2
3
4
5
6
7
8
model_reasoning_effort = "xhigh"
approval_policy = "on-request"
approvals_reviewer = "guardian_subagent"

personality = "pragmatic"
enable_web_search = false
search_web_for_info = false

codex 프로필중 token 영향

  1. max_context_tokens: 서버의 한계치보다 약 1,000~2,000 토큰 정도 낮게 설정
  2. autodetect_capabilities: 클라이언트가 서버의 기능을 자동으로 탐지하는 옵션입니다. 로컬 서버의 경우 가끔 툴 콜(Tool Call)이나 모델 스펙을 잘못 오인하여 맞지 않는 API 규격을 찔러넣을 수 있으므로, 기능을 끄고 명시적으로 수동 제어하는 것이 안정적입니다.
1
2
3
max_context_tokens = 30000
autodetect_capabilities = false
model_auto_compact_token_limit = 900000

token 초과 에러

토큰 초과 에러와 codex

1
"■ {"error":{"code":400,"message":"request (24592 tokens) exceeds the available context size (24576 tokens), try increasing it","type":"exceed_context_size_error","n_prompt_tokens":24592,"n_ctx":24576}}" 에러가 나면 /clear 를 해야 하는지 아니면 서버를 재시작 해야 한느지 

결과 백업하기

Codex(또는 Cline 등) 채팅창에서 /clear를 입력하면 이전 대화 기억이 완전히 포맷(초기화)되기 때문에, 말 그대로 ‘기존 대화 흐름을 완벽히 이어서’ 진행하는 것은 불가능합니다.

하지만 에이전트가 이전에 어디까지 작업했는지 컨텍스트(문맥)의 핵심 요약본만 찔러 넣어주면 바로 다음 단계부터 자연스럽게 이어서 작업하게 만들 수 있습니다.

1단계: 에이전트에게 상황 요약 요청하기 (최후의 유언)

에러가 나서 멈춘 바로 그 상태에서(아직 /clear를 치기 전), 채팅창에 아래와 같이 입력하여 에이전트 스스로 현재까지의 진행 상황을 요약하게 만듭니다. (토큰이 넘쳐도 짧은 단답형 요청은 서버가 처리해 줄 가능성이 높습니다.)

“우리가 지금까지 바꾼 파일 목록, 수정한 핵심 내용, 그리고 바로 다음에 진행해야 했던 ‘남은 작업 단계’를 리스트로 간결하게 요약해 줘.”

2단계: 요약본 복사 및 세션 초기화

  1. 에이전트가 출력해 준 요약본(진행 상황 + 남은 작업)을 마우스로 드래그하여 복사(Ctrl + C)해 둡니다.
  2. 이제 안심하고 채팅창에 /clear를 입력하여 무거워진 토큰 메모리를 완전히 비워줍니다. (컨텍스트가 0으로 리셋됩니다.)

3단계: 복사한 요약본을 주입하며 이어서 진행

초기화된 새 대화창에 복사해 둔 요약본과 함께 컨텍스트를 주입하는 프롬프트를 던집니다.

“방금 세션을 리셋했어. 이전 세션의 작업 문맥을 이어받아줘.
[이전 세션 요약]

  • 수정한 파일: src/models/trading.py
  • 수정 내용: GARCH 모델 인디케이터 연산 로직 추가 완료
  • 남은 작업: 변경된 로직을 기반으로 KRX API 연동 테스트 코드 작성하기

위 내용 이어서 다음 남은 작업을 바로 진행해 줘.”


💡 현실적인 추가 팁

만약 1단계에서조차 토큰이 완전히 꽉 막혀 에이전트가 대답을 아예 안 뱉는다면, 요약 요청을 건너뛰고 질문자님이 눈으로 보시던 마지막 작업 상태(예: “어떤 파일 가중치 수정하다가 멈춤”)를 기억하셨다가 3단계 형식처럼 직접 적어서 주입하시면 됩니다.

로컬 LLM을 활용한 에이전트 코딩 시에는 이처럼 “대화가 길어지면 요약본을 챙겨서 /clear 후 재주입한다”는 매커니즘을 기억해 두시면 흐름을 잃지 않고 쾌적하게 작업을 이어가실 수 있습니다.


plugin: caveman

https://github.com/JuliusBrussee/caveman#readme

1
2
# macOS · Linux · WSL · Git Bash
curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bash

Turn it on: type /caveman or say “talk like caveman”. Turn it off: say “normal mode”. On Claude Code, Codex, and Gemini it’s already on from message one. No command needed.

Author

Gangtai Goh

Posted on

2026-05-30

Updated on

2026-07-05

Licensed under