Local LLM Trading Engine: Ollama + RAG на M3 24GB
Multi-model decision engine 100% on-device: qwen2.5:14b primary + llama3.1:8b fallback + LLaVA:7b vision для chart-скринов + ChromaDB RAG. Нулевая стоимость API, нулевая утечка данных, полный контроль над промптами и системой принятия решений.
Cloud-LLM для trading — три причины не использовать
(1) Latency. При сотнях сигналов в день каждый запрос к OpenAI/Claude добавляет секунды → пропускаешь точки входа. (2) Стоимость. $0.01-0.10 на сигнал × 1000 сигналов = $100/день только на инференс. (3) Утечка стратегий. Trading-эджи в промптах — это IP. Отправляя их в OpenAI ты делишься конкурентным преимуществом.
Нужен был полностью локальный engine, способный принимать ICT/Smart-Money-Concepts сигналы (BHM-3BP, iFVG, IMPULSIVE, REVERSAL), анализировать confluence (HTF bias + displacement + liquidity) и выдавать решения BUY/SELL/NO_TRADE с confidence-метрикой.
Три модели + RAG + bridge
Основная модель для принятия торгового решения. Reasoning поверх structured-input signals + historical context из RAG.
Backup при тайм-аутах qwen и для быстрых вспомогательных запросов (классификация рынка, sanity-check).
Vision-model для анализа chart-скриншотов: распознавание паттернов, визуальная валидация order-block / FVG / liquidity sweep.
Хранит исторические сделки (win/loss + контекст). Поднимает 5-10 ближайших аналогов для текущего сигнала → даёт LLM контекст для решения.
Decision Engine с confidence-score
На каждый входящий сигнал (BHM-3BP / iFVG / SM-OB-CONT / SM-ASIA-SWEEP) decision engine собирает:
- Tier-классификацию сигнала (A/B/C/D) → базовая confidence 0.45–0.65
- Confluence bonuses: HTF bias (+0.05) + displacement (+0.03) + liquidity sweep (+0.02)
- Historical modifier через RAG: подтягиваются 5-10 похожих сделок, считается win-rate
- Регуляторный gating: time-of-day, session (Asia/London/NY), сезонность
LLM выдаёт final-confidence и decision (BUY/SELL/NO_TRADE). Threshold 0.70 — ниже отсекается как «borderline». Guardrails в коде проверяют lot-size, distance to TP/SL, корреляцию с открытыми позициями.
Phase-3A dry-run · 100 сигналов
в коридоре 60–75% → ✅ строгий пресечь шум
все safety-проверки пройдены, нет нарушений lot-size / SL / корреляции
vs OpenAI/Claude API ~$100/день при сопоставимом объёме
Применимость для клиентов: local-LLM stack идеален для случаев где данные не должны покидать периметр компании: медицина (ФЗ-152 ПД), банкинг, ВПК-аффилированные, корпоративная безопасность, legal-tech. Развёртывание на M2/M3 Mac mini (1000 ₽/мес электричества), Apple Silicon с unified-memory справляется с 14B-моделями в комфортной latency.
«Тот же подход что у себя — переношу к вам.» Custom RAG над вашими документами + multi-model fallback + локальный inference. Никаких внешних API, никакой утечки IP, полный контроль.
Аудит за 5 000 ₽ — с конкретным отчётом и сметой
Расскажу что внедрить в вашем бизнесе в первую очередь, какая будет окупаемость, и нужен ли вообще AI для вашей задачи (иногда — нет).
Или просто напишите свой вопрос — отвечу в течение 2 часов