Кейс · Local-AI · On-device inference

Local LLM Trading Engine: Ollama + RAG на M3 24GB

Multi-model decision engine 100% on-device: qwen2.5:14b primary + llama3.1:8b fallback + LLaVA:7b vision для chart-скринов + ChromaDB RAG. Нулевая стоимость API, нулевая утечка данных, полный контроль над промптами и системой принятия решений.

Тип

Local-LLM decision engine

Железо

MacBook Air M3 · 24GB unified RAM

Стек

Ollama · qwen2.5:14b · LLaVA:7b · ChromaDB

Итог

0 violations, 76% NO_TRADE

01 · Боль

Cloud-LLM для trading — три причины не использовать

(1) Latency. При сотнях сигналов в день каждый запрос к OpenAI/Claude добавляет секунды → пропускаешь точки входа. (2) Стоимость. $0.01-0.10 на сигнал × 1000 сигналов = $100/день только на инференс. (3) Утечка стратегий. Trading-эджи в промптах — это IP. Отправляя их в OpenAI ты делишься конкурентным преимуществом.

Нужен был полностью локальный engine, способный принимать ICT/Smart-Money-Concepts сигналы (BHM-3BP, iFVG, IMPULSIVE, REVERSAL), анализировать confluence (HTF bias + displacement + liquidity) и выдавать решения BUY/SELL/NO_TRADE с confidence-метрикой.

02 · Стек

Три модели + RAG + bridge

Primary · 14.8B params

qwen2.5:14b

9.0 GB · latency 4-11 сек · качество ⭐⭐⭐

Основная модель для принятия торгового решения. Reasoning поверх structured-input signals + historical context из RAG.

Fallback · 8B params

llama3.1:8b

4.9 GB · latency 7-10 сек · качество ⭐⭐

Backup при тайм-аутах qwen и для быстрых вспомогательных запросов (классификация рынка, sanity-check).

Vision · 7B params

LLaVA:7b

4.7 GB · анализ изображений

Vision-model для анализа chart-скриншотов: распознавание паттернов, визуальная валидация order-block / FVG / liquidity sweep.

Knowledge

ChromaDB · RAG

embeddings + similarity search

Хранит исторические сделки (win/loss + контекст). Поднимает 5-10 ближайших аналогов для текущего сигнала → даёт LLM контекст для решения.

03 · Pipeline

Decision Engine с confidence-score

На каждый входящий сигнал (BHM-3BP / iFVG / SM-OB-CONT / SM-ASIA-SWEEP) decision engine собирает:

Tier-классификацию сигнала (A/B/C/D) → базовая confidence 0.45–0.65
Confluence bonuses: HTF bias (+0.05) + displacement (+0.03) + liquidity sweep (+0.02)
Historical modifier через RAG: подтягиваются 5-10 похожих сделок, считается win-rate
Регуляторный gating: time-of-day, session (Asia/London/NY), сезонность

LLM выдаёт final-confidence и decision (BUY/SELL/NO_TRADE). Threshold 0.70 — ниже отсекается как «borderline». Guardrails в коде проверяют lot-size, distance to TP/SL, корреляцию с открытыми позициями.

Пример (SM_OB_CONT BTCUSDT NY session)

Base confidence (Tier B): 0.58

Full confluence bonus: +0.10 (HTF bias + displacement + liquidity)

Historical modifier: +0.04 (win rate 58%)

Final confidence: 0.72 ≥ 0.70 → SELL

04 · Результат

Phase-3A dry-run · 100 сигналов

NO_TRADE rate

76%

в коридоре 60–75% → ✅ строгий пресечь шум

Guardrails violations

все safety-проверки пройдены, нет нарушений lot-size / SL / корреляции

Стоимость инференса

vs OpenAI/Claude API ~$100/день при сопоставимом объёме

Применимость для клиентов: local-LLM stack идеален для случаев где данные не должны покидать периметр компании: медицина (ФЗ-152 ПД), банкинг, ВПК-аффилированные, корпоративная безопасность, legal-tech. Развёртывание на M2/M3 Mac mini (1000 ₽/мес электричества), Apple Silicon с unified-memory справляется с 14B-моделями в комфортной latency.

«Тот же подход что у себя — переношу к вам.» Custom RAG над вашими документами + multi-model fallback + локальный inference. Никаких внешних API, никакой утечки IP, полный контроль.

Готовы начать?

Аудит за 5 000 ₽ — с конкретным отчётом и сметой

Расскажу что внедрить в вашем бизнесе в первую очередь, какая будет окупаемость, и нужен ли вообще AI для вашей задачи (иногда — нет).

Записаться на аудит Написать в Telegram

Или просто напишите свой вопрос — отвечу в течение 2 часов