5 метрик мониторинга, которые решают 80% проблем

01:30 | Мониторинг и диагностика IT-систем: что это такое и зачем нужен системный мониторинг.
06:25 | Что нужно мониторить в продакшене: ключевые метрики и показатели мониторинга для вашей системы.
10:00 | Логирование и трассировка запросов: что это, зачем нужны, как работают и как связаны с системным мониторингом.
11:45 | Конкретные нефункциональные требования к мониторингу: какие цифры по времени отклика писать в спецификации системы.
14:06 | Как мониторить мобильные приложения.
16:21 | Нефункциональные требования к нагрузке: какие значения % CPU и ресурсов указывать в требованиях.
20:10 | Инструменты мониторинга и observability: что выбрать, когда и зачем. Стандарт OpenTelemetry и пример схемы архитектуры.
27:35 | Реальные кейсы, где мониторинг помогает проектам. Мониторинг кэширования.
33:04 | Кто на проекте настраивает мониторинг системы и что для этого нужно.
35:41 | Источники требований к мониторингу: от кого они приходят, в каком виде и как собирать требования к метрикам.
37:53 | Кто и как следит за показателями мониторинга на проекте: процессы, роли и работа с инцидентами.
44:37 | Дашборды мониторинга: как понять, что нужен новый дашборд.
46:27 | Итоги эпизода: рекомендации командам по внедрению мониторинга на разных стадиях проекта и практика «учебных тревог» в IT-проектах.

Prometheus — база временных рядов для метрик.
Метрики, пришедшие в Collector, сохраняются в Prometheus и затем визуализируются в Grafana на дашбордах мониторинга.
Zipkin / Jaeger — системы распределённых трейсов.
Collector отправляет туда трейсы запросов, что позволяет анализировать цепочки вызовов между сервисами и время отклика на каждом шаге.
Observability ElasticSearch + APM Server — хранилище логов, трейсов и метрик производительности.
APM Server принимает данные производительности от приложений и передаёт их в ElasticSearch, а Kibana используется для построения дашбордов по логам, трейсам и APM-метрикам.

Prometheus и VictoriaMetrics — базы временных рядов для метрик, которые далее визуализируются в Grafana;
Jaeger и Zipkin — системы распределённых трейсингов для анализа цепочек вызовов между сервисами;
Loki и Observability ElasticSearch — хранилища логов и трейсов;
APM Server + Kibana — мониторинг производительности (APM-метрики, трассировки, корреляция с логами) и построение дашбордов.

Эпизод 35.
5 метрик мониторинга, которые решают 80% проблем

Инструменты мониторинга и логирования

Схемы C4 - мониторинг и observability одного микросервиса

Минимальный набор инструментов мониторинга и логирования для микросервиса

Расширенный набор инструментов мониторинга и логирования для микросервиса

Полезные ссылки

Ещё эпизоды, которые могут вас заинтересовать

Бесплатное обучение

Эпизод 35.5 метрик мониторинга, которые решают 80% проблем