Терминология логов: словарь начинающего лог-аналитика
Когда я только начинал разбираться с логами, меня сбивало с толку, что одно и то же слово может означать разные вещи в разных контекстах. «Уровень логирования» — это про важность сообщения или про то, сколько деталей писать? «Ротация» — это про смену караула или про файлы?
Чтобы вы не спотыкались на каждом шагу, я собрал небольшой словарь. Здесь только то, что реально пригодится в работе. Никакой воды — только термины, примеры и пояснения «на пальцах».
Агрегация логов
Что это: Сбор логов из разных источников в одном месте.
Зачем нужно: Когда у вас 10 серверов, 5 микросервисов и 20 IoT-устройств, бегать по каждому и смотреть логи руками — самоубийство. Агрегация стягивает всё в одну систему (ELK, Graylog, Splunk), где можно искать, фильтровать и строить графики.
Пример: Настроили Filebeat на всех серверах → он шлёт логи в Logstash → Logstash кладёт в Elasticsearch → вы открываете Kibana и видите логи всей инфраструктуры в одном окне.
Буферизация логов
Что это: Временное хранение логов перед отправкой или записью.
Зачем нужно: Чтобы не тормозить основное приложение и не терять сообщения, если сеть или диск временно недоступны.
Как работает: Приложение пишет «шлёт лог», агент (например, Fluent Bit) складывает сообщение в буфер (в памяти или на диске) и отправляет пачками, когда канал освобождается.
Генератор логов
Что это: Инструмент, который создаёт искусственные логи для тестирования.
Зачем нужно: Проверить, как система справится с нагрузкой, или отладить парсеры, не дожидаясь реальных событий.
Пример: loggen из пакета syslog-ng или самописный скрипт на Python, который шлёт тысячи записей в минуту.
Журналирование / Логирование
Что это: Процесс записи событий, происходящих в программе или системе.
Синонимы: Логирование, ведение журналов, logging.
Важно: В русском языке используют оба слова — «логирование» (калька с английского) и «журналирование» (более старый термин). В современном IT чаще говорят «логи».
Индексирование логов
Что это: Процесс организации логов для быстрого поиска.
Зачем нужно: Чтобы искать по логам мгновенно, а не ползать по файлам grep"ом часами.
Как работает: Elasticsearch, например, строит инвертированные индексы — как в конце книги, только для всех слов в логах. Вы ищете «ошибка» — система мгновенно показывает все места, где это слово встречается.
Кольцевой буфер / Ring buffer
Что это: Структура данных фиксированного размера, где новые записи затирают старые по кругу.
Зачем нужно: Идеально для встраиваемых систем — память не переполняется, логи всегда свежие, диск не изнашивается.
Пример: dmesg в Linux читает кольцевой буфер ядра. Или syslogd -C 64 в BusyBox — выделяет 64 КБ в памяти под логи.
Контекст логирования
Что это: Дополнительная информация, которая привязывается к каждому сообщению.
Зачем нужно: Чтобы понимать не только ЧТО произошло, но и ГДЕ, КОГДА, ПРИ КАКИХ УСЛОВИЯХ.
Пример: Вместо «Ошибка подключения» мы пишем «Ошибка подключения к БД 192.168.1.5:3306, попытка №3, пользователь: backup_job». Разница колоссальная.
Корреляция логов
Что это: Связывание событий из разных источников в единую картину.
Зачем нужно: Чтобы понять последовательность событий при распределённой атаке или отказе.
Пример: Появилась ошибка в логе приложения → вы смотрите лог базы данных на тот же момент → видите таймаут → смотрите лог сети — обнаруживаете потерю пакетов. Всё сложилось в пазл.
Коэффициент сжатия логов
Что это: Насколько хорошо сжимаются ваши логи.
Зачем нужно: Текстовые логи (особенно JSON) отлично жмутся — в 5-10 раз. Это экономит место на диске и трафик при передаче.
Совет: Если храните логи в файлах — включите сжатие старых ротаций (gzip). Если передаёте по сети — используйте сжатие на уровне протокола.
Лог / Журнал / Протокол
Что это: Запись события.
Базовые поля: - Timestamp — когда случилось - Level — насколько это важно - Message — что случилось - Source — откуда пришло
Пример:
2026-03-03 10:15:23 ERROR database: connection timeout
Лог-аналитик
Что это: Человек (или система), который ищет в логах закономерности, аномалии и инциденты.
Не путать с: Системным администратором, который просто смотрит, не упало ли что. Аналитик ищет почему упало и как сделать, чтобы не падало.
Лог-ротация / Rotate
Что это: Механизм разделения логов на части по времени или размеру.
Зачем нужно: Чтобы один файл не вырос до сотен гигабайт — его невозможно открыть, и диск забьётся.
Как работает:
- Сегодня: app.log
- Завтра: app.log переименовывается в app.log.1, создаётся новый app.log
- Послезавтра: app.log.1 → app.log.2, app.log → app.log.1, новый app.log
- И так до 10 файлов, потом самые старые удаляются.
Метаданные логов
Что это: Данные о данных. Информация, которая не является самим сообщением, но помогает его обрабатывать.
Примеры: - Хост, сгенерировавший лог - Версия приложения - ID запроса (request ID) - Окружение (prod/stage/dev)
Нормализация логов
Что это: Приведение логов из разных источников к единому формату.
Зачем нужно: Когда в одном месте собираются логи от nginx (текст), от Java-приложений (JSON) и от железок (бинарный формат), их нужно привести к общему знаменателю, чтобы можно было искать и анализировать.
Парсинг логов
Что это: Извлечение структурированных данных из текстового сообщения.
Зачем нужно: Чтобы из строки 192.168.1.1 - - [03/Mar/2026:10:15:23] "GET /index.html" 200 достать отдельно IP, дату, метод, URL и статус.
Инструменты: Logstash, Fluentd, Grok-шаблоны, регулярные выражения.
Резервирование логов
Что это: Хранение копий логов в разных местах.
Зачем нужно: Если сервер сгорит вместе с дисками, логи должны выжить. И для compliance (расследований, аудита) нужен доступ к старым данным.
Структурированные логи
Что это: Логи в машиночитаемом формате (обычно JSON), где каждое поле имеет имя и значение.
Вместо:
User 12345 logged in from 192.168.1.100
Пишем:
json
{"event":"login","user_id":12345,"src_ip":"192.168.1.100","timestamp":"2026-03-03T10:15:23Z"}
Зачем: Такие логи легко парсить, индексировать и анализировать.
Сэмплирование логов
Что это: Запись не всех событий, а только части.
Зачем нужно: Когда событий слишком много (миллионы в секунду), проще сохранить каждый сотый или тысячный, чем расширять хранилища до бесконечности.
Риски: Можно пропустить редкую, но важную аномалию.
Трейсинг / Tracing
Что это: Отслеживание пути запроса через распределённую систему.
Отличие от логов: Лог говорит «в сервисе А была ошибка». Трейсинг говорит «запрос пришёл в А, ушёл в Б, потом в В, вернулся в А, и на этапе Б упал».
Ключевые термины: - Trace ID — уникальный идентификатор всего путешествия запроса - Span ID — идентификатор одного шага внутри trace - Parent ID — ссылка на предыдущий шаг
Уровни логирования / Log levels
Что это: Шкала важности сообщений.
Стандартная (сверху вниз, от самого важного к самому детальному):
| Уровень | Когда использовать | Пример | |---------|-------------------|--------| | FATAL | Система не может работать, падает | "Не удалось подключиться к БД, завершаем работу" | | ERROR | Ошибка, но система жива | "Не удалось сохранить файл, пробуем ещё раз" | | WARN | Что-то подозрительное | "Диск заполнен на 95%" | | INFO | Обычные рабочие события | "Пользователь вошёл в систему" | | DEBUG | Детали для разработчиков | "Вошли в функцию calculatePrice с параметром 100" | | TRACE | Очень подробно, каждый шаг | "Вызван метод toString() объекта User" |
Правило: На проде обычно включают от INFO и выше. DEBUG и TRACE только при отладке.
Форвардер логов / Log forwarder
Что это: Лёгкий агент, который собирает логи с источника и отправляет в центральную систему.
Примеры: Filebeat, Fluent Bit, rsyslog в режиме клиента.
Отличие от агрегатора: Форвардер только шлёт, агрегатор принимает, обрабатывает и хранит.
Хранилище логов
Что это: Куда логи попадают на долгосрочное хранение.
Варианты: - Файловая система (просто файлы) - Базы данных (специализированные — Elasticsearch, Loki, или обычные — PostgreSQL) - Облачные хранилища (S3, Cloud Storage) - SIEM-системы (для безопасности)
Централизованное логирование
Что это: Подход, при котором все логи стекаются в одно место.
Альтернатива: Децентрализованное — каждый сервер хранит логи у себя.
Плюсы централизации: - Удобно искать - Не надо заходить на каждый сервер - Проще соблюдать безопасность - Можно строить графики и дашборды
Шаблонизация логов
Что это: Группировка похожих сообщений по шаблону.
Зачем нужно: Чтобы из миллиона строк вида «User 12345 logged in», «User 67890 logged in» получить один шаблон «User {id} logged in» и счётчик — сколько раз.
Пример: В Loki есть функция pattern, в Elasticsearch — агрегация по шаблонам.
Экспорт логов
Что это: Выгрузка логов во внешние системы.
Зачем: Для долгосрочного архива, для передачи в SIEM, для compliance.
Юридическая значимость логов
Что это: Способность логов служить доказательством в суде или при расследовании.
Требования: - Неизменность (логи нельзя подделать задним числом) - Полнота (ничего не вырезано) - Временные метки (достоверное время) - Цепочка хранения (кто имел доступ)
Бонус: Сленг и жаргон
Чтобы вы понимали коллег:
- «Пошуршать в логах» — поискать проблему, анализируя записи
- «Логи текут» — их слишком много, система не справляется
- «Грязные логи» — неструктурированные, с мусором, трудночитаемые
- «Тишина в логах» — нет записей, хотя должны быть (обычно признак проблемы)
- «Золотой сигнал» — ключевой показатель, по которому можно понять, всё ли ок
Вместо заключения
Освоить терминологию — это как выучить алфавит перед чтением книг. Сначала скучно, потом понимаешь, что без этого никак.
Я специально не стал углубляться в дебри (там есть ещё про MFT, MGT, mmap, бесконечные буферы и прочий хардкор). Если вы знаете базовые термины из этого словаря — вы уже готовы к 90% рабочих задач.
А когда встретите незнакомое слово — возвращайтесь. Я буду дополнять словарь по мере появления новых терминов в наших статьях.