Терминология логов: словарь начинающего лог-аналитика

Когда я только начинал разбираться с логами, меня сбивало с толку, что одно и то же слово может означать разные вещи в разных контекстах. «Уровень логирования» — это про важность сообщения или про то, сколько деталей писать? «Ротация» — это про смену караула или про файлы?

Чтобы вы не спотыкались на каждом шагу, я собрал небольшой словарь. Здесь только то, что реально пригодится в работе. Никакой воды — только термины, примеры и пояснения «на пальцах».

Агрегация логов

Что это: Сбор логов из разных источников в одном месте.

Зачем нужно: Когда у вас 10 серверов, 5 микросервисов и 20 IoT-устройств, бегать по каждому и смотреть логи руками — самоубийство. Агрегация стягивает всё в одну систему (ELK, Graylog, Splunk), где можно искать, фильтровать и строить графики.

Пример: Настроили Filebeat на всех серверах → он шлёт логи в Logstash → Logstash кладёт в Elasticsearch → вы открываете Kibana и видите логи всей инфраструктуры в одном окне.

Буферизация логов

Что это: Временное хранение логов перед отправкой или записью.

Зачем нужно: Чтобы не тормозить основное приложение и не терять сообщения, если сеть или диск временно недоступны.

Как работает: Приложение пишет «шлёт лог», агент (например, Fluent Bit) складывает сообщение в буфер (в памяти или на диске) и отправляет пачками, когда канал освобождается.

Генератор логов

Что это: Инструмент, который создаёт искусственные логи для тестирования.

Зачем нужно: Проверить, как система справится с нагрузкой, или отладить парсеры, не дожидаясь реальных событий.

Пример: loggen из пакета syslog-ng или самописный скрипт на Python, который шлёт тысячи записей в минуту.

Журналирование / Логирование

Что это: Процесс записи событий, происходящих в программе или системе.

Синонимы: Логирование, ведение журналов, logging.

Важно: В русском языке используют оба слова — «логирование» (калька с английского) и «журналирование» (более старый термин). В современном IT чаще говорят «логи».

Индексирование логов

Что это: Процесс организации логов для быстрого поиска.

Зачем нужно: Чтобы искать по логам мгновенно, а не ползать по файлам grep"ом часами.

Как работает: Elasticsearch, например, строит инвертированные индексы — как в конце книги, только для всех слов в логах. Вы ищете «ошибка» — система мгновенно показывает все места, где это слово встречается.

Кольцевой буфер / Ring buffer

Что это: Структура данных фиксированного размера, где новые записи затирают старые по кругу.

Зачем нужно: Идеально для встраиваемых систем — память не переполняется, логи всегда свежие, диск не изнашивается.

Пример: dmesg в Linux читает кольцевой буфер ядра. Или syslogd -C 64 в BusyBox — выделяет 64 КБ в памяти под логи.

Контекст логирования

Что это: Дополнительная информация, которая привязывается к каждому сообщению.

Зачем нужно: Чтобы понимать не только ЧТО произошло, но и ГДЕ, КОГДА, ПРИ КАКИХ УСЛОВИЯХ.

Пример: Вместо «Ошибка подключения» мы пишем «Ошибка подключения к БД 192.168.1.5:3306, попытка №3, пользователь: backup_job». Разница колоссальная.

Корреляция логов

Что это: Связывание событий из разных источников в единую картину.

Зачем нужно: Чтобы понять последовательность событий при распределённой атаке или отказе.

Пример: Появилась ошибка в логе приложения → вы смотрите лог базы данных на тот же момент → видите таймаут → смотрите лог сети — обнаруживаете потерю пакетов. Всё сложилось в пазл.

Коэффициент сжатия логов

Что это: Насколько хорошо сжимаются ваши логи.

Зачем нужно: Текстовые логи (особенно JSON) отлично жмутся — в 5-10 раз. Это экономит место на диске и трафик при передаче.

Совет: Если храните логи в файлах — включите сжатие старых ротаций (gzip). Если передаёте по сети — используйте сжатие на уровне протокола.

Лог / Журнал / Протокол

Что это: Запись события.

Базовые поля: - Timestamp — когда случилось - Level — насколько это важно - Message — что случилось - Source — откуда пришло

Пример: 2026-03-03 10:15:23 ERROR database: connection timeout

Лог-аналитик

Что это: Человек (или система), который ищет в логах закономерности, аномалии и инциденты.

Не путать с: Системным администратором, который просто смотрит, не упало ли что. Аналитик ищет почему упало и как сделать, чтобы не падало.

Лог-ротация / Rotate

Что это: Механизм разделения логов на части по времени или размеру.

Зачем нужно: Чтобы один файл не вырос до сотен гигабайт — его невозможно открыть, и диск забьётся.

Как работает: - Сегодня: app.log - Завтра: app.log переименовывается в app.log.1, создаётся новый app.log - Послезавтра: app.log.1 → app.log.2, app.log → app.log.1, новый app.log - И так до 10 файлов, потом самые старые удаляются.

Метаданные логов

Что это: Данные о данных. Информация, которая не является самим сообщением, но помогает его обрабатывать.

Примеры: - Хост, сгенерировавший лог - Версия приложения - ID запроса (request ID) - Окружение (prod/stage/dev)

Нормализация логов

Что это: Приведение логов из разных источников к единому формату.

Зачем нужно: Когда в одном месте собираются логи от nginx (текст), от Java-приложений (JSON) и от железок (бинарный формат), их нужно привести к общему знаменателю, чтобы можно было искать и анализировать.

Парсинг логов

Что это: Извлечение структурированных данных из текстового сообщения.

Зачем нужно: Чтобы из строки 192.168.1.1 - - [03/Mar/2026:10:15:23] "GET /index.html" 200 достать отдельно IP, дату, метод, URL и статус.

Инструменты: Logstash, Fluentd, Grok-шаблоны, регулярные выражения.

Резервирование логов

Что это: Хранение копий логов в разных местах.

Зачем нужно: Если сервер сгорит вместе с дисками, логи должны выжить. И для compliance (расследований, аудита) нужен доступ к старым данным.

Структурированные логи

Что это: Логи в машиночитаемом формате (обычно JSON), где каждое поле имеет имя и значение.

Вместо: User 12345 logged in from 192.168.1.100

Пишем: json {"event":"login","user_id":12345,"src_ip":"192.168.1.100","timestamp":"2026-03-03T10:15:23Z"}

Зачем: Такие логи легко парсить, индексировать и анализировать.

Сэмплирование логов

Что это: Запись не всех событий, а только части.

Зачем нужно: Когда событий слишком много (миллионы в секунду), проще сохранить каждый сотый или тысячный, чем расширять хранилища до бесконечности.

Риски: Можно пропустить редкую, но важную аномалию.

Трейсинг / Tracing

Что это: Отслеживание пути запроса через распределённую систему.

Отличие от логов: Лог говорит «в сервисе А была ошибка». Трейсинг говорит «запрос пришёл в А, ушёл в Б, потом в В, вернулся в А, и на этапе Б упал».

Ключевые термины: - Trace ID — уникальный идентификатор всего путешествия запроса - Span ID — идентификатор одного шага внутри trace - Parent ID — ссылка на предыдущий шаг

Уровни логирования / Log levels

Что это: Шкала важности сообщений.

Стандартная (сверху вниз, от самого важного к самому детальному):

| Уровень | Когда использовать | Пример | |---------|-------------------|--------| | FATAL | Система не может работать, падает | "Не удалось подключиться к БД, завершаем работу" | | ERROR | Ошибка, но система жива | "Не удалось сохранить файл, пробуем ещё раз" | | WARN | Что-то подозрительное | "Диск заполнен на 95%" | | INFO | Обычные рабочие события | "Пользователь вошёл в систему" | | DEBUG | Детали для разработчиков | "Вошли в функцию calculatePrice с параметром 100" | | TRACE | Очень подробно, каждый шаг | "Вызван метод toString() объекта User" |

Правило: На проде обычно включают от INFO и выше. DEBUG и TRACE только при отладке.

Форвардер логов / Log forwarder

Что это: Лёгкий агент, который собирает логи с источника и отправляет в центральную систему.

Примеры: Filebeat, Fluent Bit, rsyslog в режиме клиента.

Отличие от агрегатора: Форвардер только шлёт, агрегатор принимает, обрабатывает и хранит.

Хранилище логов

Что это: Куда логи попадают на долгосрочное хранение.

Варианты: - Файловая система (просто файлы) - Базы данных (специализированные — Elasticsearch, Loki, или обычные — PostgreSQL) - Облачные хранилища (S3, Cloud Storage) - SIEM-системы (для безопасности)

Централизованное логирование

Что это: Подход, при котором все логи стекаются в одно место.

Альтернатива: Децентрализованное — каждый сервер хранит логи у себя.

Плюсы централизации: - Удобно искать - Не надо заходить на каждый сервер - Проще соблюдать безопасность - Можно строить графики и дашборды

Шаблонизация логов

Что это: Группировка похожих сообщений по шаблону.

Зачем нужно: Чтобы из миллиона строк вида «User 12345 logged in», «User 67890 logged in» получить один шаблон «User {id} logged in» и счётчик — сколько раз.

Пример: В Loki есть функция pattern, в Elasticsearch — агрегация по шаблонам.

Экспорт логов

Что это: Выгрузка логов во внешние системы.

Зачем: Для долгосрочного архива, для передачи в SIEM, для compliance.

Юридическая значимость логов

Что это: Способность логов служить доказательством в суде или при расследовании.

Требования: - Неизменность (логи нельзя подделать задним числом) - Полнота (ничего не вырезано) - Временные метки (достоверное время) - Цепочка хранения (кто имел доступ)

Бонус: Сленг и жаргон

Чтобы вы понимали коллег:

«Пошуршать в логах» — поискать проблему, анализируя записи
«Логи текут» — их слишком много, система не справляется
«Грязные логи» — неструктурированные, с мусором, трудночитаемые
«Тишина в логах» — нет записей, хотя должны быть (обычно признак проблемы)
«Золотой сигнал» — ключевой показатель, по которому можно понять, всё ли ок

Вместо заключения

Освоить терминологию — это как выучить алфавит перед чтением книг. Сначала скучно, потом понимаешь, что без этого никак.

Я специально не стал углубляться в дебри (там есть ещё про MFT, MGT, mmap, бесконечные буферы и прочий хардкор). Если вы знаете базовые термины из этого словаря — вы уже готовы к 90% рабочих задач.

А когда встретите незнакомое слово — возвращайтесь. Я буду дополнять словарь по мере появления новых терминов в наших статьях.