Обсуждаем ClickHouse
Работает оно так себе
И замедляет инсерт в основную таблицу из котрой ппередиыается в Кафка Энжин
https://clickhouse.com/docs/integrations/kafka/kafka-table-engine#1-inserting-rows-directly
это не сказки, я пробовал инсерт в kafka-таблицу, продюсер все отправляет в топик
киперу/зукиперу нужны десятки тысяч IOPS, т.е. не раид нужен, а SSD, лучше NMVE
Читать полностью…для настоящего прода с миллиардами записей в день, множеством таблиц, партиций, шардов, на отдельных машинах, с кучей памяти и nvme дисками
Читать полностью…кх не умеет продюсить в кафку, выгружайте в csv
Читать полностью…ну смотрите утилизацию диска тогда в процентах... не из виртуалки ... а на хосте
Читать полностью…там один HDD или хотя бы Raid массив в страйпе?
другие виртуалки в том числе с clickhouse?
Надо читать лог кипера. Возможно мало. Неделю назад тут писали что 30 пришлось памяти поставить чтобы кипер заработал, но снепшот там был гигабайт
Читать полностью…4гб ОЗУ для кипера это мало?
всего реплик 4
кворум из 3 узлов на каждом по 3гб ОЗУ стоит
Но вообще есть для таких вопросов документация клика со встроенным AI, плюс докладов куча.
Читать полностью…по крайней мере, можно спросить у clickhouse AI
Читать полностью…Коллеги, может где то есть разъяснение почему именно так:
Производим 3 insert в некую таблицу.
Идём в каталог таблице. Мы видим три каталога относящиеся к трём командам insert.
Вопрос вот в чем!!
Вижу папки all_1_1_0,
all_2_2_0, all_3_3_0
Почему именно такие имена.
Первая цифра ладно, допустим номер папки. Что с остальными??
по цпу потребление 20%
ram около 66%
сам клик под 90% cpu уходит
Если у нас дисковый массив, где операционная система живёт, именно такой, то норм?
Читать полностью…[ для настоящего прода с миллиардами записей в день ]
Если операционная система на отдельном дисковом массиве (допустим, зеркало) от дискового массива с данными (RAID10), то нормально ли кипер устанавливать туда?
(Вроде у них с кликхаусом за низколатентный доступ к дискам конкуренция была).
(Памятью кипера обеспечить через недопущение клику всё захватывать - не вопрос, это всё равно надо делать, чтобы OOM предотвращать)
Всем привет, а поделитесь опытом. Где лучше киперы располагать. На тех же машинах, где сам клик, либо в кубере, либо на отдельных машинах?
Читать полностью…Привет.
Если нужно выгрузить большую реплицируемую таблицу в Kafka, как можно распараллелить этот процесс по хостам?
Пока мысли такие:
1. запускать на каждом хосте отдельную порцию по ключу сортировки, чтобы порции не пересекались между хостами
2. делить порции на части, чтобы селекты-инсерты не висели часами
3. желательно как то автоматизировать запуск, но шедулера нет и видимо не будет: https://github.com/ClickHouse/ClickHouse/issues/43250
если диск HDD то возможно не хватает диска, там в лог пишется частые мелкие вещи...
виртуалка на HDD там кто еще есть на этом HDD кроме этой виртуалки?
8 ядер,4 гб ram,диск HDD,окружение виртуалка не kubernetes
Читать полностью…вы так и будете отвечать на вопросы выборочно?
Читать полностью…Да вот жешь пытался найти. Видимо плохо искал
Читать полностью…{partition_id}_{min_block_number}_{max_block_number}_{level}
level - сколько раз данные этого парта проходили слияние.
Каждый инсерт порождает один или несколько партов (в зависимости от того, в какое количество partitions попадают его данные), и все эти парты поначалу имеют level 0.
По мере слияний - укрупняются, получают бОльшие значение номера
Потому что таблицы не партиционировали, и все записи будут храниться в партиции под названием all, можете посмотреть в system.parts, емнип.
Читать полностью…у кипера HDD или NVME ? и сколько там ОЗУ ?
Читать полностью…сколько CPU / RAM и диски какие под keeper?
какое окружение kubernetes или что-то другое?