Обсуждаем ClickHouse
Привет.
Если нужно выгрузить большую реплицируемую таблицу в Kafka, как можно распараллелить этот процесс по хостам?
Пока мысли такие:
1. запускать на каждом хосте отдельную порцию по ключу сортировки, чтобы порции не пересекались между хостами
2. делить порции на части, чтобы селекты-инсерты не висели часами
3. желательно как то автоматизировать запуск, но шедулера нет и видимо не будет: https://github.com/ClickHouse/ClickHouse/issues/43250
если диск HDD то возможно не хватает диска, там в лог пишется частые мелкие вещи...
виртуалка на HDD там кто еще есть на этом HDD кроме этой виртуалки?
8 ядер,4 гб ram,диск HDD,окружение виртуалка не kubernetes
Читать полностью…вы так и будете отвечать на вопросы выборочно?
Читать полностью…Да вот жешь пытался найти. Видимо плохо искал
Читать полностью…{partition_id}_{min_block_number}_{max_block_number}_{level}
level - сколько раз данные этого парта проходили слияние.
Каждый инсерт порождает один или несколько партов (в зависимости от того, в какое количество partitions попадают его данные), и все эти парты поначалу имеют level 0.
По мере слияний - укрупняются, получают бОльшие значение номера
Потому что таблицы не партиционировали, и все записи будут храниться в партиции под названием all, можете посмотреть в system.parts, емнип.
Читать полностью…у кипера HDD или NVME ? и сколько там ОЗУ ?
Читать полностью…сколько CPU / RAM и диски какие под keeper?
какое окружение kubernetes или что-то другое?
А в чем смысл lag по всему набору строк без указания смещения?
Читать полностью…keeper как отдельный демон или в составе clickhouse-server?
Читать полностью…обычные реквесты
и в метрику и в клик
Читать полностью…
url_params = urlencode(
[
('date1', user_request.start_date_str),
('date2', user_request.end_date_str),
('source', user_request.source),
('fields', ','.join(user_request.fields))
]
)
headers = {'Authorization': 'OAuth ' + user_request.token}
url = '{host}/management/v1/counter/{counter_id}/logrequests/evaluate?'\
.format(host=HOST, counter_id=user_request.counter_id) + url_params
r = requests.get(url, headers=headers)
все отлично работает без пандас
у Метрики был скрипт на обычных реквестах, но потом им стало лень его поддерживать и прикрыли
у меня до сих пор работает
но если хочется пандас, то вот примитивный пример
https://github.com/handgunman/primitive-scripts/blob/main/logs_download_simple.py
ну смотрите утилизацию диска тогда в процентах... не из виртуалки ... а на хосте
Читать полностью…там один HDD или хотя бы Raid массив в страйпе?
другие виртуалки в том числе с clickhouse?
Надо читать лог кипера. Возможно мало. Неделю назад тут писали что 30 пришлось памяти поставить чтобы кипер заработал, но снепшот там был гигабайт
Читать полностью…4гб ОЗУ для кипера это мало?
всего реплик 4
кворум из 3 узлов на каждом по 3гб ОЗУ стоит
Но вообще есть для таких вопросов документация клика со встроенным AI, плюс докладов куча.
Читать полностью…по крайней мере, можно спросить у clickhouse AI
Читать полностью…Коллеги, может где то есть разъяснение почему именно так:
Производим 3 insert в некую таблицу.
Идём в каталог таблице. Мы видим три каталога относящиеся к трём командам insert.
Вопрос вот в чем!!
Вижу папки all_1_1_0,
all_2_2_0, all_3_3_0
Почему именно такие имена.
Первая цифра ладно, допустим номер папки. Что с остальными??
по цпу потребление 20%
ram около 66%
сам клик под 90% cpu уходит
С указанием или без запрос не работал.
С 25.6 работает
Спасибо. А если без pandas, то как лучше попробовать?
Читать полностью…