Обсуждаем ClickHouse
Мой ответ про постгрес вообщето, clickhouse не транзакционная система.
На мой взгляд json в БД имеет смысл в следующих случаях:
1. На вход и/или выход идут json и мы вход и выход хотим протоколировать
2. Сложные настройки
3. Мы эмулируем non sql key value бд
как по мне проблема с json это постоянная необходимость вместо group by X
писать group by j.t.X.:Int64
чтобы написать банальный sum/groupby надо мозгами шевелить
и?
все равно если хотите чтобы работало быстро - парсите в отдельные поля
Так вроде буквально месяц назад в клик завезли продовый json?)
Читать полностью…Или как лучше из s3 в клик примерно 300гб перегнать без спарка
Читать полностью…обычно тормозит у тех, кто ничего не делает с тем чтобы он не тормозил )
Читать полностью…Только записывать/извлекать данные, редактирования практически не будет. Со скоростью извлечения у Cassandra не все хорошо, насколько знаю, только запись быстрая
Читать полностью…Если есть навыки для проектирования на клике и есть кому админить то почему нет, если еи того ни другого то это может вылиться в сплошное проблемы и оттягивание запуска сервиса и вероятно стоит просто взять что знаете и потом уже когд пользователей станет хотя бы тыща уже думать
Читать полностью…Если однородный json, то лучше его распарсить и хранить по человечески - строки, числа, даты в своих столбцах
Читать полностью…Насколько правильно будет использовать ClickHouse?
Читать полностью…Возможно лучше xxx.:String
т.е. выбирать колонку xxx строковую
а не кастить
Всем привет. В локальном CH пользуюсь JSON dynamic типом, всё ок работает
В yandex cloud с версией CH 25.3.4.190 получаю ошибку
error querying the database: clickhouse: unsupported column type "Dynamic"
Уже попробовал вот эти сеттинги:
settings enable_analyzer=1, enable_dynamic_type=1, enable_json_type=1;
Не помогло. Как исправить?
Если это таблица, читающая из кафки, то маловероятно (вряд ли вы с разными consumer group одни и те же данные на разных инстансах вычитываете), но:
ловил такое для таблиц, которые преобразуют данные запросами, которые могут давать разные значения на разных машинах (например, используют словари: обновление словарей происходит не одновременно).
А как по другому? Просто отдельно на каждой ноде запускать бекап?
Читать полностью…в моем конкртном случае бэкап состоит из нескольких лейеров 1) базовая конфигурация базы после установки, все ее настройки, политики и т.д. - а затем все это валим в снэпшот (воостанавливается за пару секунд.) 2) Сами данные бэкапятся на другой физически хост в датацентре из-под проксмокса в купе с HA, так что как только один физ хост с виртуалкой падает - вторая тут же в строю 3) последний уровень бэкапа, у нас порядка 10 таблиц во всей базе, мы тупо делаем дженкинс таск кажду ночь где все таблицы (а они ж тупо плоские) валятся в csv и на отдельный рейд. Так что в случае страшного краша -все восстанавливается за смешное время а потеря данных.....ну в худшем случае 12 -18 часов. У нас же не банк и не фин тех, а роботика и сенсоры, так что не страшно, все восстановимо :)
Читать полностью…Не, тут я согласен, я в целом противник json в базе ибо имею детскую травму по этому поводу
Читать полностью…с другой стороны, если нужно только читать и писать json файлы, то зачем их сначала раскладывать в колонки, чтобы потом эти колонки опять собирать в один документ, тем более в колоночной базе )
Читать полностью…И json в таблички превратить. Нефиг в БД json хранить, приучайтесь к хорошему
Читать полностью…Ребят, привет, слушайте, столкнулись с проблемой, льем короч из s3 через insert from s3Cluster() и все это через airflow. Короч скрипт работает от 5 до 15 минут и собственно никаких ошибок не выдает, но данные грузятся не полностью, кто-нибудь с таким сталкивался?
Читать полностью…Благодарю за ответ!) Просто хотелось узнать best-practices, ну и пощупать технологии)
Читать полностью…Postresql вроде как при большом количестве данных тормозит. В моем случае подойдёт, конечно же, т.к. пользователей много не будет, но хотелось бы пощупать то что используют в больших компаниях)
Читать полностью…И главный вопрос при выборе БД - а что потом делать с этим json? Если постоянно править, то это не Clickhouse, если группировка с агрегацией - то возможно, что и он.
Читать полностью…Здравствуйте. Занимаюсь фронтендом, немного осваиваю бек. Подскажите, пожалуйста, новичку: рассматриваю БД для приложения учёта дохода/расхода финансов. Планируется много однородных JSON-данных формата:
{
id: 001,
category_id: 002,
title: ""
...
~ 10-12 строк
}
Поля будут не более 20 символов.
Но вот вопрос: при 1млн пользователей и у каждого 30тыс записей - выходит 30млрд json-объектов. Эти цифры для примера) И все же интересно какую БД выбрать для хранения этих транзакций. Начитался что для этого подходит Cassandra, ScullaDb и ClickHouse. Так же читал, что некоторые мессенджеры используют эти БД для метрик и истории сообщений
А, ой, это ошибка графановского датасорса, извините
Исправляется добавлением ::String к строчкам, которые вывожу в интерфейс на панель
вью-источник с одним только словарём работает, который меняется примерно раз в месяц. а ошибки сыплются постоянно
Читать полностью…Да и судя по графане нагрузка постоянная, нет простоя
Читать полностью…там есть какое-то странное место в конце, долго удаляет из зукипера промежуточную мета-информацию процесса-бекапа, ну т.е. бекап 8 часов, из них 4 ничего не делаем.
Читать полностью…хз че на это сказать, поживем - увидим :) если расскажете как правильно делать бэкап клику - буду рад
Читать полностью…