Telegram-канал ai_machinelearning_big_data - Machinelearning: Технологии

Machinelearning

02 августа 2024 12:49

🌟 rLLM: библиотека PyTorch для взаимодействия LLM с реляционными таблицами.

rLLM (relationLLM) - библиотека PyTorch, разработанная для удовлетворения растущей потребность в эффективных и экономичных методах применения LLM к огромным объемам структурированных данных, хранящихся в реляционных базах данных.

rLLM достигает этой цели путем декомпозиции современных графовых нейронных сетей (GNN), LLM и табличных нейронных сетей (TNN) на стандартизированные модули. Такой подход позволяет быстро создавать новые RTL-модели путем объединения, выравнивания и совместного обучения этих модулей.
Парадигма "combine, align, co-train" позволяет гибко конструировать модели, адаптируясь к уникальным характеристикам различных наборов данных реляционных таблиц.

Библиотека включает в себя несколько слоев:
🟠Data Engine, для загрузки и предварительной обработки данных;
🟠Module, предлагающий стандартизированные строительные блоки из GNN, LLM и TNN;
🟠Model, облегчающий построение сложных RTL-архитектур.

Чтобы продемонстрировать возможности rLLM, авторы представляют BRIDGE, простой RTL-метод, который использует TNN для обработки табличных данных и GNN для анализа отношений между таблицами на основе внешних ключей. BRIDGE сочетает сильные стороны обоих типов сетей для обучения на основе информации, содержащейся в реляционных базах данных.

▶️Рекомендации по LLM и LM:

🟠LLM - квантованная 4-bit Gemma 2b;
🟠LM - облегченная BERT-подобная all-MiniLM-L6-v2 для sentence embedding.

Для исследовательских и обучающих целей rLLM предлагает коллекцию данных под названием SJTUTables, которая состоит из трех наборов данных реляционных таблиц:

🟠Table-MovieLens1M (TML1M);
🟠Table-LastFm2K (TLF2K);
🟠Table-ACM12K (TACM12K).

🟡Arxiv
🖥Github [ Stars: 242 | Issues: 1 | Forks: 24]

@ai_machinelearning_big_data

#AI #ML #RTL #rLLM