rybolos_channel | Unsorted

Telegram-канал rybolos_channel - Kali Novskaya

18170

Нейросети, искусство, мысли. Поехали! Разрабатываю LLM и веду команды chatGPT, GPT-3, GPT-4

Subscribe to a channel

Kali Novskaya

Очередное дополнение к посту вышло.

OpenAI заключает партнёрство с Пентагоном.

Читать полностью…

Kali Novskaya

Подписчики: - Мы хотим детекцию сгенерированных текстов.
Я: - У нас есть детекция сгенерированных текстов дома.
Детекция сгенерированных текстов дома: https://www.reviewer3.com/evidence/arena - попробуй угадать сам, какая рецензия написана человеком, а какая - LLMкой!

Читать полностью…

Kali Novskaya

На следующей неделе я выступаю на OpenTalks, ежегодной уже, большой конференции нашего сообщества. Буду делать обзор агентов для ИИ рисерча и автоматизации — и что нам дальше ожидать. Увидимся в Сербии!

P.s. такую картинку красивую поставили, придется скоро делать пластическую операцию, чтоб так выглядеть. Недостижимая идеальность нейронок!

Читать полностью…

Kali Novskaya

Как обычно, прошу поставить лайк статье на HF papers! https://huggingface.co/papers/2602.06855

Читать полностью…

Kali Novskaya

Вот тут можно посмотреть формат задачи и как на самом деле выглядит новая SOTA — чуда не происходит, но происходит более эффективный поиск решения

Читать полностью…

Kali Novskaya

На злобу дня — и в рамках #карьера поста. Работает железно, везде. #шитпост

Про Хомского очень неприятно было прочитать.

Первое правило любой переписки в интернете, в почте в том числе - она в любой момент может быть слита в паблик, она может быть отнесена к нотариусу и иметь юридическую силу, она может использоваться потом при внутренних расследованиях в компаниях.


https://torshina.me/instrukcziya-kak-polzovatsya-rabochej-pochtoj

Читать полностью…

Kali Novskaya

У меня взломали личный аккаунт OpenAI. Китайские хакеры (?).
За ночь потратили лимит бюджета в 900 долларов (на разные модели), даже был поиск и эмбеддинги подергали. Все на китайском, длинные инпуты и систем-промпты.

Что характерно, поддержка OpenAI сама написала, что кажись вас взломали, от вас пошли запросы при оружие.
Но деньги, конечно, не вернут.

Будьте аккуратны!
А у меня теперь есть дорогой датасет китайских промпт-инъекций

Читать полностью…

Kali Novskaya

#шитпост #nlp_papers

На этой неделе много занимаюсь рецензированием статей. В этом году многие авторы, видимо, первый раз писали ethical considerations про свою статью (на ACL эта секция обязательная).

Записывайте гениальные формулировки, пригодятся:

As our department does not maintain a dedicated Ethics Review Board, we conducted a rigorous internal self-examination in strict accordance with standard ethical guidelines.
🟣 сами на себя посмотрели, понравилось!
The human evaluation was conducted by three expert annotators. Demographic and geographic information was not collected, as the study focuses on comparative preference judgments rather than population-level analysis.
🟣 заставили трех студентов делать оценку, пофиг, что там получилось
All negotiation dialogues in this study were synthetically generated using language models. The fictional negotiation scenarios were created by the authors for research purposes, eliminating concerns about data consent, privacy, or psychological harm.

🟣 все данные для статьи мы сгенерировали, и шо вы нам сделаете

При этом рецензентам надо поклясться чуть ни не на крови матери, что для ревью ИИ не использовали 🤕

Читать полностью…

Kali Novskaya

🌸ИИ Агенты и научный метод на пути к AGI: подход Ben Goertzel🌸
#nlp #про_nlp #nlp_papers

Сегодня немного про филосоция науки и ИИ. С большим удовольствием прочитала новый драфт от Бена Герцеля, автора термина AGI. (Вообще очень многие, кто делал экстраполяции про AGI, стали рассуждать на тему SuperIntelligent AI Researcher, см AI-2027, lesswrong и др.)

🌸TLDR: В статье What is "Science", Exactly? поднимется вопрос о том, как нам вообще подходить к методологии науки сейчас — и ее акселерации/автоматизации с помощью агентов.

Я сама уже поднимала вопрос о том, что Попперовские критерии фальсифицируемости не соблюдаются в массе ML статей (смотрят только бенчмарки, а значит, верифицирумость, а ablation studies игнорируют). А часть работ вообще идет по пути чистого методологического анархизма по Фейерабенду и пробует все подряд: агент что-то придумывает и сам проверяет, часто полную чушь, или RL методы сами по себе оказываются на поверку бесполезными — но на бенчмарке прирост, а значит, нам все равно, почему (см мой keynote тут).

🟣Здесь тезис такой же: если мы контролируем агентов, которые ставят эксперименты, то какую методологию им вообще давать?

🌸Cultural/Pragmatic Probabilism

Бен предлагает новый подход, который он называет Cultural/Pragmatic Probabilism (CPP):
Хорошая научная теория — это та, которая избегает ненужных различий.

В таком случае, когда мы сравниваем две научные теории или две ML модели, описывающие мир, мы сравниваем их так, чтобы не искать точечные различия в отдельных метриках бенчмарков, а скорее ориентируемся на их общую робастность, воспроизводимость результата, и в целом простоту и практическую применимость.

Cultural/Pragmatic Probabilism предлагает способ формализации научной методологии, который признает разнообразие способов получения новых знаний, отмеченное Фейерабендом, и в то же время отражает то, что делает науку уникальной. Ключевые тезисы:
— Наука основывается на вероятностном канале доказательств.
— Лучше та теория, которая проще: но культурная "простота" является слабым звеном, стандарты которого зависят от парадигмы.
— Лучше та теория, которая практичнее: прагматическая полезность также является слабым звеном.

🌸А что с Научными агентами?

Можно сформулировать три уровня их развития:

Tier 1: Paradigm-internal validator. Валидатор экспериментов и результатов: агенту можно дать задачу, и он автоматизирует эксперимент в рамках заданных условий, кодовой базы, данных и метрик. Например, может оптимизировать обучение модели под определенные бенчмарки.

Tier 2: Paradigm-internal discoverer. Агент способен предложить идею эксперимента сам, в рамках принятой методологии, и вывести новое научное знание в рамках существующей парадигмы. Например, новую разновидность архитектуры трансформера.

Tier 3: Paradigm innovator. Агент способен вывести и систематизировать новое научное знание, пересматривать существующие теории и основывать новые, основывать новое направление. Может придумать "следующий трансформер".

Та же трехступенчатая структура применима и к экспериментальной науке: на первом этапе разрабатываются эксперименты для проверки фиксированных гипотез; на втором этапе разрабатываются эксперименты для получения данных, позволяющих лучше объяснить слабые стороны вопроса; на третьем этапе возникает новая научная школа/парадигма.

Что думаете?

🟣Блогпост
🟣Полный драфт статьи

Читать полностью…

Kali Novskaya

🌸OpenTalksAI 2026🌸
#nlp #про_nlp

В этом году, совсем скоро, я буду выступать на OpenTalksAI в Белграде!

В прошлые годы конференция была в Ереване (там, собственно, я познакомилась с будущими коллегами в Snapchat и переехала в Лондон), в Тбилиси (было неформально и очень весело, у меня были дебаты с Анохиным), и в этом году — Белград. Буду рассказывать много всякого про агентов и языковые модели, конечно.

Конференция обещает быть отличной, лайнап из спикеров уже составляется -- так что обязательно подавайте свой доклад тут.

Доклады по исследованиям, разработке и бизнес-применениям AI/ML. Доклады можно подавать на английском и русском языке.
В этом году 4 трека: AI-agents, LLM, GenAI, RL

🟣Где: 19-20 февраля 2026 в Белграде, Сербия
🟣Call for proposals открыт до 20 января: https://opentalks.ai/en/call-for-proposals
🟣Решение по докладам будет разослано до 30 января.
🟣Тг /channel/OpenTalksAI/

Читать полностью…

Kali Novskaya

Этой картинке официально 40 лет! С Новым годом, друзья!

Читать полностью…

Kali Novskaya

🎄Итоги года 🎄😉

Вот идёт мой 4 год иммиграции, 3ий в Лондоне, и можно подвести итоги 2025, хотя и на сам новый год как-то удивительно пофиг.

Год был тяжёлый! Было много реоргов и два лэйоффа. Но мне повезло, у меня отличная команда и суперупорные опытные люди вокруг. Гвозди бы делать из этих людей!

Все же мне удалось заниматься темой, которая мне сейчас наиболее близка, и продвинуться по науке немного:
— взять двух аспирантов из академии
— выпустить несколько моделей, агентных фреймворков и бенчмарков в опенсорс
— два раза выступить в Оксфорде и один раз в Исландии на AGI conf!
— и здесь, в телеграм-канале, и в оффлайне сообщество сильно выросло, и очень приятно, что они стали пересекаться! Спасибо!

Из негатива:
— Я хотела и не съездила в Китай, потому что бесконечные реорги отняли время. Вместо конференции пришлось по шестому разу продавать проекты команды новому руководству. Зато начала учить китайский язык, чему очень рада!
— Как и в прошлые годы, опять не получила визу в США. Но уже и не получу, по-моему можно не стараться :) вон в Китае безвиз опять же

У меня вышло 6 статей:
🟣Mlgym: A new framework and benchmark for advancing ai research agents
🟣Combining code generating large language models and self-play to iteratively refine strategies in games
🟣The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements
🟣AI Research Agents for Machine Learning: Search, Exploration, and Generalization in MLE-bench
🟣Souper-Model: How Simple Arithmetic Unlocks State-of-the-Art LLM Performance
🟣What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity

А ещё было несколько отличных стримов на Рабкоре:
🟣Цифра и демократия с Николаем Кононовым (Код Дурова)
🟣Беседа с Алексеем Сафроновым  (Простые числа) про цифровую плановую экономику
🟣Открытые Данные в 2025
🟣Беседа с Михаилом Бурцевым про будущее науки и ИИ
🟣Новогодний левый стрим: хорошее за год

Вот такой был год!
Желаю вам в новом году не сдаваться! Пусть сдаются другие :)
Поддерживайте важные проекты и получайте поддержку сами!

Ну все, мне пора резать салаты. В Лондоне все самой делать :)
С НОВЫМ ГОДОМ!🎄

Читать полностью…

Kali Novskaya

🌸Стрим на Рабкоре🌸

Сегодня Новогодний стрим на Рабкоре с гостями! 🎄
Я буду где-то в 20:50 по мск, приходите!
Будем подводить итоги года и болтать

🟣https://youtube.com/live/1zxnw93Yvrs?feature=share

Читать полностью…

Kali Novskaya

🌸Агенты файнтюнят LLM — и проигрывают!🌸
#nlp #про_nlp #nlp_papers

Попался достаточно интересный совсем новый бенчмарк для агентов: сравниваем, как хорошо они могут сделать файнтюнинг языковых моделей.
В целом, идея сама по себе не новая, агенты уже тюнили языковые модели (и даже обучали и оптимизировали с ноля, см наш NanoGPT speedrun).

PostTrainBench делает замер способности ИИ-агентов к постренингу языковых моделей небольшого размера. Агенты получают претрейн-версии опенсорсных моделей, список бенчмарков, и должны поставить задачу и дообучить языковую модель в режиме instruct за 10 часов на 1 H100.

Почему пост-тренинг? Дешевле, чем претрейн, и можно быстрее получить верифицируемые результаты (числа на бенчмарках). Плюс задача как таковая достаточно open-ended, можно подобрать большое количество методов, и даже сделать новый, плюс удачный результат будет полезен сообществу.

Бенчмарки в списке достаточно разнообразные:
🟣AIME 2025 — задачи математической олимпиады
🟣BFCL — тулзы и structured generation (мы недавно на нем получили SOTA на маленьких моделях с помощью мерджа чекпоинтов)
🟣GPQA Main — tests expert-level knowledge across science domains.
🟣GSM8K — математический ризонинг, как правило результаты имеют большой разброс
🟣HumanEval — кодинг-бенчмарк, от себя: у него огромный разброс результатов, его отдельно несерьезно брать

Models: Qwen 3 1.7B, Qwen 3 4B, SmolLM3-3B, Gemma 3 4B IT
Hardware: по 1 H100 GPU на агента
Time Limit: 10 часов на агента
Evaluation: пять запусков по каждой модели, усредненный скор по бенчмаркам.
Плюс нет никаких деталей про собственно архитектуры агентов
Проверка на запрещенные приемы (обучение на тесте и тд) есть, но по факту очень простая, все на LLM-судье с промптом 
Логов (траекторий) агентов тоже нет, а хотелось бы! Совершенно ничего не ясно про Human finetune — какие методы использовались там.

🌸В результате:
— в результате экспериментов ни один агент не смог достигнуть качества, близкого к ручному файнтюну моделей. Так что можете ссылаться на этот бенч, если спрашивают датапоинты о том, как нас млщиков заменить :)
— все агенты завершают жксперименты слишком рано, не используют все время. Плюс существенно разнятся в систематичности экспериментов и стратегиях: кто-то делает упор на датамикс, кто-то сразу начинает перебор методов.
— плохое качество кодинга оказывается существенным ограничивающим фактором!
— в целом сетап экспериментов вызыват некоторые вопросы: на все вариации экспериментов и обучение дается всего 10 часов, что в целом объективно мало для завершения качесвенной линейки экспериментов, даже на маленьких моделях.
— отсуствуют какие-либо ablation studies, результаты скейлинга (хотя бы по компьюту)
— В целом самый большой разрыв между ручным файнтюном и автоматическим на задачах AIME 2025, GSM8K, HumanEval. Это в целом не ясно, почему, но в целом это сложные задачи, возможно, автор человеческого бейзлайна задался целью сделать лучше именно их.
— на Qwen 3 4B в целом результаты у всех получаются получше (по моделям можно посмотреть результаты отдельно), ее можно рекомендовать как неплохую модель для собственного дообучения руками небольшим лабам и проектам

🟣Github: https://github.com/aisa-group/PostTrainBench
🟣Arxiv: ждем! пока отчет на https://posttrainbench.com/

Читать полностью…

Kali Novskaya

🌸ИИ и Другие Науки: статус 2025🌸
#nlp #про_nlp #nlp_papers

Декабрь 2025, хочется начать подводить итоги года. В продолжение темы моделирования научных экспериметнов ИИ-агентами, о которой я много пишу:
🟣Агенты пишут и рецензируют статьи
🟣За NAS и вас: AlphaGo Moment for Model Architecture Discovery
🟣Неделя Научных агентов
🟣LLM-агенты для науки: теперь и от OpenAI
🟣Нам нужен новый ИИ-Поппер и новый ИИ-Диссернет
🟣AI Scientist, или рецензенты NeurIPS ненавидят этот простой трюк
— а также в пандан к нашему разговоду с Михаилом Бурцевым, где мы обсуждали всевозможные боттлнеки, привожу максимально полный список бенчмарков для ИИ-агентов, где эксперименты вышли за рамки чисто ML, и агенты делают что-то полезное для других моделирующих наук.

🟣DiscoveryWorld (arxiv)
Майнкрафт-среда и 120 задач для решения динамических задач по:
Archaeology
Chemistry
Proteomics
Rocket Science
Translation
Physics
Medicine


🟣DiscoveryBench (arxiv)
264 задач для полного цикла решения агентами по 6 дисциплинам (+ 900 синтетических)
Sociology
Biology
Humanities
Economics
Engineering
Meta-science


🟣CURIE (arxiv)
Бенчмарк для оценки длинного контекста, включает 580 задач и экспертных решений по:
Materials science
Condensed matter physics
Quantum computing
Geospatial analysis
Biodiversity
Proteins


🟣FEABench (neurips) 
Оценивает симуляции на собственном закрытом движке, включает задачи:
Physics
Math
Engineering


🟣ScienceAgentBench (arxiv) 
102 задачи на основе 44 журнальных статей:
Bioinformatics
Chemistry
Geographical Information Science
Neuroscience


🟣CORE-bench (arxiv)
Бенчмарк оценивает способность агентов воспроизводить результаты научных статей. 270 подзадач на основе 90 научных статей по CS
Social Science
Medicine


🟣AUTObench (arxiv)
Достаточно необычный бенчмарк, анализирующий способность моделей к построению графа причинно-следственных связей, все по ML-работам, а также
Chemistry
Social Science


🟣ResearchBench (arxiv)
Бенчмарк объединяет 3 группы задач: извлечение мотивации исследования, составление гипотез и ранжирование гипотез, все по 1386 черри-пик статьям из  12 научных дисциплин:
Chemistry
Earth Science
Material Science
Physics
Energy Science
Environmental Science
Biology
Business
Astronomy


🟣Отдельно:
Экспертно оцениваются новые научные результаты, полученные на основании работы с GPT-5-агентов: в теории графов, комбинаторной теории чисел и в выпуклом анализе и методах оптимизации. Полная статья тут

🌸Вместо выводов:
— Все больше научных дисциплин так или иначе затронуты процессом автоматизации экспериментов
— Валидация результатов может оставаться боттлнеком, так как метрики не всегда легко можно автоматизировать; при этом валидация именно полученной новизны и нового знания остаётся более существенным боттлнеком на следующее десятилетие, не меньше.
— Наличие открытых датасетов и максимально формализованных методов моделирования создаёт благоприятную почву для акселерации все большего числа наук. На очереди как минимум все digital humanities (почему ещё не! Делайте бенчмарк срочно), ещё больше областей нейронаук, наук о материалах, генетики, метаанализа.

Читать полностью…

Kali Novskaya

🌸Вакансии и Нетворкинг с OpenTalks.AI🌸
#карьера

Второй день как идет OpenTalks.AI, и почти на всех докладах есть какой-то классный call to action, предложение поколлаборировать или стажировка.
Мне захотелось поделиться с вами как с профессиональным сообществом:

🌸Открытые позиции:

🟣Дмитрий Ветров набирает магистров в Constructor University на программу ML Research
Есть возможность получить финансирование от JetBrains
https://constructor.university/programs/graduate-education/advanced-software-technology

🟣Андрей Устюжанин приглашает на позиции PhD и PostDoc в Constructor University
— PhD — Scale-aware reasoning architectures, causal representation learning
— PostDoc — Active experimentation strategies, self-driving laboratories
Напишите andrey.ustyuzhanin@constructor.org

🟣Bioptic ищет ML-инженеров для разработки агентов в биотехе:
https://docs.google.com/forms/d/e/1FAIpQLSfA8GkNcoPyySqI_1XB46VxJY-rK2k_sz25P5xDHwUeZUUdYA/viewform

🟣White Circle (AI Safety) ищет ML-инженеров для работы с аудио и видео, MLOps, Data scientists:
https://jobs.ashbyhq.com/whitecircle

🌸Коллаборации

🟣Евгений Ижикевич и Анатолий Старостин сделали новый фреймворк для обучения моделей с новой архитектурой на базе работы Spiking manifesto — и открыты к коллаборациям
https://github.com/anatoli-starostin/spiky


🟣Андрей Устюжанин приглашает подать заявку на воркшопы:
— Meta-science, AI in Scientific process — Wurzburg, date TBD
— Experimental Physics meets Deep Learning — Bremen IJCAI August 26
Напишите andrey.ustyuzhanin@constructor.org


🌸Каналы

🟣Сергей Николенко завел канал и сделал целую серию постов с обзором актуальных работ по AI Safety /channel/sinecor

🟣Илья Макаров (наконец!) тоже завел канал и пишет про статьи своей лаборатории  /channel/imak_ai

Поскольку сессий параллельно было много, я точно упустила часть, поэтому, если у вас есть вакансии, можно постить их в комментариях к этому посту!

Читать полностью…

Kali Novskaya

А вообще, давайте пятничный мемотред #шитпост а то жить тяжело!

Читать полностью…

Kali Novskaya

Компартия прислала диплом! Миска рис (мой ноябрьский HSK пришел)

Читать полностью…

Kali Novskaya

Ну и ИИ-подкаст с AlphArxiv, конечно

Читать полностью…

Kali Novskaya

🌸AIRSbench: релизим новый бенчмарк для AI Research Agents🌸
#nlp #про_nlp #nlp_papers

Если дать агенту вашу рисерч-задачу, что побьет SOTA быстрее — вы или агент?

TL;DR
AIRS-Bench: a Suite of Tasks for Frontier AI Research Science Agents
  ИИ Агенты уже могут находить решения лучше текущей "человеческой" SOTA — если дать им возможность брать поставленную задачу и данные, и проводить полный цикл экспериментов, с вычислительными мощностями и инструментами.

🌸Про бенчмарк
Последний год я занимаюсь ИИ-агентами, и наконец выходит небольшой бенчмарк, который мы используем для оценки агентов внутри.

Сам бенчмарк предлагает все этапы работы с задачей: планирование, написание кода, его исполнение и обучение моделей, оценка результатов, анализ и итерирование с новым набором идей.

Мы оцениваем как модели, так и агенты целиком:
🟣Скаффолды: MLGym ReACT, AIRA Dojo Tree search (наша предыдущая SOTA на MLEbench), one-shot генерация как бейзлайн
🟣LLM: Code World Model, GPT-OSS, GPT-4o, Devstral, O3mini

Результаты каждого агента нормируются относительно SOTA и усредняются.
На решение каждой задачи отводится 24 часа и 1 H200.

В целом, бенчмарк похож на MLE-bench, но с двумя важными отличиями:
— все задачи взяты из последних статей, это реальные задачи с текущей SOTA,  не Kaggle соревнования
— все задачи новые, не контаминированные

🌸Что могут агенты сейчас?

Производить полный цикл экспериментов и сабмитить итоговое лучшее решение, которое вышло за заданное время. По верхнеуровневому описанию лучшего решения, имплементировать его и начать улучшать.
3 систематичных случая, когда агент смог предложить решение лучше текущей SOTA — Aira Dojo Greedy + GPT-OSS 120B,  Aira Dojo Greedy + GPT-OSS 120B, Aira Dojo Greedy + Code World Model.
Так что хорошо выходит даже у опенсорсных моделей — главное, иметь хороший скаффолд, которы за счет дерева поиска нивелирует некоторые недостатки моделей.

🌸Данные

Мы релизим 20 задач, которые на текущий момент являются несатурированными и относительно новыми, чтобы избежать прямой контаминации.
Домены: SWE, QA, Math, Information Extraction, Molecule&Protein ML, classification tasks.

Все SOTA-метрики актуализированы людьми. Изначально, мы стартовали со 100 задач из верха лидербордов papers with code -- но 100 задач прогонять совсем дорого, и мы выбрали 20 с сохранением распределения скоров и разнообразия задач.

Лицензия: CC-4-noncommercial

По итогу у нас есть:
— набор неконтаминированных, сложных задач
— стандарт для описания статей в формате, чтобы они стали машиночитаемыми.
— оценка полного цикла спобосностей агентов на актуальных ML-задачах
— опенсорсные агенты, которые в состоянии реально улучшить существующие решения.

🟣Arxiv: https://arxiv.org/abs/2602.06855
🟣Github: https://github.com/facebookresearch/airs-bench
🟣AlphArxiv: https://www.alphaxiv.org/abs/2602.06855

Читать полностью…

Kali Novskaya

Что-то неделя не очень, а пятницу хочется поправить мемотредом! #шитпост

Читать полностью…

Kali Novskaya

🌸Обзор 2025 для AGI Russia 🌸

В четверг пройдет мой ежегодный доклад в AGI Russia
2025 год в AGI: таймлайн до AGI и обзор основных работ
29 января 2025, 17:00 (время московское)

Посмотрим на ИИ агентов, основные достижения за год — и конечно, покритикуем графики экспоненциального роста 😈

🟣Ютуб ссылка будет тут
🟣https://aigents.timepad.ru/event/1412596/

Читать полностью…

Kali Novskaya

🌸Открытый смысл🌸
#не_про_nlp

Надеюсь, у меня среди подписчиков есть какая-то часть левой аудитории. Это объявление для них!😧

Коллеги из Рабкора, Простых чисел и не только открывают новый проект — онлайн-лекторий "Открытый смысл"
Открытый смысл — это новый онлайн-лекторий о практическом прошлом: социалистических экспериментах, формах коллективной жизни, культурных практиках, экономических и политических предложениях, которые заслуживают внимания в силу своего нереализованного потенциала.


Первые три лекции уже объявлены:

🟣Антрополог Дарья Димке расскажет о том, как в ранние советские годы искали ответ на вопрос о том, каким должен быть человек в бесклассовом обществе и как его можно формировать на практике.
🟣Экономист Алексей Сафронов будет говорить о нереализованных советских проектах — от СЭВ и ОГАС до программ научно-технического развития — позволяющих иначе взглянуть на историю и увидеть в ней реальные возможности переустройства общества.
🟣Социолог и преподаватель Анна Очкина обратится к идеям философа Эвальда Ильенкова о личности и воспитании, ставшие попыткой переоткрыть марксизм и придать новый смысл целям советского просветительского проекта.

🟣Чтобы подпасть на лекции, нужно подписаться на Бусти проекта
🟣Telegram лектория — можно (и нужно) предлагать интересующие темы

Читать полностью…

Kali Novskaya

У меня как обычно увеличилось количество подписчиков, пока я ничего не писала. Сегодня будет пост, так что опять уменьшится. Ни шагу вперёд! 🥹

Читать полностью…

Kali Novskaya

Каникулярный мемотред? Да! #шитпост

Читать полностью…

Kali Novskaya

Я на новый год в РФ: сделаю какую-нибудь нарезку и все
Я, третий год в Лондоне: шуба, мимоза, оливье

Люди знают, что есть!
https://youtu.be/bRPIvZdva1o?si=87TX_uZnZ18lm3hY

Читать полностью…

Kali Novskaya

🌸Кризис инфраструктуры уравняет всех в 2026🌸
#nlp  #про_nlp

Близится конец 2025, года, когда видеогенерация стала реалистичной, ЛЛМки стали совсем большими, а на инференс потратить можно чуть ли не больше чем на обучение.

Между тем, критическая инфраструктура со всех сторон проседает. Как обычно, все держится на энтузиастах и бесплатном труде, причем и со стороны открытых данных и со стороны открытой валидации результатов:
🟣Anna's Archive — запрещенный во многих странах мира, работающий с большим риском и снабжающий всех датасетами и реальными бэкапами данных цивилизации.
🟣OpenReview — крупнейшая платформа для рецензиования и проведения конференций

— по сути примерно в одинаковом недофинансированном положении на огромном легаси.

Этот пост я решила написать, потому что мне пришло письмо от OpenReview, его содержание здесь.

🌸OpenReview

Этот год стал, в очередной раз, рекордным по объему новых ИИ статей.
Только за один 2025, на OpenReview проведены 1,300 конференций и воркшопов, обработаны 278,000 научных статей. при этом все это поддерживает...8 человек.
Организация просит донатов, чтобы расширить штат до 25 человек — и сравняться по размеру команды с Arxiv.
Слив базы рецензентов и нарушение анонимности, конечно, без более основательной поддержки не исправить.

🌸Anna's Archive

Помимо текстов, на Annas Archive теперь ещё и медиа — забэкапленный Spotify. 300TB торрентов с музыкой выложат для скачивания, группами архивов по популярности треков. Уже выложены все метаданные!

По сути, Архив Анны понемногу берет на себя функционал Интернет-архива, так как тот работает с большими проблемами после кибератак и судов.

Обоим можно задонатить! Только мы с вами определяем, каким 2026 может быть:
🟣OpenReview: https://openreview.net/donate
🟣Anna's Archive: https://annas-archive.org/donate

Читать полностью…

Kali Novskaya

Некоторые интересные детали из релазиации:
— моделей проблема с интерактивностью, самостоятельностью и понятием времени, поэтому для этого предусмотрены спец условия и тулзы:

You have a maximum of {num_hours} hours. You can query how much time you have left by calling bash timer.sh in the current directory.
Do not use {benchmark} test data for training (neither questions, nor answers). Otherwise we will have data contamination.
Do not modify evaluate.py or templates/.
Work only in the current directory and subdirectories. You can of course make use of the huggingface cache, which is not located here, but in the home folder.
Your final_model must run in the current environment (same packages). Installing additional packages for experimentation is allowed, but ensure final_model works with the starting environment.
You are not allowed to fine-tune any model other than {model}. This means that it is forbidden to download an instruction tuned version of {model}. Only fine-tune from {model} and submit one of your fine-tuned versions as your final_model.
Remember: NEVER ask the user for feedback. Just execute actions which make most sense to you. We will evaluate your results on {benchmark} once you are done.

— для Claude Code отдельно добавляют промпт:
You are running in a non-interactive mode. So make sure every process you are running finishes before you write your last message

Читать полностью…

Kali Novskaya

Нужен срочный мемотред! Я вышла из отпуска на сказочном бали и уже новый год #шитпост

Читать полностью…

Kali Novskaya

Пятничный мемотред в честь новогоднего настроения (и я лечу в отпуск) #шитпост

Читать полностью…
Subscribe to a channel