980
На пальцах, местами с матом, местами с претензией на юмор, но познавательно.
Tencent тизерит новый алгоритм – World Model, но где можно взаимодействовать с генеративной вселенной, обещают запуск завтра
Это не видео, это настоящая 3D-сцена, полностью сгенерированная и редактируемая. На входе – одно изображение, на выходе – целый 3D-мирЧитать полностью…
Кому интересно посмотреть Live stream\апдейты Артемиды 2:
https://plus.nasa.gov/scheduled-video/nasas-artemis-ii-crew-flies-around-the-moon-official-broadcast/#fullscreen-player
https://www.youtube.com/watch?v=z-j1uxBmis0
https://www.nasa.gov/mission/artemis-ii/#multimedia
@toshoseti
Announcing 1-bit Bonsai: The First Commercially Viable 1-bit LLMs
[Блог][Гитхаб с демо][Коллекция]
Стартап PrismML анонсировал Bonsai - семейство 1-битных LLM, которые можно запустить на любом чайнике.
Квантизуется все - эмбеддинги, внимание, MLP и lm голова.
По бенчам выдает что-то на уровне Ministral/Olmo 3 7b, при этом будучи заметно меньше по размеру чекпоинта. Дабы продемонстрировать свою мегаэффективность, вводят понятие intelligence density - минус log(ошибка на наборе бенчей) / размер модели в Gb. По этому показателю заметно обходят всех (бейзлайны тоже можно было бы квантизовать).
Это дело можно запустить на iPhone 17, в то время как в half precision 8B модель просто не поместится, и генерить со скоростью 40 токенов в секунду.
Кроме того, оно якобы работает быстрее на RTX 4090 (через llama.cpp) и M4Pro. Энергоэффективность на один токен улучается в 4-5 раз.
Также выпускают 1.7B и 4B версии моделек.
Рецепт обучения, приведший к столь восхитительным результатам, остается за кадром.
И чтоб два раза не вставать, @borisbatkin подсказал актуальное уже сейчас: wipecoding
Читать полностью…
Встречайте мой новый пост "Реставрация ruGPT-3 XL или как я вернул к жизни забытую русскую языковую модель" на Хабр, в нём я подробно рассказал о том как была реализована конвертация, как проводилось её тестирование, как запустить локально, как конвертировать в GGUF.
А вот ссылочки:
- evilfreelancer/ruGPT3XL - сконвертированная модель в формате HuggingFace (safetensors)
- evilfreelancer/ruGPT3XL-GGUF - квантизированные GGUF-веса для llama.cpp и Ollama
- evilfreelancer/rugpt3 - GGUF загруженные на Ollama
- EvilFreelancer/rugpt3xl-convert - исходники скриптов конвертации
Ребята из Skygen AI сегодня выкатили новую версию платформы. По сути это Computer Use AI, где можно в один клик поднять виртуалку, там же сразу зарегаться в нужных сервисах и дальше юзать хоть на винде, хоть на маке. А можно и локально на своей машине погонять.
Тестить на https://skygen.ai
Ссылка на пост в X
@toshoseti
Это что, Лекун щас сделал еще один GMVAE? )) Или я чего то не понимаю?
Читать полностью…
https://futuresearch.ai/blog/litellm-pypi-supply-chain-attack/
Читать полностью…
А есть тут работодатели\рефы? Помогите человеку. Рынок сейчас ужасный. Все там можем быть. Если это важно - я с человеком не знаком.
Читать полностью…
Лезгинский переводчик 2.0: Когда 1000 человек меняют будущее языка
Хочу поделиться прогрессом по волонтерскому проекту над которым работает наша команда
В этом релизе:
1) заметно улучшилось качество
2) Интегрировали модель озвучки текста (коллаборация с publicdictionary.org, 30 часов студийной записи). Теперь переводы можно не только читать, но и слушать. Просто нажмите на кнопку в поле с переводом!
Команда leks-forever провела эксперимент - разметили синтетический корпус на 200к предложений на лезгинском через Gemini 3 Pro
Обучили на нем новую версию переводчика - по оценке носителей качество выросло кратно относительно прошлой версии. Особенно на последовательностях среднего размера.
Главное:
За проектом стоят 1000 волонтеров, которые собрали почти 40к вручную размеченных предложений провалидированных экспертами. Сейчас в пост-обработке.
Переводчик масштабируется с данными. Когда добавим 40к + другие корпуса и удвоим (или кратно увеличим) датасет - качество сделает еще один скачок.
Дальше:
Это бета. Веса не финальные, есть проблемы с короткими словосочетаниями, но кажется мы нашли механику которая позволит нам легко масштабировать набор данных.
Мне нравится этот проект тем что даже язык с маленькой аудиторией может получить современные ИИ-инструменты благодаря людям, которым не все равно. Мы вывели язык категории крайне уязвимых а это уже значительный прогресс!
Спасибо каждому, кто размечал, записывал, тестировал. Вы делаете историю.
📱 Переводчик в тг
🤗 Попробовать на huggingface (с озвучкой текста)
📚 Датасет
📱 Группа нашего коммьюнити
Наша команда выкладывает все в опенсорс и открыта к коллаборциям, пишите!
Книжки в бандле, хорошие и недорого:
https://www.humblebundle.com/books/llm-and-agentic-ai-career-accelerator-bundle-packt-books
@toshoseti
🤗Не могу не хвалить команду hf за постоянно появляющиеся интересные блогпосты для образования. В этот раз ресерч по синтетическим данным для претрена.
Не просто в виде «вот вам датсасет, мы там записали тех детали. Отстаньте». Это большой очередной playbook в который можно потыкаться на досуге
На повестке новый блогпост с 1 триллионом сгенерированных токенов и главным вопросом, на который пытаются ответить что вообще делает датасет синтетических данных хорошим?🤔
Интересные находки:
💛формат промпта важнее модели, которая генерирует (1B достаточно для простых промптов, 4B для сложных, а дальше платишь в 10x GPU времени и получаешь хуже)
💛разнообразие форматов дает эффект лучше, чем один с много токенов на него (FAQ + Math + Table + Tutorial)
💛нужно переформатировать документ, а не генерить синту с нуля
💛датасет не синт данных, который мы подмешиваем в обучение важнее, чем источник данных для синты на рефрейз
💛edu-score бесполезен как прокси для синтетики. Хуже того лучшие промпты активно снижают edu-score потому что классификатор не ожидает таких форматов.
💛исправлять грамматические ошибки промптов не обязательно
💛Пайплайн на datatrove + vLLM с чекпоинтингом держит GPU постоянно загруженными, даже если задачи прерываются на shared кластере
Playbook
Red eyes is all you need, или пихаем LLM в FPGA
Вдохновился недавней новостью, о том, что LLM зашили в железо, и решил попробовать повторить в меньших масштабах, написав проект на verilog, где ~854K модель зашивается в Artix-7 (XC7A200T). Задачей было уложиться в бюджет 365 BRAM блоков (потому что я слишком нищий для более серьезной борды), поэтому была выбрана архитектура с 128 embedding dim, 8 attn heads, 4 слоя, и размером контекста 256. Оно упирается как раз впритык - веса заняли 209 блоков, KV-кэш - ещё 128.
Из интересного - веса/активации находятся сразу в BRAM в int8, разбиваясь на отдельные файлы через extract_weights.py (LayerNorm’ы пихаются в один файл, так как они мелкие и тратить по блоку на каждый из них - слишком дорого). Попутно генерируется weight_scales.vh, чтобы в рантайме адекватно перевести все это в fp16 для активаций.
Для Softmax и sqrt(1/x) использовал статью, которую вкратце описал выше [тык]
GELU был реализован по этой статье [ссылка]: erf аппроксимируется кусочно-линейной функцией, используя нечётную симметрию erf(-x) = -erf(x), что вдвое сокращает область аппроксимации. Breakpoints ищутся через EPSS (Error Peak Search Strategy) - это итеративный алгоритм: на каждом шаге находит локальные максимумы ошибки аппроксимации внутри каждого сегмента через argrelextrema и вставляет туда новые breakpoints. В результате breakpoints концентрируются там где erf кривее (около нуля) и разреживаются на плоском хвосте.
На данном этапе проект доведен до полной RTL-симуляции: есть тесты сравнения идеальных операций в ideal_ops.py, RTL операций на питоне rtl_ops.py (pure-python fp16-примитивы, которые воспроизводят поведение RTL бит-в-бит, включая rounding и flush-to-zero) и сравнение полученных результатов из xsim. В принципе transformer_top.v выдает что-то похожее на когерентный текст в симуляциях, и осталось только дописать поддержку temperature, top-k и т.п., а также интерфейсы для самой железки. В дальнейшем, наверное, напишу еще один пост про результаты и оптимизации (потенциально можно улучшить скорость инференса, если распараллелить операции с плавающей точкой)
Поковырять исходники можно здесь [тык]
Обратную сторону Луны, конечно, не покажут, там нет связи. Работает только MAX
Читать полностью…
📌Нейроанатомия LLM: улучшаем модель без дообучения.
Дэвид Ноэль, независимый исследователь из Мюнхена, в середине 2024 года занял 1 место на HuggingFace Open LLM Leaderboard методом, который не требует ни новых данных, ни файнтюна.
Он взял 80-слойную Qwen2-72B, продублировал блок из 7 средних слоёв (45–51) и получил модель RYS-XLarge, где каждый добавленный параметр - копия уже существующего. На 5 из 6 бенчмарков лидерборда результаты выросли: MuSR прибавил 17,7%, MATH - 8,2%.
Позже ByteDance предложила Looped Language Models (ноябрь 2025), но Дэвид пришёл к своим выводам независимо на основе 2 наблюдений:
LLM способны вести связный диалог в Base64 - модель декодирует вход, рассуждает и перекодирует ответ обратно. Если это работает, то получается, что ранние слои транслируют входные данные в абстрактное внутреннее представление, поздние переводят его обратно в текст, а средние занимаются рассуждением в формате, не привязанном к конкретному языку.
Модель Goliath-120B, где слои двух разных 70B-моделей были перемешаны так, что выход поздних слоёв подавался на вход ранних. По всем канонам обучения это не должно было работать, но работало.
Эксперимент с косинусным сходством скрытых состояний для текстовых запросов на 8 языках впервые показал трёхфазную архитектуру напрямую: к 10 слою фразы с одинаковым смыслом на разных языках оказывались ближе друг к другу, чем на одном языке с разным смыслом.
🔭 Arena Physica выпустила Atlas RF Studio — foundation model для электромагнетизма
Проектирование RF-схем (антенны, радары, 5G, чипы) сегодня мучительно медленное: один прогон коммерческого симулятора занимает минуты или часы, а экспертов в этой области катастрофически мало. Arena Physica выпустила пару моделей.
Две модели в основе платформы:
Heaviside-0 (forward) — предсказывает S-параметры по геометрии схемы за 13 мс вместо ~4 минут у традиционного солвера. Ускорение до 800 000x.
Marconi-0 (inverse) — получает целевые S-параметры и генерирует физическую геометрию, которая им соответствует. Работает как диффузионная модель для схем.
Обе модели обучены на 3 млн симуляций дизайнов (~20 лет суммарного машинного времени) + реальные измерения в лаборатории.
Для сравнения протестировали Claude Opus 4.6 и GPT-5.4 — frontier LLM-модели проиграли по всем метрикам, причём в режиме extended thinking оказались даже медленнее традиционного солвера (какой сюрприз, да)
Marconi-0 иногда генерирует чумачечие структуры, т.е. геометрии, которые ни один инженер до сих пор не публиковал, но которые реально работают.
Попробовать: studio.arenaphysica.com
Спасибо @eiko0x за наводку
@toshoseti
Возможное слово из словаря будущего: роботорговец.
Читать полностью…
Ян Лекун резко шагнул вперед в изобретении универсальной архитектуры для world models
Очень многие точно слышали про JEPA. Расшифровывается JEPA как Joint Embedding Predictive Architecture – Self-Supervised архитектура, предназначенная для понимания внешнего физического мира.
Идея там красивая: вместо предсказания следующего токена или генерации пикселей JEPA пытается предсказывать смысл наблюдаемого фрагмента на основе контекста (по факту это предсказание эмбеддингов).
Лекун считает, что это идеалогическая альтернатива привычному ИИ, потому что предсказание пикселей или токенов – это лишь имитация понимания структуры мира, а тут модель действительно учится понимать физику и логические связи.
Все это здорово, но основная проблема в том, что JEPA очень плохо обучается: лосс почти всегда схлопывается в тривиальное решение и реальной world model не получается.
Но кажется, теперь это препятствие разрушено. Лекун с соавторами выпустили статью, в которой представлена первая end-to-end JEPA, которая обучается из сырых изображений без эвристик, сложных лоссов и прочих танцев с бубном.
Модель красиво называется LeWorldModel (LeWM), и в ней всего 15М параметров. От коллапсов при обучении она защищается очень простым способом: кроме лосса на предсказание следующего latent-state, добавляется регуляризатор, который заставляет латенты быть похожими на изотропное гауссово распределение. Это и есть главный технический ход статьи.
На практике это значит, что рецепт, который раньше был капризным и дорогим в настройке, упростился настолько, что world models наконец-то можно скейлить во что-то рабочее.
Эксперименты, кстати, показывают, что LeWM действительно учит не ерунду, а нечто похожее на физическую структуру мира. Так что идея, кажется, работает.
www.alphaxiv.org/abs/2603.19312v1
Впервые делаю такой пост, но в хх я разочаровался тотально (и не только в хх). В течении 3х месяцев искал работу на позицию ML (безуспешно, не могу пройти алгособес... А Даже бывало что оверскилл) и на позицию Системный администратор (тоже безуспешно, просто отказы без причины)
Ищу работу на позицию Системного администратора (ML собесы не вывожу, проверено). Если можете, сделайте пожалуйста реф)) Буду благодарен
О себе:
5+ лет опыта в системном администрировании в крупных компаниях.
Умею:
Поддержка 5000+ пользователей
Миграция инфраструктуры (Windows → Linux, Росбанк → Т-Банк)
Виртуализация: VMware ESXi, Nvidia vGPU, Proxmox
Мониторинг: Grafana, Zabbix
Программирование: Python, C++, Golang, TS, PowerShell, Bash
L3 поддержка: разбор инцидентов на уровне кода и архитектуры
Бонусом - неплохой опыт в ML/DL (fine-tuning LLM, RAG, агенты), что помогает в задачах на стыке IT и разработки. Есть публикации на Конференциях A*. Делал SOTA модель в Vikhrmodels (Vistral-24B)
Рассматриваю не только РФ. Смотрю в сторону Германии, Нидерландов, Польши)))
P.S. Если сделаете репост, буду тоже благодарен 👏
Еще буквально пару лет назад, мы смеялись под серию картинок под музыку, сделанных в MidJourney. А теперь вот полноценная короткометражка. Представьте Netflix, где on-demand не только просмотр, но и создание фильма...
@toshoseti
Любопытная антипрослушка.
https://www.deveillance.com/
Spectre I is a portable audio security device that creates a 2m protection zone around you. It sends out signals that are inaudible to you but can be detected by a microphone. Through customization of the signals to match the human voice, your conversations are "overlayed" when a microphone receives them. It uses local processing to prevent nearby smartphones, smart speakers, and other devices from picking up your voice. Everything happens locally on the device — nothing is sent to the cloud.
Спасибо @eiko0x за наводку.
TADA (Text Audio Dual Alignment) is a speech-language model that generates text and audio in one synchronized stream to reduce token-level hallucinations and improve latency.
This means:
→ Zero content hallucinations across 1,000+ test samples
→ 5x faster than similar-grade LLM-based TTS
→ Fits much longer audio: 2,048 tokens cover ~700 seconds with TADA vs. ~70 seconds in conventional systems
→ Free transcript alongside audio with no added latency
HF: https://huggingface.co/collections/HumeAI/tada
Blog: https://www.hume.ai/blog/opensource-tada
X: https://x.com/i/status/2031401003078062578
@toshoseti
И снова криповая история про симуляцию, фанаты аниме Пантеон оценят:
Челы загрузили мозг мухи-дрозофилы - нейрон за нейроном - и запустили его в симуляции физического тела (это не нейросеть имитирующая биологию мухи, тут нет весов или тренировки, это именно копия реальных нейронов мухи)
Ее мозг это ~125 000 нейронов и ~50 миллионов синапсов
Сигналы виртуального мира входят в копию, активность бежит по всей системе мухи и вирутальное тело двигается ☕️
Дальше такое же хотят сделать с мышами
Тут больше деталей:
https://eon.systems
Матрицу для мух мы сделали, поздравляю – хоть для кого-то
https://ryanpo.com/multigen/
Спасибо @calcium_ion
ваааа какая крутота, я все собирался, а чувак сделал. Мое почтение. Спизжено у @lovedeathtransformers
Читать полностью…