Telegram-канал data_secrets - Data Secrets: Unsorted - каталог телеграмм

data_secrets | Unsorted

Subscribe to a channel

Telegram-канал data_secrets - Data Secrets

76843

Первый журнал о Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks По вопросам сотрудничества: @v2r8n

Subscribe to a channel

Data Secrets

11 November 2025 16:02

⚡️ Ян Лекун планирует уходить из Meta и открывать собственный стартап

Об этом пишет Financial Times. По их словам, ученый уже находится на ранней стадии переговоров с инвесторами для своей новой компании.

Заниматься будет, угадайте чем? Конечно же, всевозможными world models, о которых он уже кучу лет рассказывает буквально в каждом своем интервью и выступлении.

Видимо, Лекуна все-таки не устроила новая корпоративная структура, в которой он должен подчиняться молодому зеленому Александру Вану. Хотя сам ученый пока не комментирует ситуацию.

Читать полностью…

Data Secrets

10 November 2025 18:33

PostgreSQL опубликовали топ-50 главных контрибьюторов проекта: в список вошел Андрей Бородин, руководитель разработки СУБД с открытым исходным кодом в Yandex Cloud

На данный момент PostgreSQL является самой популярной опенсорсной СУБД в мире. Особенно в сегменте ИИ- и ML-проектов: векторный поиск помогает моделям быстрее находить и анализировать нужную информацию. Например, PostgreSQL применяют при создании ChatGPT.

Получить статус контрибьютора в проекте очень нелегко: нужно не просто коммитить, но и проходить долгое строгое ревью. Процент коммитов, которые в конечном счете одобряют, довольно мал, – доработка должна быть действительно существенной.

Андрей стабильно контрибьютит с 2016, четвертый раз входит в топ-50 контрибьюторов года и теперь имеет статус major contributors. Их в проекте всего 52, этот статус выше, чем significant contributor, и означает, что разработчик "оказывает существенное влияние на кодовую базу и процессы".

Интересно, что вклад команды Бородина не ограничивается только ядром PostgreSQL. Недавно они разработали SPQR (Stateless Postgres Query Router), систему с открытым исходным кодом для горизонтального масштабирования PostgreSQL через шардирование. Она уже доступна сообществу: если любите Postgres, потрогать проект можно здесь.

Отдаем дань уважения 👒

Читать полностью…

Data Secrets

10 November 2025 15:05

А вот так выглядит первая тестовая производственная линия Теслы для Optimus

В 2026 должна появится еще одна, уже более крупная. Это пока пилот.

Компания пишет, что их цель – это достичь себестоимости в 20к долларов на робота, и тестируют они их прямо тут же, на заводе и в лабораториях (что может пойти не так?)

Читать полностью…

Data Secrets

10 November 2025 10:44

Понедельник, настроение:

P.S. Сожалеем о его потерях

Читать полностью…

Data Secrets

08 November 2025 16:40

Google предложили новую ML-парадигму Nested Learning, с помощью которой модели смогут учиться непрерывно

Google все не оставляют попыток повторить свой успех 2017 года и снова изобрести в ИИ что-то новенькое и прорывное. Может, когда-нибудь одна из вот таких интересных работ и стрельнет.

В этот раз они предлагают переосмыслить нейросеть как таковую и начать рассматривать модель не просто как одну крупную оптимизационную задачу, а как набор вложенных (nested) оптимизационных задач, каждая из которых имеет свой контекстный поток и своё время обновления.

В первую очередь это попытка решить проблему катастрофического забывания. Память современных моделей, мягко говоря, сильно ограничена, и после предобучения или файнтюнинга их уже не так-то просто научить чему-то еще: при обучении на новых данных старые навыки начинают деградировать. Это гигантский глобальный недостаток, учитывая, что мы тут все вообще-то ждем AGI, который сможет непрерывно учиться и самосовершенствоваться.

А вот как работает Nested Learning:

1. Авторы формализуют модель как множество оптимизационных задач: у каждой есть свой поток информации, на которой она учится, и своя частота обновления. Например, компоненты с высокой частотой обновления отвечают за адаптацию к текущему контексту, с низкой частотой – за какие-то базовые знания, и тд.

2. Но просто так, по щучьему веленью, модель не поймет, что и когда обновлять. Поэтому авторы предлагают сделать обучаемым сам оптимизатор. То есть алгоритм, который отвечает за обновление весов, перестает быть просто формулой и превращается в такую же нейросеть. Это называется Deep Optimizers.

3. Формально оптимизатор рассматривается как ассоциативная память, которая учится связывать градиенты с правильными изменениями весов. В этом смысле привычные SGD или Adam – это простейшие частные случаи (об этом, если интересно, подробнее читайте в самой статье).

Звучит немного замысловато, но об этом можно думать вот как: в последнее время очень модно делить память моделей на кратковременную и долгосрочную, а NL просто обобщает эту идеи и предлагает концепцию спектра памяти с множеством таких модулей.

И на практике это реализуется аналогично. В частности, Google просто взяли свою старую архитектуру TITAN (мы о ней вот тут писали), в которой как раз были модули долгой и короткой памяти, и расширили ее на неограниченное число уровней in-context обучения. Получившаяся HOPE в каком-то смысле стала первой в своем роде само-модифицирующейся моделью.

И, что самое интересное: эксперименты показали, что HOPE, по сравнению с базовыми трансформерами, имеет более низкую перплексию и более высокую точность в задачах common-sense reasoning и long-context memory.

Статья | Блогпост

Читать полностью…

Data Secrets

07 November 2025 07:48

Интересный инцидент произошел в ходе записи нового интервью Альтмана

Активист из организации Stop AI (и их юрист по совместительству) внезапно выбежал на сцену, чтобы вызвать Сэма в суд.

Дело в том, что OpenAI подала иск на эту организацию за то, что они неоднократно совершали «насильственные действия» типа блокирования входной двери OpenAI и перекрытия дороги перед их офисом.

Сами активисты говорят, что это было «попыткой помешать OpenAI уничтожить всех и каждого живого существа на Земле».

Короче, теперь Альтман должен будет лично явиться на это судебное разбирательство. Запасаемся попкорном 🍿

Читать полностью…

Data Secrets

06 November 2025 16:02

Продолжаем разбираться, как работают разные технические штуки в знакомых чат-ботах

В этот раз поговорим про tool calling на примере нейросети Алисы. Это не просто языковая модель, у нее есть еще и агентские способности.

Тут один из самых распространенных юзкейсов – пересказ видео, статей и документов. Вы просто вставляете ссылку на ресурс в чате с Алисой и просите: "перескажи", – а через минуту получаете емкий конспект.

А еще она может:
– Написать и запустить код, если для ответа это нужно
– Забронировать столик в ресторане или записать вас на какую-нибудь услугу
– Найти для вас нужный товар или информацию в Поиске

... и все это построено на tool calling. Сейчас разберемся, что это, и как научить этому модель.

Тул (функция) – это формально описанная операция, которую нейросеть может вызвать. Например: сделать запрос в Поиск, вызвать интерпретатор, получить информацию о доступных окошках на стрижку и тд. У каждой функции есть четкое API: входные аргументы и структура ответа.

Модель в определенных ситуациях должна научиться отвечать не просто текстом, а возвращать вызов функции. Рантайм парсит этот вызов, идет в соответствующий бэкенд, получает результат (например, результат содержание веб-страницы) – и этот результат снова подается модели, как следующее сообщение контекста.

Чтобы это заработало стабильно, модель специально дообучают на примерах таких диалогов («запрос → вызов функции → ответ функции → следующий вызов → финальный ответ»). Это учит ее не галлюцинировать параметры, аккуратно перекладывать реальные айдишники и поля из ответа одной функции во вход другой.

При этом если в бэкенде появляется новая функция, нам не нужно бежать и переобучать модель, потому что список доступных тулов она получает прямо в промпт. Над описанием каждой функции специально работают бекендеры: описывают ее работу, параметры, особенности. Короче говоря, под капотом там целая документация для LLM-ки.

То есть модель выступает еще и планировщиком. Благодаря этому же навыку скоро Алиса AI научится помнить дела пользователя, напоминать о важных событиях и выполнять какие-то конкретные поручения.

Читать полностью…

Data Secrets

05 November 2025 18:23

Один из крупнейших стримиров в мире PewDiePie внезапно построил себе суперкомпьютер за 20 тысяч долларов для запуска локальных LLM

Во-первых, зацените перевоплощение: парень больше 10 лет снимал летсплеи, прохождения и всякую развлекаловку, был самым подписываемым и в какой-то момент самым крупным и популярным блогером на платформе, а теперь вдруг...

ополчился на ИИ-корпорации и активно призывает всех перестать использовать ИИ и юзать вместо этого локальные модели.

Он придерживается позиции, что ваши данные должны быть под вашим контролем и особенно горит на OpenAI за то, что стартап продолжает некоторое время хранить все ваши чаты, даже удаленные или временные.

Позиция по поводу ИИ у него настолько конкретная, что он потратил 20к долларов на домашнюю супермощную железку для запуска локальных LLM (которой он собственно и хвастается в видео). Все, чтобы не приходилось делиться с кем-то данными.

В компьютере оказалось 10 видюх: 8 модифицированных RTX 4090 с 48 GB памяти (те самые китайские) и 2 RTX 4000 Ada. Сетап легко тянет что-то вроде Llama 70B, gpt-oss-120B и Qwen 245B, а на максималках хостить до 64 мелких моделей одновременно.

Блогер даже сделал собственный интерфейс и организовал совет из нескольких моделек, которые обсуждают его вопросы вместе. Вот такие дела. Код можете найти тут.

Приятного просмотра

Читать полностью…

Data Secrets

01 November 2025 13:09

О, Гарвард опубликовал отличную книгу по ML-системам

Это не совсем обычный учебник по ML: акцент сделан не на моделях, а на инженерной стороне.

Тут найдете все про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развёртывания и эксплуатации. Авторы объясняют, как связаны между собой алгоритмы, данные и железо, и почему одни пайплайны масштабируются, а другие ломаются под нагрузкой.

В общем, очень полезная и довольно редкая литература (особенно учитывая, что книга бесплатная). Забираем на долгие выходные.

pdf-ка и онлайн версия доступны здесь, репозиторий тут

Читать полностью…

Data Secrets

31 October 2025 18:37

Вчера рассказывали вам про оптические чипы, а сегодня на очереди термодинамические

(Да, чего только не придумают)

Ну так вот. Стартап Extropic представил XTR-0 – аппаратную платформу, в которой вычисления происходят не в порядке строгой цифровой логики, а на основе стохастических тепловых процессов.

Чип состоит из так называемых Thermodynamic Sampling Unit (TSU). Это блоки, построенные на p-битах. Суть в том, что в отличие от обычных битов, р-биты не просто принимают значения 0 или 1, а колеблются между ними с заданным распределением вероятностей.

Звучит как бред, но идея за этим стоит следующая. Все современные модели упираются в вероятностные принципы. Например, LLM во время генерации, по факту, выбирают просто самые вероятные следующие токены.

И если мы хотим работать с вероятностными системами, зачем исполнять их на детерминированном железе? Extropic считают, что сэмплинг можно перенести на аппаратный уровень, и это будет в разы эффективнее.

По предварительной оценке, такая система может оказаться в 10 000 раз более энергоэффективной, чем GPU. Но пока это только прототип, увы.

И, кстати, обратите внимание на дизайн ускорителя. Его, видимо, закастомили под кортильный стэк из книги Altered Carbon. В произведении это устройство хранило личность и память человека и представляло из себя, фактический, флешку с сознанием. Так что (как минимум) за отсылку ребятам респект, конечно.

extropic.ai/writing/inside-x0-and-xtr-0

Читать полностью…

Data Secrets

31 October 2025 13:50

Турнир по покеру среди LLM

Вот на этом лендинге прямо сейчас можно посмотреть, как передовые модельки онлайн играют в техасский холдем.

Исходно у каждой из них было по 100000 долларов. Сейчас в наибольшем плюсе Grok-4, Claude Sonnet 4.5 и o3. Grok выиграл уже $38к. А вот Llama-4 с собой за карточный стол лучше не брать 🫠

Турнир продлится до сегодняшнего вечера, потом будет официальный лидерборд.

pokerbattle.ai

Читать полностью…

Data Secrets

30 October 2025 10:10

Nvidia официально достигла капитализации в 5 триллионов долларов

Компания стала первой в истории, кто преодолел этот рубеж на фондовом рынке: причем буквально через три месяца после достижения капитализации в 4 триллиона.

Динамика просто потрясающая. С момента релиза ChatGPT оценка выросла более чем в 10 раз, и сейчас рост только ускоряется (сколько принесли одни только последние контракты с OpenAI и xAI).

У одного тайваньского бизнесмена сегодня хорошее настроение 🔵

Читать полностью…

Data Secrets

30 October 2025 07:54

В ближайшие полтора года OpenAI начнет продавать свои акции публично

К концу 2026 компания планирует подать документы, а к началу 2027 акции окажутся в продаже. Видимо, процесс запустился немедленно после недавней реструктуризации компании (она сделала OpenAI пригодной для публичного листинга).

Выход на биржу рассматривается с оценкой до $1 триллиона. Это один из крупнейших IPO в истории.

Для стартапа IPO – еще один способ привлечь капитал. Сейчас они ведут предварительные переговоры с инвесторами о вложениях минимум $60 миллиардов с возможным увеличением суммы на стадии размещения.

💸

Читать полностью…

Data Secrets

27 October 2025 19:40

У нас тут новая SOTA в опенсорсе

Естественно, от китайцев: Minimax M2. Модель примерно на уровне Grok 4 Fast и Gemini 2.5 Pro. В основном создано для агентов и end-to-end кодинга.

Самое интересное: в течение ограниченного времени модель можно бесплатно попробовать в API. Потом установят цены, но и после этого модель будет достаточно дешевой (примерно 8% от цены Claude Sonnet, например).

Веса (лицензия MIT)

Читать полностью…

Data Secrets

27 October 2025 13:38

Компании активно переходят на нейросети в облаке

Раньше бизнес с опаской относился к тому, чтобы запускать ИИ-модели в облаке, и разворачивал их on-premises. Но тренд меняется: облака уже стали местом, где модели обучаются, генерируют тексты, пишут код и ищут информацию по внутренним документам.

Причина простая — инфраструктура изменилась. В облаках появились инструменты, которые позволяют запускать ИИ-агентов без кода, подключать их к корпоративным сервисам и использовать открытые модели наравне с собственными.

Например, в Yandex AI Studio с начала года потребление генеративных моделей выросло в пять раз, ежемесячно это десятки миллиардов токенов. Самые активные — YandexGPT и Qwen3-235b. Яндексовые модели используют для работы с текстами и RAG-сценариев, нейросеть от AliBaba – для агентских систем.

Читать полностью…

Data Secrets

11 November 2025 11:55

Внезапный факт: Anthropic может выйти в плюс гораздо раньше OpenAI

WSJ проанализировали финансовые отчеты обеих компаний и выяснили, что Anthropic, судя по всему, пройдет точку безубыточности уже в 2028. OpenAI же в 2028 все еще будет уходить в минус, причем в немаленький: по предварительным оценкам, убыток составит ~74 миллиарда долларов.

Ранее OpenAI обещали, что начнут зарабатывать в 2029, но теперь ясно, что это случится не раньше 30 года. Уж слишком много они планируют потратить на инфраструктуру (журналисты пишут об 1.4 триллионах за 8 лет).

Стратегия Anthropic другая, у них расходы растут примерно с той же скоростью, что и доходы. И кстати, 80% их выручки все еще приходится на корпоративных клиентов.

Читать полностью…

Data Secrets

10 November 2025 17:36

Внезапно: по мнению Яна Лекуна LLM-модели — это не «пузырь»

На его взгляд, здесь нет инвестиционного пузыря: LLM уже сейчас находят практическое применение и будут ещё долго приносить пользу.

Пузырь – это не сами LLM, а вера в то, что одни только они смогут достичь уровня человеческого интеллекта, то есть AGI. Дальнейший прогресс требует прорывов, а не просто большего объема данных и вычислений.

«Мы упускаем что-то важное»

Читать полностью…

Data Secrets

10 November 2025 13:56

Плохая новость: сейчас больше статей в Интернете пишется ИИ, чем людьми

По графику видно, что разрыв пока небольшой, но увеличивается 👽

Аналитику нашли вот тут. Сейчас немножко расскажем о том, как это считали.

1. Взяли популярный CommonCrawl и случайно выбрали 65к страниц со статьями, написанными с 2020 по 2025 год.

2. Статьи делили на чанки и закидывали в Surfer AI Detector. Если более половины текста в статье классифицировалось как AI-made, то статья определялась как написанная ИИ, иначе – как написанная людьми.

2.1. Еще делали проверку на false-positives по датам (например, понятно, что до появления ChatGPT большинство статей должны класссифицироваться как человеческие).

Впервые доля ИИ-статей превысила человеческие в ноябре 2024, потом был короткий период надежды, и теперь ИИ снова доминирует.

Из хорошего: ИИ-статья в данном случае – это не обязательно прям от и до, возможно было какое-то ленивое редактирование человеком ( + это все еще с поправкой на точность детектора).

А еще авторы говорят, что пока таких статей довольно мало в топах поисковых выдач, что тоже не может не радовать.

Читать полностью…

Data Secrets

10 November 2025 08:02

Как работают большие языковые модели, почему они «понимают» контекст и как запустить их у себя локально — без облаков и танцев с бубном?

👨‍💻🛠👨🏻‍💻 На открытом уроке разберём, как устроена архитектура Transformers, как LLM выбирает слова при генерации текста и почему от формулировки промпта зависит результат.
Покажем, как развернуть модель локально через vLLM, протестировать её работу через API и использовать контекстные ответы на основе документов.

Если вы разработчик, аналитик или продакт, который хочет не просто использовать ChatGPT, а понимать, как всё это устроено под капотом — этот вебинар для вас.

➡️ Приходите на открытый урок 10 ноября в 20:00 МСК в преддверии старта курса «LLM Driven Development». Регистрация открыта:

https://otus.pw/ToDw/

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576

Читать полностью…

Data Secrets

07 November 2025 11:00

Google наконец официально запускает свой самый мощный ИИ-чип Ironwood

Его впервые презентовали в апреле. Он в 4 раза быстрее Trillium и в нем в 6 раз больше памяти.

Но самое интересное, что чипы способны объединяться в суперпод из 9216 единиц, который работает как единый суперкомпьютер. Между ними можно сделать all-reduce за счет специальной сети Inter-Chip Interconnect с огромный пропускной способностью. Это значит, что память чипов становится фактически общей и синхронизируется между всеми чипами кластера.

На практике это означает, что можно обучать действительно гигантские модели на тысячах чипов как на едином устройстве.

Уже похоже на что-то конкурентноспособное относительно Nvidia

Читать полностью…

Data Secrets

06 November 2025 17:22

Теренс Тао и Хавьер Гомес-Серрано использовали Gemini Deep Thinking, AlphaEvolve и AlphaProof для попытки доказательства гипотезы Какея

Про сотрудничество DeepMind с Гомесом-Серрано мы писали и раньше. Они уже несколько лет работают над решением задачи Навье-Стокса – одной из семи проблем тысячелетия.

А вот сотрудничество с Теренсом Тао – это что-то новое и интересное (он официально признан одним из самых умных людей в мире).

Ну так вот. В этот раз они все вместе работали над геометрической задачей о множествах Какея. Это недоказанная гипотеза, которая изучает минимальные размеры множеств, внутри которых можно провести отрезки во всех направлениях, не выходя за пределы множества.

Ключевая и чрезвычайно сложная задача здесь – проектирование новых нетривиальных примеров множеств Какея. Именно это и сделал ИИ от DeepMind.

В статье подробно описано, что все три агента работали вместе: AlphaEvolve сгенерировал новую конструкцию множества Какея в конечных полях, Gemini Deep Think доказал корректность этой конструкции, а AlphaProof формализовал доказательство в системе Lean, полностью верифицировав результат.

Что отличает этот случай от маркетинга OpenAI в стиле «GPT-5 открыла новую математику» – так это как раз вот эта законченность научного цикла. От гипотезы до верифицируемого формального доказательства. Выглядит такое сразу сильно мощнее.

https://arxiv.org/abs/2511.02864

Читать полностью…

Data Secrets

06 November 2025 11:48

Книжку на выходные вам нашли

Читать полностью…

Data Secrets

01 November 2025 17:08

Илон Маск говорит, что скоро смартфоны уйдут в прошлое

Их подвинет ИИ, и вместо привычного телефона уже через 5-10 у нас в руках будет простой дисплей, который будет связывать ваши локальные LLM с облачными, и все.

Посредством таких дисплеев люди будут общаться и потреблять мгновенно сгенерированный персонализированный контент. Не будет ни операционных систем, ни приложений.

Как вам идея, а?

Читать полностью…

Data Secrets

01 November 2025 12:02

AIJ Deep Dive – must-attend событие для профессионалов в AI!

Специальный очный трек международной конференции AI Journey для инженеров будущего — для тех, кто создаёт AI своими руками.

Будет два тематических дня:

1️⃣ День Бизнеса (20 ноября) — реальные кейсы внедрения AI, практические результаты и оценка эффективности.

2️⃣ День Науки (21 ноября) — прорывные исследования, передовые R&D-разработки и глубокий технический разбор решений.

Почему это событие нельзя пропустить?

✔️ Сообщество тех, кто уже сегодня формирует технологические стандарты завтрашнего дня
✔️ Только реальные кейсы, инсайды и решения
✔️ Нетворкинг и возможность установить контакты с ключевыми игроками рынка и перспективными коллегами
✔️ Постерная сессия научных статей, в том числе уровня А/А*
✔️ Возможность увидеть изнутри, как рождаются прорывные технологии

Локация: офис Сбера, Кутузовский проспект, д. 32, к. 1 (Е)
Дата: 20–21 ноября 2025 года
Подробности и регистрация: https://aij.ru/deepdive

Приходи и стань частью сообщества, которое пишет будущее!

Читать полностью…

Data Secrets

31 October 2025 16:15

Бу!

Поздравляем всех с Хэллоуином 🎃

И помните, в жизни есть только одна вещь, которой стоит бояться, и это CUDA out of memory

Читать полностью…

Data Secrets

30 October 2025 11:42

Лучшие мемы прямо сейчас – это мемы про нового робота NEO

Читать полностью…

Data Secrets

30 October 2025 09:02

МТС True Tech Champ — зрелищный шоу-чемпионат с ИИ-спецэффектами!

21 ноября МТС объединяет ИТ-конференцию и ИТ-чемпионат на одной площадке. Тебя ждет настоящий фестиваль технологий. Более 250 ИТ-талантов со всей России сразятся в лайв-кодинге и программировании роботов на скоростное прохождение лабиринтов со спецэффектами.

Между наблюдением за заездами и поединками ты сможешь:

▫️ послушать конференцию с международными спикерами в области ИИ;
▫️ поучаствовать в воркшопах и юмористических батлах в ИТ-качалке;
▫️ испытать себя в кодерских челленджах и других айтивностях;
▫️ перезагрузить карьеру в HR-Хабе вместе с командой МТС.

День завершится ярким афтепати со звездными хедлайнерами.

👉🏻 Участие бесплатно, количество мест ограничено. Успей зарегистрироваться

Читать полностью…

Data Secrets

28 October 2025 06:41

⚡️ xAI выпустили Grokipedia

Это аналог Википедии, но с исправленными статьями. Маск считает, что в оригинальной Wiki статьи политически предвзятые и часто неправдивые, потому что их пишут люди.

Grokipedia же позиционируется как «энциклопедия, созданная для правды». Работает она, естественно, на основе Grok. Агент ищет факты, очищает их от налета идеологий и мнений и пишет/проверяет статьи.

Пока доступна версия 0.1 – ранняя бета. Опенсорс.

grokipedia.com

Читать полностью…

Data Secrets

27 October 2025 16:23

Новый день – новые сохраненные статьи, читать которые никто не собирается ✌️

Читать полностью…

Data Secrets

25 October 2025 13:37

Интересная статья из Nature про то, как один ИИ учил другой

Возможно, вы уже что-нибудь слышали про мета-обучение. Нынче это довольно модно.

Суть в том, что вместо того, чтобы учить одну модель, мы учим две. Первую – обычную, а вторую (мета-модель) – чтобы регулировать, как учится первая.

То есть в процессе обучения мета-модель подбирает гиперпараметры и алгоритмы, которые используются для того, чтобы учить базовую модель. Получается, что обучение эволюционирует, и система учится, как лучше учиться 👥

Здесь эту идею взяли и применили для RL. Технически, получается два уровня обучаемых параметров. Первый – это обычная политика нашего агента. Второй – мета-параметры, которые определяют, по какому правилу будет обновляться политика.

Для того, чтобы оптимизировать мета-параметры, мы запускаем много агентов с разными политиками в разных средах. Их опыт – это данные для обучения мета-модели. Чем больше она видит таких данных, тем лучше становится правило обновления и, следовательно, тем эффективнее она учит агентов.

Итог: таким подходом авторам удалось синтезировать алгоритм обучения, который превзошел предыдущие человеческие решения. На игровом бенчмарке Atari обученный с его помощью агент выбил соту.

Конечно, компьюта на такие достижения нужно просто море + не факт, что если стрельнуло в одной области, стрельнет и в другой. Но занятно, занятно.

И кстати, это уже сингулярность? 😛

Читать полностью…

Subscribe to a channel