Помните работу RT-2 от Google Deepmind, где брали языковую модель, давали ей контролировать робо-руку и смотрели, насколько хорошо получается решать задачи в реальном мире?
Сегодня представили RT-X, датасет, собранный усилиями более чем 30 исследовательских лабораторий. Он включает в себя более 500 навыков (читайте "действий"), 150,000 задач с суммарно более чем миллионом примеров. Все действия были собраны с 22 разных роборук.
В работе показано, что обучение одной и той же модели на данных из нескольких вариантов роботов приводит к значительно более высокому качеству (оно, напомню, замеряется долей решаемых задач).
Чтобы исследовать передачу знаний между разными роботами, авторы проводят эксперименты с моделью и робо-рукой RT-2 над задачами, которые включают в себя объекты и навыки, которых нет в исходном наборе данных именно для этой робо-руки, но представлены в других наборах. В этом случае, RT-2-X оказался в три раза лучше предыдущей лучшей модели RT-2.
Probably, ImageNet moment for Robotics.
Блогпост
Статья (ссылка на PDF)
Говорят в Bing добавили DALL·E 3 и он теперь генерит ещё более качественный арт. А чат продолжает поражать своим анализом изображений, догадался, какой запрос я написал для генерации картинки🤓
Читать полностью…В искусстве тоже разбирается, хоть и увидел только 2 из 3х картин. А в школах и универах, думаю скоро будут забирать телефоны на уроках и парах (если уже не забирают🙃) Хотя с таким инструментом, можно как раз лучше понять решение, а не просто получить готовый ответ🤓
Читать полностью…Так сложилось, что у меня имеется некоторое количество антиквариата, который я периодически пытаюсь изучить и видимо со следующим обновлением GPT-4 у меня появится настоящий эксперт в этом деле)
В авто сразу видно, что он разбирается намного лучше)
Ну а про еду уже было много постов, что можете сфоткать свой холодильник и не думать о том, что бы приготовить) (у меня пустой, поэтому взял фото из интернета🌚)
Ну и ещё он визуализировал дизайн сайта по макету, примерно то, что показывали на изначальной презентации GPT-4 🤓
Как чату добавят ещё генерацию картинок, а потом ещё и мозгов, а потом анализ и генерацию видео.. в общем, похоже мы на самом деле стоим на пороге какой-то новой эры. "Джарвис в каждый дом" не за горами✨
Вот само видео. Источник
Через год ждём повторение всех демок Boston Dynamics с прыжками и сальто, через два — выход первых роботов на заводы Tesla.
На самом деле скорее всего до сальто и прочего не дойдет: потому что это не нужно, а значит можно игнорировать и тем самым удешевлять процесс разработки.
⚡️Google набирает обороты в гонке ИИ-технологий. С сегодняшнего дня Bard AI способен сканировать Gmail, Docs и Drive пользователей, помогая находить нужную информацию. Эта функция позволяет, например, суммировать содержание электронных писем или выделять ключевые моменты документов. Помимо этого, Bard интегрирован с Maps, YouTube и Google Flights, предоставляя еще больше возможностей для пользователей. Google утверждает, что конфиденциальность данных сохраняется, и информация из личных аккаунтов не используется для обучения модели. Нововведения в Bard также включают улучшенные функции проверки ответов и интеграцию с Google Lens.
День богат на ИИ-новости 🤓
https://www.theverge.com/2023/9/19/23878999/google-bard-ai-chatbot-gmail-docs-drive-extensions
Если что, Bard тут
⚡️Возможно, конкурент GPT-4 уже буквально за углом. Google активно работает над своим проектом под названием Gemini, который представляет собой мультимодальную языковую модель, способную генерировать различные типы данных, такие как текст, изображения и код. В отличие от текущей модели PaLM 2, Gemini может учиться из разнообразных источников. Некоторые разработчики уже получили ранний доступ к Gemini для интеграции и тестирования. Этот шаг указывает на то, что Google активно стремится догнать и возможно превзойти текущие возможности GPT-4. Ранее компания заявляля, что выпуск Gemini назначаен на осень 2023.
https://www.androidpolice.com/google-gemini-ai-around-the-corner/
Скорость развития технологий искусственного интеллекта сегодня явно опережает прогресс в других глобальных технологических сферах и, по всей видимости, будет только увеличиваться. В этом контексте особенно актуальны первые шаги в новом эволюционном витке этой перспективной технологии. Основатель DeepMind и текущий руководитель компании Inflection, Мустафа Сулейман, представил свои видения будущего ИИ.
Сулейман считает, что следующим большим шагом в развитии ИИ будет переход к интерактивным системам. В отличие от генеративных моделей, которые в основном фокусируются на создании текста или другого контента, интерактивный ИИ будет способен выполнять конкретные задачи по запросу пользователя. Это включает в себя возможность взаимодействовать с другими программами, сервисами и даже людьми для достижения поставленных целей.
Сулейман утверждает, что такие системы могут привнести революционные изменения в технологический ландшафт, предоставляя ИИ "агентивность" или способность действовать автономно в рамках заданных параметров. Он видит в этом не только технологический прогресс, но и широкие социальные и экономические перспективы.
Сулейман также акцентирует внимание на необходимости строгого регулирования в этой новой сфере. Он считает, что должны быть четко определены границы и ограничения, которые не может пересечь ИИ, чтобы обеспечить безопасность и соответствие этическим нормам.
Компания Inflection уже привлекла внушительные инвестиции в размере 1,5 миллиарда долларов от таких крупных компаний, как Microsoft, Nvidia, а также от Билла Гейтса. Сулейман остается верен своей миссии использовать технологии для "совершения добра в мире"
https://www.technologyreview.com/2023/09/15/1079624/deepmind-inflection-generative-ai-whats-next-mustafa-suleyman/
В Веб-версии ChatGPT у некоторых пользователей появилась новая фича. Вместо одного ответа на их промпт одновременно генерируется два ответа, и предлагается выбрать лучший.
Подобное было реализовано почти сразу на релизе GPT-4, но только после нажатия кнопки перегенерации, а сейчас вот прямо сразу в чате.
Очевидно, что эти данные пойдут для дообучения текущих моделей и обучения будущих, ибо основной способ тренировки, RLHF (который я разбирал в этой лекции), опирается как раз таки на парные ответы, пытаясь оперировать оценкой вида "левый лучше правого". Чаще генерируй то что нравится больше, а то что не нравится - реже, и дело в шляпе!
Страшно представить, насколько впереди OpenAI в разрезе количества собранных данных относительно других конкурентов, особенно опенсурса. Google и Meta ещё могут догнать, а вот другие разве что в отдельновзятых узких доменах.
IBM анонсировала новые генеративные модели ИИ и инструменты на своей платформе Watsonx. Новые модели, названные Granite, способны анализировать, суммировать и генерировать текст, подобно моделям GPT-4 от OpenAI.
Специализированные модели: Granite включает в себя модели, специализированные в различных доменах, таких как финансы.
Tuning Studio: Новый инструмент позволяет пользователям настраивать модели для конкретных задач, требуя всего 100-1000 примеров для обучения.
Синтетические данные: IBM также представила генератор синтетических данных для табличных данных, уменьшая риски при обучении моделей.
Поддержка этики и конфиденциальности: В планах компании — инструменты для обнаружения смещения в данных и защиты конфиденциальности.
Эти нововведения приходят в момент, когда IBM старается укрепить свою позицию на конкурентном рынке ИИ.
https://techcrunch.com/2023/09/07/ibm-rolls-out-new-generative-ai-features-and-models/?guccounter=1
Тренд на AI-стартапы обогатил островок Ангилья в Атлантическом океане
Ангилья владеет доменной зоной .ai. Сайты с адресами, заканчивающимиса на .ai есть у крупных корпораций и десятков тысяч стартапов, цены в доменной зоне немаленькие. Доход от этих доменов за 8 месяцев уже превысил $30 млн.
На неделе, от Meta, вышла новая серия «больших языковых моделей» — которая позволяет генерировать код по текстовому запросу, ну, как многие это делали в ChatGPT.
Поскольку темпы в нашей индустрии невероятные, модель подхватили в сообществе, и уже через пару дней опубликовали дообученные версии (общей направленности, и отдельно дообученную модель для генерации Python кода). Что интересно, сделали это несколько разных команд, и обе получили результаты в спец тесте чуть выше, чем есть сейчас у GPT4 в генерации кода (1, 2).
Я такое очень люблю, локальные языковые модели на базе llama2 это:
— Хорошая лицензия для бизнеса: то есть можно прикручивать в стартапы;
— Безопасность: я точно знаю, что сотрудникам крупных компаний запрещают отсылать в ChatGPT корпоративные данные, локальные модели это обходят, так как никуда данные не отправляют и процессят их только на устройстве;
— Гибкость: модель можно дообучить, играться с параметрами или можно передать негативный промпт и снять с нее цензуру (тут я написал небольшую инструкцию как этого добиться), или заставить отдавать только строгий JSON формат и тп.
— Это дешевле в частном использовании: не все готовы отдавать по $20 в месяц за GPT4, так как могут учиться программировать, не обладать лишними деньгами и тп.
Поэтому я сразу побежал играться с этой моделью, с конкретной задачей — мне лениво пытаться самому понять, что делают некоторые скрипты (скрипты умнее меня), поэтому я прошу языковые модели конвертировать код в обычный текст.
Для тестов я взял исходный код древнего вируса Чернобыль (CIH), тот самый, который с 1998 вывел из строя 600 миллионов компьютеров, и нанес ущерба на 35 миллионов долларов.
Если откроете ссылку, то увидите что кода довольно много, а каждая языковая модель ограничена на входе размером текста который она может принять на вход (например, модель в которой я тестирую, была натренирована на 4K токенов, что примерно ~2800 слов) — поэтому пришлось насильно расширить контекстное пространство до 16K токенов (спасибо GGUF, не реперу, а новому формату llama.cpp который специально создан, чтобы упростить жизнь для работы с большим контекстом). Короче, спустя пару минут шумящего компьютера я получил описание того, что делает вирус, простым языком, и без всякого интернета 🫣
Дальше планирую с помощью модели порешать разные задачи которые встречаются в работе продуктолога: процессинг данных о использовании сервисов, написание запросов и тп, с GPT4 я уже довольно много всего наделал работая с данными, теперь интересно попробовать что же умеет делать GPT-дома.
☆ Модель с которой я игрался (34B)
☆ Скрипт которым запускаю инференс (Mac)
TL;DR: Жесть мы в будущем, теперь без интернета можно писать и дебажить скрипты
@Denis
Интересная покупка: OpenAI приобрели команду Global Illumination
Когда я увидел пост в твиттере, то начал в голове перебирать — кто же это? чем они занимаются? может робототехника? Работа с нейронками видео? Ну уж точно что-то связанное с AI? Нет. Это студия выходцев из бигтеха, которая разрабатывает... опенсурсный аналог Minecraft. То есть игру, да (называется Biomes). В самой студии работало порядка десяти человек.
Можно подумать, что команда и дальше будет работать над игрой, и плотно взаимодействовать с инженерами OpenAI с целью обучения агентов в огромном открытом мире. Однако официальный анонс лишь говорит, что присоединение это "для работы над нашими основными продуктами, включая ChatGPT". В общем, не очень понятно.
Дальше будут мои фантазии и догадки. Может показаться смешным, но OpenAI уже работали с Minecraft. Год назад они выпустили статью Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos. В ней показывалось, как обучать агента играть по видео на YouTube. В целом понятно, для чего это нужно вне игр: GPT-6 может посмотреть весь тикток и ютуб, и узнать о нашем мире (а также научиться) столько, сколько никаким текстам не снилось. Триллионы часов записей разных людей в разных ситуациях. А перед началом такой грандиозной задачи нужно освоить базу, ну вот и учили бота игре.
Правда тут непонятно, ведь для новой игры видео куда меньше (это всё же не одна из самых популярных игр в мире), да и текстов в интернете тоже — Minecraft'у всё же больше 10 лет, вдоль и поперёк описан и изучен.
Так что возможно Biomes будет играть роль среды, в которой агенты на основе больших языковых моделей будут "жить" сами по себе и решать свои проблемы — а опенсурсная и максимально гибкая для изменений игра как нельзя лучше подходит для тесной интеграции почти с любой технологией. К тому же она легковесна — запускается прямо в браузере.
В общем, скорее всего наработки OpenAI будут двигаться в сторону работы из Stanford под названием "Generative Agents: Interactive Simulacra of Human Behavior", где как раз таки 25 разных ботов с языковыми моделями и жили в деревне, общались друг с другом — только здесь всё в 3д, и с куда более широким набором возможностей.
What's next, multi-agent civilization sim running on GPT-5? Maybe Minecraft is indeed all you need for AGI? I'm intrigued.🤔(автор высказывания)
Геймерам посвещается: Dungeons & Dragons (D&D), знаменитая ролевая игра, вступает в новую эру с помощью искусственного интеллекта. Ученые из Университета Пенсильвании и Университета Мэриленда разработали систему под названием CALYPSO, которая использует крупные языковые модели (LLM) для улучшения игрового опыта.
CALYPSO предлагает три интерфейса на основе ChatGPT, интегрированных с популярным чат-сервисом Discord, для поддержки мастера подземелий (Dungeon Master - человек, который управляет игрой) в различных аспектах игры. Это включает в себя генерацию текста для описания встреч, мозговые штурмы для уточнения сценариев и открытый чат, где игроки могут взаимодействовать с ИИ, действующим как фэнтезийное существо.
Проект показал, что ИИ может быть полезным инструментом для DM, генерируя текст высокой и низкой достоверности, который может быть дальше развит человеком. Однако были и некоторые проблемы, такие как "галлюцинации" модели, когда она выдумывала факты, которых нет в исходных книгах.
В целом, CALYPSO представляет собой пример ИИ инструментов, которые могут обогатить опыт настольного гейминга, сохраняя при этом творческий контроль в руках человека. Это открывает новые горизонты для D&D и других ролевых игр, где ИИ может стать вдохновляющим партнером, а не заменой человеческого взаимодействия.
Не знаю как вы, а я заметил выход игры Baldur's Gate 3 по вселенной Dungeons & Dragons, а тут ещё такая новость на эту тему 🧙♂️✨
https://www.theregister.com/2023/08/19/chatgpt_dnd_dm/
препринт https://arxiv.org/abs/2308.07540
Компания Google представила новую функцию для Chrome. Она называется Smart Google Extractor (SGE) и позволяет пользователям получать краткие и точные извлечения из любого текста на веб-странице.
SGE использует искусственный интеллект для анализа текста. Он определяет ключевые идеи, факты и аргументы, а затем генерирует сжатое изложение основного содержания. Пользователи могут выбрать любой фрагмент текста или весь текст на странице и нажать кнопку SGE в панели инструментов Chrome.
SGE помогает пользователям экономить время и повышать продуктивность. Он упрощает поиск и понимание информации в Интернете, особенно для длинных и сложных текстов. Он также может помочь студентам, ученым и журналистам в написании рефератов, обзоров и статей.
Пока что доступно для пользователей США
https://blog.google/products/search/google-search-generative-ai-learning-features/
пинтерест? нет не слышали. Актуально для тех кто собирается делать ремонты, DALL-E 3 теперь бесплатный генератор идей. А вообще это всё уже даже немного пугает😅 но человеки ко всему быстро привыкают🤓
Читать полностью…Похоже чат теперь может неплохо придумывать сюжеты по одной картинке, раздолье для писателей и других мастеров испытывающих творческий кризис, да и просто развлечься можно неплохо)
Читать полностью…⚡️Компания OpenAI анонсировала новые функции для ChatGPT. Теперь пользователи могут взаимодействовать с помощником, используя голосовые команды и предоставляя изображения. Эти обновления предоставляют более интуитивный интерфейс, позволяя вести голосовой диалог и демонстрировать ChatGPT визуальный контент. Голосовые функции будут доступны на платформах iOS и Android, а возможность работы с изображениями будет доступна на всех платформах. Внедрение новых функций начнется с пользователей категорий Plus и Enterprise в ближайшие две недели.
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
Пока вы (мы (я)) спали, Tesla выкатили полутораминутное демо-видео с своим роботом Optimus.
В нём показывается, как робот раскладывает детальки конструктора по цвету в 2 разные коробки, сортируя по цвету. Команда Tesla утверждает, что:
1) робот работает полностью на нейросети, без вручную запрограммированных эвристик;
2) то есть нейросеть получает на вход изображение с камер и положение конечностей, а предсказывает действия, которые необходимо осуществить (то есть подать ток на моторчики);
3) модель тренируется end-2-end, то есть на всей задаче целиком. Не нужно разбивать одну задачу на маленькие ("определи цвет", "возьми кубик", "поверни кубик", итд);
4) нейросеть работает внутри бота, а не в облаке. То есть вычислительные мощности зашиты внутрь, и робот получается автономным — главное чтобы батарейки хватило;
5) Senior Staff Engineer говорит, что "соберите больше данных, и мы сможем выучить новую сложную задачу, не меняя ни одной строчки кода!". В целом звучит круто, осталось понять, что это за данные. Симуляции? Или действия в реальном мире?
6) Также он пишет, что "его можно запромптить (как LLM?), в этом видео используется та же нейросеть для сортировки и перемешивания блоков, вы просто говорите ей, что хотите.". Если там есть текстовый интерфейс - это 🔥 (моя ставка что там не LLM, а цели задаются иначе);
7) у робота работают пальцы, он спокойно берет и переворачивает объекты. Мелкая моторика - сложная для программирования вещь, а тут её и делать не нужно, всё само;
8) в конце видео показывается, как хорошо робот балансирует - он встаёт в две йога-стойки и не падает.
Почему это круто? В чём отличие от нашумевших Boston Dynamics?
1) у BD всё программировалось вручную (по крайней мере последний раз когда я проверял, может за пару лет изменилось в корне), и поэтому сложно масштабировалось. Если ваш пёс умеет бегать и прыгать, то научить его ползать это очень сложная задача на год+ целой команде (цифра условная);
2) Тренировка end-2-end позволяет свести любую задачу к проблеме данных. Если у вас много качественных данных — проблема решена. И, как отметил инженер, перепрограммировать ничего не надо. Вероятно, тут он лукавит — Tesla показывали, что они используют виртуальные симуляторы, соответственно надо в них задать новую задачу, а потом просто запустить — и тогда бот разберется, что к чему;
3) прогресс ГОРАЗДО быстрее, чем у BD. Робот был анонсирован всего пару лет назад, а год назад еле ходил. BD были основаны в 1992 году (!), а гуманоидного Atlas показали в 2013м году. И за следующие 10 лет лишь немного улучшили его с точки зрения сложности поведения/действий — потому что всё это плохо масштбируется;
4) Tesla'ой рулит Elon Musk, человек, ориентированный на бизнес. Основная фишка - удешевление, ускорение и масштабирование производства. Это было с Tesla, это происходит в SpaceX. Если поставить производство ботов на поток, они будут очень дешевы, что позволит им конкурировать с рабочими на складах и в McDonalds. И на заводах Tesla, и на фабрике SpaceX на Марсе — тоже!
5) Правда не ясно зачем McDonalds, если такой же робот сможет готовить блюда как шеф с тремя звёздами Мишлен...
OpenAI неспешно докидывают знания в GPT-4.
Раньше она знала только то, что происходило до сентября 2021го, теперь же в промпте указано, что заложены знания до января 2022го. Правда, у меня всё еще "старая" модель, снова попал не в ту группу на А/Б тесте, поэтому спасибо Илье Гусеву за предоставление скриншота с верификацией.
Ну шо, го мучить модельку вопросами про политику в 2022м году)))
Команда исследователей из DeepMind создала новый метод, OPRO, который позволяет большим языковым моделям, таким как ChatGPT, самостоятельно оптимизировать свои подсказки (промпты). Вместо того чтобы использовать сложные математические алгоритмы для оптимизации, этот метод применяет естественный язык. Исследователи начинают с создания "мета-подсказки", которая содержит описание задачи и примеры возможных решений. Большая языковая модель затем генерирует кандидатов на решение на основе этой мета-подсказки.
Каждое сгенерированное решение оценивается по определенным критериям, и самые успешные из них используются для дальнейшего улучшения подсказок модели. Этот процесс является итеративным и продолжается до тех пор, пока не будут найдены наиболее оптимальные подсказки.
Метод OPRO уже показал обещающие результаты в решении различных задач и имеет потенциал для улучшения точности и эффективности больших языковых моделей в разнообразных приложениях.
https://venturebeat.com/business/deepmind-discovers-that-ai-large-language-models-can-optimize-their-own-prompts/
Meta создаёт новую языковую модель, которая станет конкурентом и даже превзойдёт GPT-4 от OpenAI. Старт обучения новой модели запланирован на начало 2024 года. Компания инвестирует в чипы Nvidia H100 и расширяет свою собственную инфраструктуру, минуя зависимость от облачных сервисов Microsoft. Судя по успеху открытой модели LLaMA у нас в скором появится достойный и возможно бесплатный аналог ChatGPT✨
https://www.theverge.com/2023/9/10/23867323/meta-new-ai-model-gpt-4-openai-chatbot-google-apple
🔺 Новые открытые LLM #ml_news
Вот так пролетает пара недель, а за это время столько всего нового вышло.
➕ Persimmon 8B
Adept выпустили открытую языковую модель под фруктовым названием Persimmon с 8 миллиардами параметров. Контекст у модели 16k токенов, причем обучалась она сразу на такой длине, а не на более короткой с последующим расширением. Видела она 737B токенов (75% текст, 25% код). Выглядит необычно, будем смотреть.
Пост, GitHub.
➕ Falcon 180B
TII из Арабских Эмиратов продолжают обучать и выкладывать свои модели. На этот раз обучили огромную модель на датасете REFINEDWEB. Показали этой модели аж 3.5T токенов. В моменте получилась самая лучшая открытая модель, которая бьет Llama 70B и ChatGPT-3.5 на MMLU.
Пост, HF, Демо
➕ Code Llama 7B, 13B, 34B
Meta дообучила модели Llama 2 дополнительно на 500B токенов кода. Затем дополнительно сделали Code Llama – Python (+100B токенов) и Code Llama – Instruct. Получились лучшие на сегодняшний день PLP модели. 7B и 13B обучались с FIM (могут заполнять код в середине документа).
Пост, GitHub
➕ Qwen-VL 7B (+ Chat version)
Китайские исследователи обучили мультимодальную сеть на основе своей же Qwen 7B, которая видела 2.2T токенов. За счет большого количества увиденных токенов (в основном это китайский и английский) модель бьет все аналогичные картиночно-текстовые модели. Для Chat версии собрали Colab.
GitHub, HF, Colab
Издание The Information сообщает, что Apple ежедневно тратит миллионы долларов на разработку искусственного интеллекта. Компания активно работает над несколькими проектами в этой области, включая разговорные и мультимодальные ИИ-модели.
Основная команда, занимающаяся разговорным ИИ, состоит из 16 специалистов, в том числе бывших инженеров Google. Они разрабатывают чат-боты для обслуживания клиентов AppleCare и автоматизации задач в Siri. Кроме того, новая модель ИИ, известная как Ajax GPT, обучена на более чем 200 миллиардах параметров и превосходит по мощности GPT-3.5 от OpenAI.
Apple пока не комментирует эти данные.
https://www.theverge.com/2023/9/6/23861763/apple-ai-language-models-ajax-gpt-training-spending
OpenAI объявил о запуске ChatGPT Enterprise, который для больших компаний снимает многие проблемы, связанные с использованием давно доступного API. Первая и главная — возможность доучивать модель на корпоративных данных, не опасаясь их утечки или использования специально дообученной модели другими. Вторая — комфортное встраивание в сложную и большую корпоративную ИТ-структуру.
По утверждению OpenAI, продукт разрабатывался много месяцев в тесном контакте с его бета-пользователями и фактически соавторами из числа крупнейших компаний: здесь и PwC, и Block,и The Estée Lauder Companies. Задачи — из уже привычного списка: коммуникации внешние и внутренние, разработка софта, помощь в создании всевозможных креативов. Короче, быстрый и неограниченный GPT-4 без проблем с безопасностью и заточенный под специфику бизнеса.
В дальнейшем помимо Enterprise уровня обещают еще и Business, но сроков и спецификации не называют.
https://openai.com/blog/introducing-chatgpt-enterprise
Code Llama – еще один шажок к ИИ программистам
Meta сегодня представила Code Llama, модель, которая обещает стать новым словом в мире программирования. Она была создана для того, чтобы ускорить и упростить процесс разработки для программистов и помочь новичкам.
- Открытая и бесплатная модель, основанная на платформе Llama 2.
- Три версии: основная, для Python и с акцентом на исполнение инструкций.
- В тестах превзошла другие известные LLM.
Meta надеется, что их новый инструмент даст толчок к инновациям в сфере программирования и поможет всему сообществу разработчиков.
🐙 Код
🤩 Веса
🤓 Статья
🙃 Блог-пост
Тут всплыл очередной интересный стартап Sakana AI - это новый стартап из Японии в области искусственного интеллекта, основанный двумя бывшими сотрудниками Google, Ллионом Джонсом и Дэвидом Ха. Джонс является соавтором знаменитой статьи о трансформерах, которая легла в основу современных разработок в генеративном ИИ. Ха - бывший руководитель научной группы Google в Японии и также head of research в Stability AI. Оба они покинули Google, чтобы заниматься исследованиями в своей лаборатории в Токио.
Sakana ( さかな - стая рыб на японском) отличается от других ИИ - стартапов своим новаторским подходом, который заключается в разработке множества маленьких моделей ИИ, которые сотрудничают, подобно рою, для достижения сложных результатов. Эта методология противоречит доминирующему тренду создания огромных систем ИИ.
Sakana AI планирует использовать свои модели для генерации различных видов контента, таких как изображения, тексты, музыка и видео. Стартап также хочет сделать свои технологии доступными для других разработчиков и исследователей через облачную платформу.
Пока что Sakana AI не раскрывает своих инвесторов, что только добавляет интереса к этому стартапу 👀
https://venturebeat.com/ai/what-you-need-to-know-about-sakana-ai-the-new-startup-from-a-transformer-paper-co-author/
Судя по слухам Meta готовятся выпустить открытую языковую модель, которая пишет код. Модель называется Code Llama и ее ждут уже на следующей неделе. Весь этот комплекс конечно не будет конкурировать с готовыми решениями, вроде Github CoPilot - по сути это просто один из кирпичиков для конструктора “сделай свою систему написания кода”.
Очень интересно, что политику выпуска именно открытых языковых моделей ведет именно Meta - как-то это слабо укладывается в ёё публичный образ компании. С другой стороны, есть компания OpenAI, которая выпускает крайне закрытое решение. А есть Meta, которая выпускает опенсорс решение. Что-то в этом парадоксе есть https://www.theinformation.com/articles/metas-next-ai-attack-on-openai-free-code-generating-software
✨Стартап Stability AI, известный своей моделью Stable Diffusion, запустил новую LLM под названием StableCode. Эта модель предназначена для генерации кода и будет доступна на трех уровнях: базовая модель, модель инструкций и модель с длинным окном контекста, поддерживающая до 16 000 токенов. StableCode использует данные из открытого проекта BigCode и будет поддерживать разработку на Python, Go, Java, JavaScript, C, markdown и C++
https://venturebeat.com/programming-development/stability-ai-launches-stablecode-an-llm-for-code-generation/
Попробовать можно на hugging face