Машинное обучение, искусственный интеллект, искусство, мемасы, всякое личное и странноэ
Запускаем хакатон SafeSpeak2024! 🚀
Хакатон, который мы проводим совместно с МТУСИ, посвящен разработке технологий обнаружения аудио-спуфинга и нацелен на решение актуальных проблем безопасной голосовой аутентификации, а также защиту биометрических систем от атак.
🔷Что вас ждет?
Участникам необходимо разработать легкие и высокопроизводительные модели для обнаружения атак аудио-спуфинга с акцентом на вычислительную эффективность и практическое применение в реальном мире.
🔷Кто может участвовать?
Студенты бакалавриата, магистратуры, специалитета и аспирантуры из технических университетов стран БРИКС и СНГ. Участвовать можно в командах от 1 до 4 человек.
🔷 Призовой фонд
225 тысяч рублей.
🔷Важные даты
Регистрация открыта до 26 ноября, старт хакатона — 22 ноября.
Регистрируйтесь по ссылке и готовьтесь к старту!
Сегодня в 16:30 выступаю на Фестивале научных сообществ «ВНауке 2.0». Всё это действо проходит в Москве на ВДНХ (в музее «АТОМ»)
Ссылка для бесплатной регистрации: https://vk.com/app5575136_-218344798
Ещё пара бонус-треков)
Читать полностью…Позавчера в списке TODO было 36 задач. Я два дня упорно трудился, разгребал их, славно поработал, и теперь у меня задач в списке 37
Читать полностью…Новые модели мира подвезли
Читать полностью…Одного подписчика до 6000 не хватает :)
И в разные коллективные подборки модных ML-каналов меня не зовут — слишком много щитпощу)
По этому поводу будем дальше щитпостить
Вот, например, у меня есть для вас картинка из 1984 года про то, как будет выглядеть экономика после повсеместной автоматизации при помощи LLM
Сонет, рубаи и лимерик от нашей поэтичейской модельки
В осенний день, когда уходит лето,
И ветер с моря гонит облака,
Я вспоминаю о тебе, Джульетта,
И о любви, что так была сладка.
Я помню, как однажды на рассвете
Ты мне сказала, что любовь права,
И что она, как вольный, тёплый ветер,
Срывает с нас ненужные слова.
И в этот миг, когда я был с тобою,
Вдруг показалось, что настал наш час,
И что любовь, как небо голубое,
Бездонна и прекрасна без прикрас.
И в этом мире, созданном судьбою,
Я буду помнить о тебе не раз.
Небосвод на закате - малиновый сок,
Ветерок пробежал, как по полю, песок.
Всё готово к зиме, и, как прежде, природа
Завершает свой круг, не нарушив свой срок.
В сентябре посещала я дачу,Читать полностью…
А теперь от неё чуть не плачу:
Вся земля - сорняки,
В огороде - жуки,
А в саду - комары, не иначе.
А раз метрики важны, ребзя давайте навалимся на https://llmarena.ru/ и сделаем оценки по интервалам надежнее
Читать полностью…Вышла наша новая статья на Хабре про задачу понимания видео LLM-ками
https://habr.com/ru/companies/sberdevices/articles/852668/
Говорят, нас ждёт римейк «Звёздных врат»
Читать полностью…Наши исследователи из SberDevices рассказали о создании датасета Bukva для русского жестового языка 🚀
Bukva — первый полноценный видеонабор данных для распознавания дактильной азбуки (азбуки русского жестового языка). Он содержит 3757 видеороликов с более чем 101 видео для каждой буквы дактиля, включая статические и динамические жесты. Для расширения финального датасета команда использовала набор данных Slovo, опубликованный в прошлом году.
Вышел второй тираж моего двухтомника «Охота на электроовец: большая книга искусственного интеллекта»
На этот раз тираж достаточно большой, поэтому цену удалось снизить до 4990 руб. Изменений по сравнению с первым тиражом практически нет — исправлено несколько опечаток + обложка второго тома чуть-чуть более тёмного цвета. Бумага всё та же — 100 г/м², так что примерно 1500 р. за килограмм книжного мяса
Купить можно тут: https://22century.ru/commerce/120012
Напоминаю, что электронная версия книги при этом доступна совершенно бесплатно здесь: https://markoff.science/
🌸 [ДАННЫЕ УДАЛЕНЫ] 🌸
Будущее корпусов, знаний и нас с вами в условиях лицензионной войны
#nlp #про_nlp
Наконец-то хорошие новости на конец недели:
Флибуста, самая большая русскоязычная торрент-библиотека, продолжит работу!
Создатель ресурса заявил, что сервера оплачены ещё на какое-то время.
🟣Что это значит для нас?
Большая часть знания, профессиональной и художественной литературы продолжат быть доступны в открытом доступе, для человеческого и машинного чтения.
Важность таких ресурсов трудно переоценить: это фундаментальная воспроизводимость и проверяемость ссылок в интернете упирается в доступность источников, которые часто не доступны более нигде.
По расчётам 2019 года, только 10% всех печатных изданий с ISBn на текущий момент надежно оцифрованы и имеют несколько резервных копий.
🟣Internet Archive: на контрасте
Интернет-архив Archive.org проиграл судебный процесс и апелляцию. OpenLibrary может перестать существовать, и в результате иска издателей 500.000 книг должны быть изъяты из доступа, а Архиву интернета вероятно нужно будет заплатить штраф более 400 млн долларов издателям.
Добивкой послужила и недавняя хакерская атака на ресурс, не известно, связанная ли, но в результате the Way back machine был недоступен почти неделю.
🟣Критическое окно возможности для открытого знания и открытых данных
Самые ценные данные в интернете — это вовсе не средний информационный шум, а ресурсы с высокой плотностью информации. Более конкретно, наиболее ценные данные для корпуса, это:
— Научные статьи, журналы, доклады
— Данные естественных наук, последовательности ДНК, химические формулы, и тд
— Нонфикшн, документы и профессиональная литература
— Код к научным статьям, опенсорс проекты
— Исследовательские данные, данные и код к статистиическим, экономическим исследованиям, внутренние и открытые доклады
— Форумы с научными, профессиональными дискуссиями
— Инструкции, научные регулярные издания, газеты
— Записи публичных выступлений, докладов, подкасты, документальные фильмы
— Открытые государстыенные данные и утекшие корпоративные документы
— Художественная литература
— Обзоры, описания, метаданные к различным данным
— Стенограммы судов, судебные решения
— Карты, географические данные
— Развлекательный контент
Суммарно все это хранится не только в атакуемом архиве интернета, но и индексах поисковиков (частные компании) и теневых библиотеках (некоммерческих организациях).
Хотя теневыми их млдно назвать разве что потому, что занимающиеся ими активисты обычно вытоленуты как минимум в серую зону относительно драконовского копирайтного законодательства и маргинализированы. Хотя вообще-то им можно ставить памятник.
Архив Анны занимает примерно 900Тб, и столько же все его резервные копии. Если включить цену носителей данных, электричество и администрирование, то это 15-40 тысяч долларов в год за 10% от объема знаний человечества, и близко к 100% от всего доступного.
Цены на цифровые носители продолжают падать.
Если расчёта Архива Анны верны, то в течение пары следующих 10 лет цена упадёт до 1-3 тысяч долларов за резервную копию. В целом, все ещё много, но гораздо большее число людей сможет позволить себе поддерживать инициативу.
Поскольку цена порога вхождения падает, уже через пару лет уже гораздо большая доля всех доступных книг будет иметь больше чем 1 резервную копию! Битва идёт лишь с обратным трендом и давлением копирайтеров, чтобы зачистить интернет-библиотеки до наступления этого момента.
Суд над интернет-архивом это наглядно показывает.
🟣А ты записался добровольцем?
Я напоминаю, что ресурсы из OpenLibrary все ещё непублично доступны через Архив Анны.
🌸 Можно стать сидером уже существующих торрентов
🌸 Можно стать хостером теневой библиотеки самому
🌸 Флибусте, Интернет-Архиву и Архиву Анны можно задонатить!
Перераспределяя немного своих шекелей тем, кто работает на благо цивилизации бесплатно и рискует, вы приближаете победу открытого доступного знания.
Сегодня наша статья "Bukva: алфавит русского жестового языка" от команды R&D CV попала в топ-5 лучших статей на Хабре за сутки!
Если еще не видели — приятного прочтения!
📖 Статья на Arxiv 💻 Код
26 октября — One day offer для ML-щиков в GigaCode — нашей команде, занимающейся моделями для кода
Всего за один день вы сможете пройти все этапы отбора, познакомиться с командой GigaCode и получить оффер
Мы создаем AI ассистента разработчика — GigaCode. Наши модели уже сейчас помогают писать ежедневно почти 100 000 строк кода
Решаем задачи по различным подходам в NLP и PLP, занимаемся исследованиями и обучаем новые SOTA LLM
В работе используем: NLP, DL, ML, Python, PyTorch, Transformers, FSDP, DeepSpeed
Чем предстоит заниматься?
✅ реализовывать дизайн экспериментов, формулировать гипотезы для улучшения NLP/PLP моделей и алгоритмов, планировать исследовательские эксперименты с выводами
✅ проводить эксперименты, писать код, подготавливать датасеты и бенчмарки, проводить замеры и анализ результатов
✅ обучать модели на кластере, включая обучение моделей с нуля и дообучение open-source-моделей
Если вам интересна эта область и вы хотите развивать в ней свою карьеру, регистрируйтесь на One Day Offer. Будем делать важнейшие исследования вместе)
https://developers.sber.ru/kak-v-sbere/one-day-offer/nlp_data_october
https://arhe.msk.ru/?p=144635
Лекция в рамках презентации книги «Охота на электроовец: большая книга искусственного интеллекта»
22 ноября (пятница) в 19:00
Лекция пройдет по адресу: Москва, ст. метро «Павелецкая», ул. Дубининская, д. 20, стр. 1 (научно-популярная библиотека «Научка»)
Сегодня в 19:00 в «Доме кино» в Питере (Караванная, 12)
Пилотный выпуск офлайн-передачи про нейросети и кино «КИНОКОД» даст вам не только уникальную возможность посмотреть генеративные AI-фильмы на большом экране, но и пройдет в виде дискуссии с экспертами по искусственному интеллекту и квантовым вычислениям/ Новости нейросетей, кино, общение и возможность знакомства с цифровыми ИИ-художниками
Мероприятие бесплатное, вход по регистрации.
Регистрация по ссылке: https://dom-kino-b4.timepad.ru/event/3099096/
А вот вам в честь праздника от SymFormer X :)
Читать полностью…13-14 ноября буду выступать на форуме THE TRENDS
Форум посвящён Blockchain, искусственному интеллекту, крипте и ИТ в целом
На Форуме выступят также:
Davinci Jeremie,
Carl Runefelt (The Moon),
Andres Meneses (Crypto OGs),
Serge Ajamian (Ordinals)
Danosch Zahedi (Co-founder Arts DAO)
и другие известные спикеры, а также представители крупных международных компаний.
Форум проходит при поддержке
генерального спонсора JJO
Более 4500 участников, свыше 100 спикеров и лучшие возможности для нетворкинга и партнерств
Ознакомиться с программой и приобрести любые билеты с 30% скидкой можно тут
Спасибо Саше Капитанову и @rndcv_team за версию с пояснениями)
Читать полностью…Релиз GigaChat MAX! (ссылка на Хабр)
Салют! Мы открываем доступ к модели GigaChat MAX. Модель доступна в @gigachat_bot, в веб-версии и через публичное API (в режиме раннего доступа).
- GigaChat MAX занимает 3 место в бенчмарке MERA. Сразу за gpt-4o и Llama-405B.
- GigaChat-Max достигает 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU.
- По результатам SBS, где учитывается красота ответов, мы выигрываем в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
- В Arena-Hard мы достигаем 51% скора против GPT-4-0314
- В Vkhr Arena-General-RU мы достигаем 90%, в то время как YaGPT-4 Pro достигает 59%.
Чтобы узнать про то, как мы делали модель, переходите на статью в хабре.
Предыдущие посты:
— GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
— GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов
AGI achieved internally™
Читать полностью…А давайте поможем ребятам с llmarena в оценке моделек. Вы там можете задавать вопросы моделям (в слепую) и выбирать лучшие ответы
Читать полностью…GigaChat MAX стал ещё мощнее, и наступило время это доказать ⚡
Сегодня мы прокачали нашу нейросетевую модель до лучшей версии.
YandexGPT, мы вызываем тебя на самую настоящую нейросетевую битву!
Готовы посоревноваться в юморе, написании кода, генерации идей… В общем, во всём, что может быть полезно человеку. Но и это не всё!
Не знаю, как у вас, а у меня эти дельфинчики ассоциируются с Хуаном Посадасом. Вы про него, скорее всего, ничего не знаете, это не для всех. И вообще не стоит вскрывать эту тему. Вы молодые, шутливые, вам все легко. Это не то. Это не Чикатило и даже не архивы спецслужб. Сюда лучше не лезть. Серьезно, любой из вас будет жалеть. Лучше закройте тему и забудьте, что тут писалось. Я вполне понимаю, что данным сообщением вызову дополнительный интерес, но хочу сразу предостеречь пытливых — стоп. Остальных просто не найдут.
Читать полностью…🔥 CV-технологии на международных конференциях!
Наши команды разрабатывают и внедряют самые разные технологии в современные продукты. Недавно прошли две крупные конференции ICTWeek и GITEX, где мы представили наши разработки и рассказали инженерам и бизнесменам из разных международных компаний о своих достижениях.
💻 Известный вам тренажер по распознаванию жестовых языков. В команде RnD CV под руководством @karinakvanchiani собрали самый большой открытый датасет РЖЯ, обучили SotA 🌿 модели по распознаванию русского и американского жестовых языков, и создали полноценный тренажер для изучения жестовой речи!
🖼 Команда RnD OrBB (да-да, в честь персонажа из Quake) @balievdmitri работала над задачей портретной сегментации и внедрила технологии замена фона и бьютификации в сервис видео-конференций SberJazz. Модели работают в режиме реального времени 🚀 и не требуют огромных вычислительных ресурсов. А для задачи сегментации и фейс парсинга мы выложили в открытый доступ EasyPortrait.
👁 Команда Layer CV под руководством @wild_chlamydia_work представила технологии определения пола и возраста, основанные на state-of-the-art 🌿 подходах MiVOLO. Данные и модели также доступны в опенсорс!
А напишите мне что-нибудь хорошее, пожалуйста, если силы есть под конец дня...
Читать полностью…Прилетел в Ставрополь
Читать полностью…Вышла новая серия проекта «За ширмой тысячного ли: это вам не фантастика!», который мы придумали с одной простой целью — объяснить сложные научные технологии и разработки так, чтобы они стали понятными и интересными для каждого.
Современная наука стремительно развивается, но для многих обывателей она остаётся чем-то далёким и непостижимым. Вот тут-то и нужна фантастика, как инструмент, способный «перевести» язык науки в увлекательные истории, которые захватывают дух.
В этой серии мы с писателями-фантастами Николаем Калиниченко, Ириной Лазаренко и Анастасией Шалунковой отправились в сердце ИТ-разработок России – в Сбер.
Мы встретились с людьми, которые каждый день создают и обучают нейросети и искусственный интеллект. Да-да, товарищи, речь идёт не только о привычных чат-ботах или голосовых помощниках — это лишь вершина айсберга! А что, если однажды ИИ сможет заменить нас, или, как в фантастических романах, обрести сознание?
Увидели, пообщались с нейросетью и живыми людьми, вдохновились и написали рассказы. Приглашаю к просмотру и прочтению!
А послушать можно на Яндексе: https://music.yandex.ru/album/27479854/track/132128920
Сборник рассказов ищите на Литмаркете: https://litmarket.ru/books/za-shirmoy-tysyachnogo-li-eto-vam-ne-fantastika
Первая серия про мирный атом и полезную радиацию: https://vk.com/wall-157335818_760873
Ищите серию на ресурсах:
YouTube - https://youtu.be/Z4WLcxK_ja0
RuTube - https://rutube.ru/video/private/de9c5131fa6e88b9dfda88bd8d20a855/?p=hPetnncGHTgASnj8RvptLw
ВКонтакте - https://vk.com/video-157335818_456246218
Телеграм - /channel/klimzhukoff/4296
Благодарим SberDevices за гостеприимство, увлекательные беседы и содействие в организации съемок!
Youtube https://youtu.be/lZc8s_ZeScs?si=o1EwlmKY8WFTZx_P
Rutube https://rutube.ru/channel/36379070/
VK Video trvscience" rel="nofollow">https://vk.com/video/@trvscience