techsparks | Технологии

Telegram-канал techsparks - TechSparks

47270

Аннотированные ссылки на интересные, полезные и удивительные новости хайтека. Тем, кто больше любит слушать длинное чем читать короткое — могу посоветовать свой подкаст ;) http://sebrant.chat Вопросы - @asebrant

Подписаться на канал

TechSparks

У нас тут полукруглый юбилей :) Давние читатели знают, что я, среди прочего, программный директор и один из ведущих ежегодной конференции Яндекса про технологии, образование и людей, этим увлеченных.
Так вот, в этом году наш совершенно бесплатный YAC/e пройдет в пятый раз. Сегодня мы объявили дату - 13 ноября. В наших плотных расписаниях полезно заранее бронировать время под интересное, так что учтите сами и поделитесь с теми, кому, возможно, будет интересно/полезно:) А еще лучше — сразу там зарегистрируйтесь:)
https://yace.yandex.ru

Читать полностью…

TechSparks

Скоро Олимпиада. Я и под прошлые Игры постил всякие статьи с рассказами о технологическом слое современного спорта (и зрелища), но нынче прогресс сам по себе следует девизу “Быстрее, выше, сильнее”, так что можно начинать про свежие новинки рассказывать.
You might not quite be able to call Paris 2024 the first AI Olympic Games - but it’s not far from the truth.  Ну еще бы, а куда нынче без ИИ. От управления площадками соревнований до управления трафиком в сложнейших цифровых сетях мероприятия — везде ИИ. It will become so integrated it will not be noticed.
Ну, надеюсь, все-таки в ходе трансляций мы заметим, что все стало круче и интересней благодаря технологиям:)
https://www.techradar.com/pro/changing-the-games-how-intel-is-powering-olympic-athletes-with-ai

Читать полностью…

TechSparks

Игра и победа над боссом в ELDEN RING Shadow of the Erdtree с управлением только через неинвазивный BCI 🧠🔃🤖

- source
- full video

Читать полностью…

TechSparks

Очередное чтиво на выходные.
Примерно год назад случилась катастрофа с батискафом Titan: он был раздавлен давлением воды при погружении к “Титанику”, мгновенно убив пять находившихся внутри человек. Среди них был и Stockton Rush, CEO компании OceanGate, создавшей и эксплуатировавшей злосчастный батискаф.
Теперь, спустя год, уже можно довольно детально и на основе ставших доступными документов и свидетельств восстановить историю создания и компании, и аппарата.
В ней немалая роль — что логично отведена самому Рашу, который себя позиционировал как subaquatic Musk - Маск подводного мира.
Но, похоже, главным талантом Маска он не обладал: собирать фантастически компетентные и увлеченные команды, при всем том готовые не бросаться очертя голову в авантюры, а шаг за шагом годами создавать новое. Кстати, похоже, и деньги он умел добывать на свое дело куда хуже Маска — и это в итоге угробило его самого, идею и, к сожалению, людей.
Читается история как технический хоррор — разве что конец заранее известен. Но очень поучительно.
https://www.wired.com/story/titan-submersible-disaster-inside-story-oceangate-files/

Читать полностью…

TechSparks

Некоторое время назад случился у меня очень интересный разговор со Светланой Сургановой — понятно, про генеративный ИИ, музыку и музыкантов. Позиции у нас очевидно различаются, но, на мой взгляд, смысл любого содержательного публичного спора не в том, чтоб кого-то обращать в сою веру и считать голоса, а в том, чтоб слушатели могли сами дальше подумать (если им интересно) и прийти к своим выводам. И тем был хорош разговор со Светланой, не просто влюбленным в свое дело музыкантом, но и умницей.
Подводки и тексты авторов проекта несколько странны, но готов им все простить за возможность со Светланой поговорить и за интереснейший коридорный эксперимент, который они провели, и который включен в запись :)
https://vk.com/video-222746608_456239105

Читать полностью…

TechSparks

Есть своя ирония в том, как традиционные бизнесы всячески стараются подчеркнуть свою технологичность, используя всевозможные офлайновые маркетинговые инструменты, вплоть до представительств в разных метавселенных — а в то же самое время техногиганты в опять же маркетинговых целях затевают дорогие офлайн проекты масштаба Netflix House, который даже не кинотеатр, а громадный брендированный физический ТРЦ.
https://variety.com/2024/digital/news/netflix-house-entertainment-dining-shopping-complexes-cities-2025-1236040989/

Читать полностью…

TechSparks

Иногда ловлю себя на том, что техника 1977 года выпуска и люди, ее создавшие и с тех пор поддерживающие в работоспособном состоянии восхищают ничуть не меньше ребят, которые сейчас делают всякое крутое и каждую неделю новое. Речь о Voyager 1, запущенном в 1977 году и сейчас летящем в 24 миллиардах километров от дома.
На аппарате несколько месяцев назад обнаружились неполадки, в режиме диалога, когда ответа на каждую твою команду приходится ждать почти двое суток, инженеры сумели таки локализовать проблемный участок памяти, переконфигурировать бортовой софт и восстановить полную работоспособность приборного комплекса: теперь снова все датчики передают информацию на Землю в штатном режиме.
Конечно, сияющая плазма вокруг входящего в плотные слои атмосферы Старшипа куда зрелищней и попадает во все ленты новостей — но плазменные волны дальнего космоса для науки важные не меньше, хоть о них мало кто знает. Пусть Voyager 1 и его уже седовласая команда здравствуют и дальше:)
https://www.techtimes.com/articles/305731/20240616/nasa-s-voyager-1-restores-full-data-transmission-months-long.htm

Читать полностью…

TechSparks

Когда-то давно в Австралии на океанском мелководье я гладил громадных скатов (они чудесны несмотря на длинный и опасный шип на хвосте) — и восхищался грацией их движений.
Видимо, такие водоплавающие формы не меня одного очаровали: появились первые фотки и видео, а не просто рендеры, подводного дрона Manta Ray — форма его полностью соответствует названию. Новаций в этом красавце много — Northrop Grumman, во-первых, хвалится, что это результат целиком цифрового дизайна с нуля (что бы это ни означало), а во-вторых демонстрирует нетривиальную систему, приводящую эту махину в движение: помимо пары винтов, этот скат может двигаться за счет погружений и всплытий под правильными углами (плавучесть для этого регулируется наполнением балластных емкостей).
A glider has a really intriguing propulsion mechanism, falling forward [with purpose] through the water all the time, both upward and downward. When Manta Ray needs to go up or down, it changes buoyancy by pumping sea water to change the weight of the vehicle.
В общем, красивая штука, хотя и вряд ли мирная.
https://newatlas.com/military/manta-ray-sub-videos/

Читать полностью…

TechSparks

Промпт-инженеры как отдельная профессия вряд ли появятся, а вот умение работать с промптами уже стало полезным и массово востребованным навыком, и как минимум какое-то время таковым останется.
Как любой навык, его надо практиковать и оттачивать регулярными тренировками, но все ж и теорию немного знать полезно хотя бы ради того, чтоб знать, куда при нужде подглядывать.
Посему вот вам довольно фундаментальный труд, собравший a comprehensive vocabulary of 33 vocabulary terms, a taxonomy of 58 text-only prompting techniques, and 40 techniques for other modalities. We further present a meta-analysis of the entire literature on natural language prefix-prompting.
Семьдесят шесть страниц текста, богатая библиография; разок полезно самому прочитать, а дальше пусть с ним любимая модель работает, когда вопрос возникает.
https://arxiv.org/abs/2406.06608

Читать полностью…

TechSparks

Кажется, китайцы первыми добьются коммерческого успеха в роботакси, причём сделает это не DiDi, а Baidu. Представители последней заявили, что подразделение Apollo Go в следующем году станет прибыльным. За последний квартал 2023 году Apollo Go осуществила более 839 000 поездок, при этом около 45% заказов в Ухане были полностью беспилотными. Компания объявила, что роботакси Apollo 6-го поколения будет стоить около 200 000 юаней (28 169 долларов США) — или менее половины стоимости предыдущего поколения. «Благодаря снижению затрат и увеличению заказов юнит-экономика Apollo Go приближается к точке безубыточности, ожидается, что она достигнет баланса в четвертом квартале 2024 года и станет прибыльной к 2025 году», — говорится в пресс-релизе Baidu. Важно подчеркнуть, что успех китайцев обусловлен не только технологическими инновациями, но и законодательными — если не выпускать беспилотники в города и обучать их строго на автодромах, то ездить в реальных условиях они не научатся.

https://www.cnbc.com/2024/05/15/baidus-robotaxi-unit-expects-to-turn-profitable-next-year.html

Читать полностью…

TechSparks

Apple — знатные тролли. За первые шестьдесят шесть минут презентации — ни единого упоминания ИИ, почти косметические улучшения своих продуктов в новых версиях всех ОС. Народ в коментах разных канальчиков весь желчью изошелся, комментируя отсталость и отстойность Apple. Честно скажу — сам на силе воле дотерпел до этой 66-минуты.
Но зато последующие 36 были целиком только про AI, который в этом контексте теперь исключительно Apple Intelligence, а не Artificial.
Главные пункты все те, которые были в утечках: и про альянс с ChatGPT, когда требуется что-то серьезное на серверной стороне, и про упор на приватность — из которого вытекает масса фич, реализованных прямо на устройстве.
Но мы узнали много деталей про Сири, и она действительно становится такой умной хозяйкой устройства, которая помогает им управлять, которая имеет доступ внутрь приложений, держит контекст диалога, которая — очень простая вроде бы, но очень сильная фишка — олицетворяет интерактивный саппорт, может подсказать что угодно про работу с устройством и приложениями, как бы коряво не был сформулирован вопрос. Понятно, что в таком сценарии нет никаких галлюцинаций, зато это очень хорошо приучает к новому типу интерфейса. Красивый первый шаг на пути к новым интеллектуальным интерфейсам.
Но все это не завтра. Часть фичей раскатят до конца года, а, например, неанглийские языки — и вовсе в следующем году.
Но теперь за эволюцией эппловой экосистемы станет сильно интересно следить: если сдержат все обещания — это действительно принципиальное обновление работы с устройствами и новый лидер.
И да, в итоге это лучший киноут WWDC за много лет:)
https://www.macrumors.com/2024/06/10/apple-intelligence-generative-personal-ai-unveiled-for-iphone-ipad-and-mac/

Читать полностью…

TechSparks

У тетриса юбилей, оказывается: стукнуло сорок лет. Поздравления Алексею Пажитнову!
Что-то долгое писать не хочется, просто хочется удивляться, как живуча оказалась гениально простая штука, несмотря на всю сверхбыструю изменчивость цифрового мира.
А вот фильм, который в заметке хвалят, мне совсем не понравился.
https://venturebeat.com/business/tetris-turns-40-with-a-grand-old-party-the-deanbeat/

Читать полностью…

TechSparks

За 20 лет в Яндексе к разным его мероприятиям имел разной степени близости отношение. Оказалось, однако, что большой фестиваль для молодежи, которая интересуется технологиями, мы ни разу не делали. Приятно поиметь отношение к первому такому событию, пусть и в роли спикера, а не организатора. Там такой лайн-ап, что в нем оказаться почетно:)
YoungCon — не просто увеселительно-просветительское мероприятие. Для тех, кто хочет в Яндекс (или куда-то еще, но хочет попробовать яндексовое собеседование на своей шкуре) там такую возможность предоставят, и вы реально впечатлитесь, КАК ИМЕННО :)) И многие по итогам получат интересные офферы :)
В любом случае, будет круто, весело и очень нескучно; если не вам, то, возможно, друзьям, знакомым или родственникам, поделитесь с ними (у фестиваля есть и впечатляющая онлайновая часть, так что не только с москвичами имеет смысл делиться). Ну, а я там буду в своем репертуаре: немножко про будущее, которое выглядит все страньше и которое будут строить как раз те, кто соберется с нами 27 июня.
Сайт фестиваля https://yandex.ru/youngcon/
Форма для регистрации — https://clck.ru/3B6opv

Читать полностью…

TechSparks

Хороший термин, и логичное направление развития, а то уж слишком многие зациклились на разговорных способностях моделей и foundation models считают языковыми, пусть даже с мультимодальным входом:) И говоря про автономных агентов, часто подразумевают их способности договариваться о чем-то. Но вот предложена концепция фундаментальных агентов — foundation agents as a transformative shift in the learning paradigm of agents, которые обучаются на датасетах интерактивных данных, не обязательно человекочитаемых и вербальных. Эти агенты определяются как generally capable agents across physical and virtual worlds. Учитывая любимую тему Дженсена Хуанга про general artificial robotics, воплощенный и вполне наделенный здравым смыслом и практическим жизненным опытом ИИ (уже больше чем ИИ, конечно) становится все ближе.
Сама статья - https://arxiv.org/abs/2405.17009
Ее популярный пересказ-обсуждение — https://venturebeat.com/ai/how-foundation-agents-can-revolutionize-ai-decision-making-in-the-real-world/

Читать полностью…

TechSparks

Один из художников, принимавших участие в эксперименте Гугла из предыдущего поста, заметил: “Ultimately, yes, we’re gonna have this democratization of image-making” — но при этом без тени осуждения.
Многих же других представителей креативного класса эта перспектива пугает. Вот снова отметились музыканты. На днях руководитель Spotify в связи с отчетом о хорошей (более миллиарда евро) прибыли в первом квартале 2024, написал: Today, with the cost of creating content being close to zero, people can share an incredible amount of content.
Дальше он ушел в обсуждение того, как это скажется на создании произведений на века — но музыканты вцепились в точное по сути, но обидное для них утверждение о стремящейся к нулю стоимости производства контента. Our art is not your fucking 'content' — возмутились музыканты. Для них это, безусловно, так. Но, боюсь, начальство Спотифая гораздо лучше представляет и не слишком идеализирует своих пользователей.

Читать полностью…

TechSparks

Я тут когда-то писал про этот эксперимент Microsoft — расположение серверов в датацентрах под водой. Тогда тон комментариев компании был весьма оптимистичен.
А теперь появилось сообщение, что начатый еще в 2018 эксперимент завершен и продолжения не планируется. При этом подчеркивается, что отказоустойчивость подводных ДЦ оказалась в разы лучше традиционных, процент отказов составил лишь одну восьмую от контрольного традиционного наземного оборудования. Более того, такие ДЦ полностью решают проблему, которой нынче принято попрекать вычислительные центры, занятые машинным обучением: расход дефицитной воды. Расположенные в подводном контейнере сервера никакие водные ресурсы не расходуют.
Даже интересно, что на самом деле кроется за набором общих слов, которыми отделалась компания:
"While we don’t currently have data centers in the water, we will continue to use Project Natick as a research platform to explore, test, and validate new concepts around data center reliability and sustainability, for example with liquid immersion."
https://www.windowscentral.com/microsoft/microsoft-waves-goodbye-to-underwater-data-centers

Читать полностью…

TechSparks

Я совсем не поклонник аниме, но тут мне попалась на глаза прикольная рецензия, начинающаяся скромными словами the best animated movie of the year you probably haven’t seen or heard about yet.
Смесь фантастики и детектива, к тому же стилизованная под film noir, с довольно интересно запутанным сюжетом вокруг хакинга будущего мне неожиданно понравилась. По ссылке — интервью с режиссером, а для российских читателей приятный бонус: фильм “Марс Экспресс” доступен на Кинопоиске с нормальным дубляжом:)
https://www.polygon.com/24183308/mars-express-director-jeremie-perin-interview

Читать полностью…

TechSparks

Интересный заход автора заметки в The Economist: по традиции считалось, что быстро двигаться и ломать всякое по дороге — это стиль стартапов. Государственные регуляторы же неспешны и ждут, когда пыль осядет и картинка прояснится.
Но сейчас не так:
It is now the trustbusters who are trying to move fast and break things.
Есть два направления атак регуляторов в США:
1 - бигтехи организуют себе монополию, нечестным образом привязывая к себе бизнесы, создавая дефицит своих продуктов и взвинчивая в итоге цены.
2 - бигтехи начали контролировать рынок путем скупки конкурентов, часто замаскированной под инвестиции.
По первому сценарию сейчас занимаются Nvidia, по второму — прежде всего Microsoft, но не только.
Интересы регуляторов не ограничиваются лишь горячей темой моделей: их интересуют и приложения, и — как видно на примере Nvidia — необходимое железо.
Но задачка непроста: современные ИТ очень капиталоемки, без денег и ресурсов техногигантов не очень-то и разбежишься. А еще есть политические риски в случае чрезмерно жесткого регулирования: даст ли это преимущества Китаю? Поэтому регуляторам предлагается двигаться быстро, но не сильно при этом все крушить. Интересно, насколько у них получится.
https://www.economist.com/business/2024/06/23/is-artificial-intelligence-making-big-tech-too-big

Читать полностью…

TechSparks

Теперь Сэм Альтман уже не единственная мишень в OpenAI, не его одного поминают недобрым словом всевозможные креативные технофобы. На днях Кира Мурати, OpenAI CTO, которая все больше становится вполне публичной фигурой, заметила в ходе публичной дискуссии: “Some creative jobs maybe will go away, but maybe they shouldn’t have been there in the first place” и вызвала массовое осуждение со стороны пишущей публики, полагающей себя творцами.
Кажется, никто из них никогда на самом деле не вникал в те переделы рынка труда и смены востребованных профессий, которые столетиями сопровождали смены технологических укладов. Таперам всегда в итоге приходилось плохо, и это стоит признать, а не осуждать, как сто лет назад
https://bgr.com/tech/openai-cto-thinks-ai-will-kill-some-jobs-that-shouldnt-have-existed-in-the-first-place/

Читать полностью…

TechSparks

Для погружения в виртуальную реальность недостаточно только аудиовизуальных ощущений — нужна еще и моторика, потому и возникли разной степени навороченности беговые дорожки или даже площадки, на которых пользователь может бежать в виртуальном мире, оставаясь на месте в физическом. Но такие устройства дороги (хорошие стоят десятки тысяч долларов) и очень громоздки.
Поэтому возникло новое решение той же задачи — не специальная поверхность, а специальная обувь, для которой и обычный пол сгодится. Developers kit for VR Shoes стоит около $5 000, это в разы дешевле VR-дорожек. Поставки пользовательского устройства планируются на следующий год; посмотрим, многие ли разработчики поддержат. Видеоролик в статье выглядит довольно прикольно.
https://venturebeat.com/metaverse/freeaim-raises-316k-for-vr-shoes-coming-in-2025/

Читать полностью…

TechSparks

Через неделю увидит свет новая книга Курцвейла; конечно же, про сингулярность. На этот раз название ее The Singularity is Nearer (книга 2005 года называлась The Singularity Is Near).
Футуролог со стажем уверен, что уже родился и живет на Земле тот человек, которому суждено первому прожить 1000 лет. Решение проблемы долголетия лежит в комбинации нанотехнологий и, само собой, ИИ: именно ИИ предстоит разработать нанороботов, сотни миллиардов которых будут заняты ремонтом наших тел изнутри. Ну, а если ремонта недостаточно, “Ultimately, nanobots will be able to replace biological organs altogether, if needed or desired… At some point, the body may become more than 99.9 percent nonbiological… We will think millions of times faster, but more importantly, we will not be dependent on the survival of any of our bodies for our selves to survive.”
Тяжело быть или хотя бы слыть технооптимистом на таком фоне:)
https://www.popularmechanics.com/science/health/a61099179/humans-singularity-immortality-raymond-kurzweil/
(Кто хочет и может — заказ самой книжки здесь:
https://www.penguinrandomhouse.com/books/535433/the-singularity-is-nearer-by-ray-kurzweil/ )

Читать полностью…

TechSparks

Очередное чтиво на выходные: интересная статья про эволюцию идеи геймификации, которая практически является ровесницей века.
Вначале, как обычно, были обещания, что состояние “блаженной производительности”, в котором пребывают истовые игроки, позволит людям трудиться с таким же удовольствием и эффективностью в реальном мире — если мир сделать прохожим на видеоигру.
By making the real world more like a video game, we could harness the blissful productivity of millions of people and direct it at some of humanity’s thorniest problems
Но, как обычно, “мир оказался прочней”:)
Instead of liberating us from drudgery and maximizing our potential, gamification turned out to be just another tool for coercion, distraction, and control. 
В итоге играть люди стали как никогда много. А геймификация стала — и остается — одной из многочисленных манипулятивных техник современности. Автор мрачно сравнивает происходящее с превращением нас всех в NPC в чужой игре.
Не склонен разделять пессимизм автора, но ведь не обязательно соглашаться с прочитанным, можно просто самому подумать — для этого статья годная.

Читать полностью…

TechSparks

Про китайские технологические достижения пишут относительно много (хотя все равно, на мой взгляд, недостаточно), а вот когда речь заходит про китайскую науку, то, оказывается, многие считают, что как ее покалечила культурная революция, так она и не оправилась. Да и до того была, мол, не сильно заметна в мире.
Поэтому очень полезно почитать статью в не самом, мягко выражаясь, дружелюбно к Китаю настроенном издании The Economist. Партийные задачи, как выясняется, реально смогли сильно стимулировать работу китайских ученых по ряду направлений. Задача достижения продовольственной безопасности страны привела, например, ко многим фундаментальным достижениям в биологии.
И это касается многих областей науки: достижения и публикации там не для галочки, и Китай вырвался в лидеры по High impact papers и уважаемому индексу журнала Nature (картинка прямо здесь в посте). Короче:
Chinese scientists recently gained the edge in two closely watched measures of high-quality science, and the country’s growth in top-notch research shows no sign of slowing. The old science world order, dominated by America, Europe and Japan, is coming to an end.
https://www.economist.com/science-and-technology/2024/06/12/china-has-become-a-scientific-superpower

Читать полностью…

TechSparks

Впечатляющий макроэффект производства микропроцессоров:) Intel строит новый свой завод в Огайо, а оборудование для производства оказывается весьма громоздким, весит сотни тонн — и одновременно хрупкое. В результате его транспортировка где возможно идет по воде, но в итоге приходится все же последние 150 миль от речного порта везти по шоссе.
Грузовики с негабаритным грузом движутся со скоростью 10-15 км/час, собирая за собой многокилометровые пробки: на двухполосной трассе такой груз занимает обе полосы.
Проблемы у тамошних водителей продлятся 9 дней, а вот потом штат получит немало выгод от такого производства на своей территории.
https://www.tomshardware.com/pc-components/cpus/intel-is-trucking-a-916000-pound-super-load-across-ohio-to-its-new-fab-spawning-road-closures-over-nine-days

Читать полностью…

TechSparks

Вообще, спасибо Apple, может больше начнет публика обращать внимание, что прогресс ИИ — это вовсе не гонка языковых моделей, и не бесконечные чат-боты, — а сложная, медленная, глубокая интеграция новых алгоритмов в самые разные продукты.
Вот, кстати, два почти совпавших по времени интересных материала на тему «ИИ в образовании».
В Индии создали то, что без лишней скромности обозвали the world’s first autonomous AI university professor. Эта довольно милая дама, рожденная в стартапе HaiVE, от языковых моделей взяла умение общаться, но информацией оперирует не из интернета вообще, а из всего корпуса инженерных курсов университета. Как и в случае с поиском, это решает проблему галлюцинаций, а контекст и индивидуальная история каждого студента обеспечивает вожделенную персонализацию. (Если вспомнить сегодняшнюю презентацию Apple, Malar — такая Сири, сведущая не в операционках, а в учебных материалах по определенным дисциплинам). Как и должно быть, под капотом работает не одна модель, а ансамбль специализированных. Стартап хвастается, что у него почти 200 000 пользователей при DAU в 30 000: очень достойно для локального применения в одном университете.
Но локальность — это черта конкретного продукта. А вообще, как замечает колумнист Форбса, умный EdTech позволит избавиться от троечников — в том смысле, что их успехи сильно вырастут, ибо сейчас их неуспеваемость часто связана с недостатком персонального внимания и единым темпом прохождения материала. «Автономные профессора» с этим помогут разобраться в любых масштабах, которые готова принять академическая среда.

Читать полностью…

TechSparks

Apple в своих коммуникациях очередной раз красавчики;))) Они же несколько лет сопротивлялись ИИ-хайпу и категорически избегали использования словосочетания artificial intelligence в любых своих материалах. Недавно сдались — стало невозможно избегать AI и не прослыть совсем уж отсталыми.
Но выкрутились! Все утечки твердят: в понедельник нам представят Apple Intelligence, теперь AI в линейке бренда где-то рядом с Apple Watch;)))

Читать полностью…

TechSparks

Вышла новая китайская модель для генерации видео по тексту 可灵 (или просто Kling)!

Выпустила её Kuaishou Technology — китайская компания, которая разрабатывает одноимённую платформу для коротких видео (и довольно популярна в Китае).

Как заявляют авторы:
👉 модель представляет собой Diffusion Transformer (DiT), работающий в латентном пространстве закодированных видео (при этом при обучении DiT берутся видео разного разрешения и соотношения сторон);
👉 в качестве автоэнкодера видео используется специально обученный 3D VAE;
👉 модель может генерировать Full HD видео (разрешение 1920 х 1080) длинной до 2 минут с частотой 30 кадров в секунду (время, за которое модель генерирует такое видео, авторы не уточняют); при этом Sora за один проход умеет генерировать только минутное видео.

Как водится в последнее время, авторы Kling утверждают, что модель способна отлично имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики (что сейчас так или иначе является целью каждой команды, которая создает собственные text-to-video модели). Хотя всё ещё видны артефакты генерации (даже на представленных черри-пиках).

Концептуально в этом подходе к генерации видео нет ничего нового по сравнению с последними сравнимыми по качеству моделями такими как Sora (OpenAI), Vidu (Tsinghua University and ShengShu Technology), Veo (DeepMind). Очень большую роль играют и значимо влияют на финальное качество:
👉 данные, на которых обучалась модель, их количество и, самое главное, качество (в случае Kling эта информация неизвестна - как и в случае большинства других моделей генерации видео);
👉 количество compute, затраченного на обучение (то есть фактически спецификация и размер кластера и время обучения); в частности, авторы Kling специально подчёркивают большую отдачу (с точки зрения финального качества модели) от масшабирования архитектуры и процесса оптимизации её обучения.

Модель Kling закрытая, есть только статья с примерами в блоге и ссылка на бета-тестирование (правда чтобы в нём поучаствовать, нужен китайский номер 😄)

@dendi_math_ai

Читать полностью…

TechSparks

Наткнулся на интересный пейпер прошлой недели на любимую тему:
Межвидовая коммуникация и АИ

Есть такой алгоритм Wav2Vec2 от Facebook AI — он позволяет переводить нашу речь в текст. Алгоритм работает намного лучше многих альтернатив, так как не требует много размеченных данных и работает напрямую с аудио дорожками, не пытаясь их сначала конвертировать в текст для обработки. Вместо этого, Wav2Vec2 сам находит важные характеристики звука (тон, звуки, паузы и тп), после чего распознает речь.

Так вот, ученые взяли этот алгоритм и применили к лаю домашних песиков и в итоге решили четыре ML-задачи: распознавание конкретных собак, идентификацию породы, классификацию пола и привязку лая к контексту — модель может сама связать вокализации собаки с контекстом, в котором они были произведены (например, агрессивный лай на незнакомца, игривый лай и т.д.). Это важно, потому что у нас наконец-то есть эффективный способ разметки и обработки собачьих звуков.

Самое прикольное, что Wav2Vec2 обученный сначала на ЧЕЛОВЕЧЕСКОЙ РЕЧИ помогает решать эти задачи еще точнее — это довольно странная и клевая находка.

Короче, если исследование подтвердят другие желающие — то нас ждет зарождение стартапов в области переводчиков с собачьего, котячьего (в этих я не уверен), птичьего и тп и тд. Исследователи готовы поделиться собранным датасетом, если написать им на почту (есть в пейпере)

Сам пейпер тут:
https://arxiv.org/abs/2404.18739

Читать полностью…

TechSparks

В видео по ссылке нет ничего сенсационного, но так уж наша память и мозги устроены, что не знаешь заранее что и как отзовется. Когда-то я прошел довольно любопытный маршрут по Великой китайской стене и должен заметить, что это совсем не легкая прогулка, опыт ходьбы по горным тропам там оказывается совсем не лишним. Потому робот, упрямо и неутомимо топающий по Стене, вдруг вызвал неожиданные чувства — от зависти до сочувствия ;)
Ну а так-то да, норм маркетинг, это действительно впервые в мире :))
https://youtu.be/nx2YO3twZYs

Читать полностью…

TechSparks

Красивый креативный эксперимент Гугла — в коллаборации с художниками. Отчасти это и демонстрация того, как художники, которые хотят использовать новые инструменты, а не бороться с ними, могут работать по-новому. Задача, за которую взялись четверо художников состояла в графическом переосмыслении “Алисы в стране чудес” - и заодно сравнении результата с каноническими иллюстрациями. Использовалась модель Imagen2, но участникам проекта дали доступ к еще разрабатываемому инструменту StyleDrop. Он позволял авторам настроить модель на работу в их собственном стиле.
В итоге получился интерактивный проект Infinite Wonderland, в котором читатель может кликать на любой абзац текста - и получать иллюстрацию к нему в стиле каждого из художников-участников.
Сам проект можно пощупать здесь — но в зависимости от географии возможности поиграться будут разные. А периодически он просто глючит и подгружает заранее сгенеренные картинки невпопад -- но хотя бы честно об этом предупреждает.

Читать полностью…
Подписаться на канал