Качественный набор данных от Microsoft для обучения компактных, но мощных языковых моделей, генерирующих код
Обучение больших нейронных сетей — это искусство. В сфере ИИ уже давно известны следующие два факта. Во-первых — высококачественные учебные данные оказывают значительное влияние на улучшение результатов работы больших моделей. Во-вторых — применение таких данных способно бросить вызов законам масштабирования, имеющим отношение к размерам моделей и данных.
Исследовательская команда Microsoft, вдохновлённая этими идеями, провела эксперимент. В рамках эксперимента была создана большая языковая модель для генерирования кода, названная phi-1. Обучение этой модели проводилось с использованием специально подготовленного набора данных, качество которого сопоставимо с учебниками по программированию. В результате модель phi-1, при том, что в ней используется всего 1,3 миллиарда параметров, показала результаты, превосходящие то, на что способны самые совершенные большие языковые модели.
Исследование направлено на обучение языковых моделей для генерирования кода. Оно ориентировано на демонстрацию того, что в высококачественных данных есть сила, способная изменить текущую ситуацию, когда улучшение возможностей моделей напрямую связано с увеличением их размеров.
«Давно хотел написать что-нибудь для Хабра, и вот этот момент настал. Статья о том, как я сделал электронное переключение для планетарной втулки Rohloff и запитал его, а также свет и USB-зарядку от динамо-втулки»
Электрификация туристического велосипеда
Энтузиаст Торбьерн Джемандер использовал Raspberry Pi Zero 2 W, чтобы запустить плеер YouTube на ретро-компьютере Commodore PET 600.
Он подсоединил BlixTerm к пользовательскому порту расширения PET 600. Обычно этот порт использовался для подключения электроники (например, GPIO Raspberry Pi).
Raspberry Pi Zero 2 W подключается к YouTube через Wi-Fi. Оттуда он загружает видео, а затем преобразует его в поток 640x200. Он обрабатывается для создания сетки символов 80x25 с использованием символьного ПЗУ для преобразования кода ASCII в точечный матричный шаблон, который можно отобразить на экране.
BlixTerm управляет пользовательский программный файл, который, похоже, запускается с BASIC. Запуск программы вызовет меню, в котором нужно выбрать программу просмотра YouTube, а затем ввести URL-адрес видео. Pi подключается к YouTube и буферизует видео, а затем оно передаётся в виде символов ASCII/PETSCII на экран.
Чтобы достичь скорости 30 кадров в секунду, Джемандер использовал специальную интерфейсную карту для быстрой загрузки кадров из Raspberry Pi Zero 2 W в видеопамять PET 600. Узким местом в этом процессе выступил ЦП с частотой 1 МГц, который может выполнять только несколько инструкций машинного кода в каждом шестнадцатимикросекундном окне.
Commodore Джемандера оснащён процессором MOS 6502, работающим на частоте 1 МГц, и 32 КБ ОЗУ в стандартной комплектации. При этом Raspberry Pi Pico имеет двухъядерный процессор, 284 КБ ОЗУ и может легко эмулировать 8-битные машины 1970-х и 80-х годов.
Энтузиаст под ником Geekerwan разогнал Nintendo Switch и запустил на консоли компьютерные игры из Steam, включая GTA V, Titanfall 2 и God of War.
Модер разблокировал загрузчик Nintendo Switch и сначала установил ОС Android, но интересных ему тайтлов на этой платформе оказалась не так много. После этого эксперт развернул на игровой консоли ОС Ubuntu, а также box64 и Wine, обновил графический драйвер для поддержки Vulkan 1.2 и библиотеки DXVK для полноценного запуска ПК-игр в Steam.
Geekerwan разогнал процессор и графику консоли на базе SoC Nvidia Tegra X1 со штатных 1 ГГц и 768 МГц до уровня 2,3 ГГц и 1,267 ГГц соответственно. Также энтузиастом была разогнана подсистема памяти консоли с 1600 МГц до 2500 МГц. Производительность Nintendo Switch увеличилась почти вдвое и приблизилась в тестах к устройствам на базе Snapdragon 865.
Тестирование некоторых игр показало, что на разогнанной Nintendo Switch на низких настройках графики можно запустить GTA V (5-10 FPS), God of War (10-15 FPS) и Titanfall 2 (15-30 FPS). В итоге оказалось, что у консоли с аппаратной платформой от 2017 года всё ещё есть потенциал для запуска различных даже современных игр, хотя и с низким показателем FPS, а также 2D или изометрических игр, не требующих мощного оборудования.
⚡️ Новости к этому часу
🎮 В Сети появились фотографии и видео портативной консоли Sony Project Q под управлением Android (ФОТО)
⚙️ AMD намерена существенно увеличить размер микрокода будущих процессоров
🛰 Индийская станция «Чандраян-3» завершила четвёртый манёвр по подъёму орбиты
👨💻 Amazon заставляет сотрудников переезжать поближе для возвращения в офисы
🌐 Между США и Европой заработал трансатлантический кабель Amitiéс пропускной способностью 400 Тбит/с
✅ OpenAI, Google и ещё пять крупных IT-компаний согласились ввести водяные знаки для контента, созданного ИИ
📛 Ubisoft приостанавливает доступ к неактивным аккаунтам и закрывает им доступ к игровым библиотекам
🔭 «Джеймс Уэбб» нашёл углеродную пыль в молодых галактиках
#новости
«Привет, меня зовут Костя Кислейко. Я отвечаю за дизайн в AGIMA. Клиенты часто приходят к нам за редизайном своих сервисов. И довольно часто, когда мы объясняем заказчикам, чем отличаются разные подходы и методологии, я использую метафору строительства. Кажется, это хорошее и понятное сравнение, и я решил его записать. Надеюсь, кому-то это поможет понять все риски и возможности при использовании разных подходов к редизайну»
Как сделать редизайн сервиса: на примере средневекового замка
Спинномозговые имплантаты: новая эра нейротехнологий
Допустим, человека удалось спасти. Его жизнедеятельности ничто не угрожает, но он остаётся прикованным к кровати. Можно ли вернуть спинальному пациенту возможность активных движений? Сейчас мы способны утвердительно ответить на этот вопрос. Путь к реабилитации предлагает индустрия нейропротезирования.
«Хотелось бы для разнообразия сделать что-то простое, что не затянется на месяцы и годы. И тут я вспомнил один незакрытый гештальт из середины 2000-х годов. Так родился этот маленький проект выходного дня с очень низким порогом вхождения, который может повторить почти любой желающий»
Новая жизнь советского джойстика
Двенадцать способов понять, что находишься в виртуальной реальности
Станислав Лем как-то заметил, что находящийся в виртуальной реальности человек может установить её иллюзорность только путём сравнения с действительностью. Не вступая в полемику с мэтром, уточним, что всё далеко не так безнадёжно. Очень часто для осознания факта нахождения в виртуальной реальности достаточно банальной логики и наблюдательности, способной выявить общие черты между данной вам в ощущениях реальностью и рукотворными виртуальными мирами.
В этой статье предпринята попытка систематизировать «врождённые пороки» создаваемых людьми миров для поиска похожих паттернов в той реальности, которая считается настоящей
#хабраархив
KeyDB и Redis: в поисках серебряной пули. In-memory replicated DB (Replicated IMDB)
Если посмотреть в сторону KeyDB, то можно увидеть, что там есть киллер-фича — и даже две: режимы Active Replica и Multi-Master. Использование этих режимов позволяет получить распределённый отказоустойчивый KeyDB, совместимый с Redis, писать в любую ноду, читать из любой ноды. И всё это с точки зрения приложения выглядит как один экземпляр Redis без всяких Sentinel — то есть в коде приложения ничего менять не придётся.
Звучит как фантастика? Давайте посмотрим, как это работает.
«За последние несколько лет, при работе и разговорах со многими разработчиками, я заметила один повторяющийся шаблон поведения. Он начал меня сильно беспокоить, и я продолжаю постоянно говорить и думать о нём, пытаюсь его понять или даже оправдать.
— Почему мы использовали данный подход?
— Не знаю. Это было в какой-то статье.
— Не знаю. Я это скопировал из Х (источника).
— Не знаю. Я использовал этот подход на предыдущем проекте.
— Не знаю. Мне кто‑то сказал использовать его.
Данный шаблон поведения — это потребление, а не созидание. Потребление без каких‑либо вопросов. Потребление, прикрывающееся мнением авторитетов»
Бóльшая часть технического контента — дерьмо
Вакансии для джунов на Хабр Карьере.
Специалист техподдержки в WebSoft. Можно удаленно. До 40 000 ₽.
Программист 1С в Сима-ленд. Екатеринбург. 70 000 — 160 000 ₽.
Инженер группы интеграционных решений в ГК Астра. Можно удаленно.
Разработчик Oracle в Иннотех. Можно удаленно.
DevOps инженер в Сбер. Ростов-на-Дону.
Больше вакансий
#junior
«Привет. Я Марат Сибгатулин — сетевик в Яндексе, работаю в команде Yandex Infrastructure. И сегодня я расскажу вам одну поучительную историю.
Это будет история о том, как мы перешли от деплоя курильщика к CI/CD, закрыли всё зонтиком IaC — от облачной инфраструктуры до систем мониторинга. Это будет история с сюжетом, которого я постараюсь избежать в следующий раз»
Сказ о том, как два сервера изменили судьбу сетевой команды
«Ну что могу сказать… Я впечатлён вашими скиллами, скоростью и командной работой. Взял бы вас себе в напарники, но предпочитаю работать в одиночку. Даже немного неловко, что пришлось использовать вас для отвлечения внимания RUVDS, пока забирал крипту со спутника. Так что теперь вам осталось только отправить баг-репорт хостеру. Надеюсь, они приготовили щедрую награду»
Вы были на высоте
Причины «имитации работы» в Big Tech
Пока технологические компании увольняли в этом году десятки тысяч сотрудников, венчурные капиталисты и руководители придумали термин «имитация работы». Они заявили, что увольнения необходимы и даже благоразумны, потому что тысячи сотрудников компаний Big Tech протирают штаны и занимаются имитацией бурной деятельности, не производя практически ничего.
Но концепция «ленивые сотрудники, получающие огромные зарплаты не за что» ошибочно перекладывает вину не на тех. Очень часто сотрудники выполняют большие объёмы работы — просто это проекты, которые бесполезны или почти бесполезны для доходов компании.
⚡️ Новости к этому часу
🛒 «Яндекс.Маркет» приступил к продажам товаров из зарубежных магазинов
🚚 Эксперты показали фото подкапотного пространства Cybertruck (ФОТО)
🏠 НАСА рассказало о проектах жилых платформ для миссий на Луну и Марс
🆓 Microsoft пообещала оставить бесплатным чат-бот Bing AI на основе GPT-4
🛠 Microsoft разрешила сторонним разработчикам выпускать расширения для боковой панели Edge
⚠️ Начался приём заявок на отсрочку от осеннего призыва для IТ-специалистов
🚕 В «Яндекс Go» появилась оплата через СБП
✖️ Twitter сменила логотип на X
#новости
История компьютерных стратегий. Часть пятая. Теленовости на игровом экране, или Как появился Command & Conquer
В прошлой части мы вспоминали о рождении «Warcraft: Orcs & Humans» от Blizzard: «незаконнорождённого», но прямого и явного потомка Dune II. Но у «Дюны» был и прямой наследник — почти сразу после её выпуска в Westwood Studios стали думать о том, как можно развить заложенные в ней идеи и механики на новом уровне. Именно из этой работы напрямую выросла франшиза Command & Conquer — включая и более популярную в России по понятным причинам её подсерию Red Alert. Если Warcraft был фэнтезиен до мозга костей, то в первой Command & Conquer, в отличие от последующих частей, отчётливо отразился реальный мир начала 90-х годов. Точнее, то, как он выглядел для американского телезрителя.
Самые убедительные свидетельства существования Вселенной до Большого взрыва
В начале прошлого века благодаря работам Хаббла и других астрономов стало понятно, что Вселенная, во-первых, не ограничивается Млечным путём, а во-вторых, все галактики разлетаются друг от друга, как точки на поверхности надуваемого воздушного шарика. Но если шарик надувается, значит в прошлом он был меньше.
В случае со Вселенной это означает, что в прошлом она была меньше, а следовательно, горячее и плотнее. Чем дальше в прошлое, тем всё это сильнее проявляется, и в какой-то момент нашей мысленной экстраполяции назад по шкале времени мы доходим до единой точки — так называемой сингулярности.
В итоге у нас выстраивается логичная цепочка: сингулярность — Большой взрыв — Вселенная началась.
Но с последней трети XX века наблюдения начали выдавать нам больше вопросов, чем ответов. В результате в 1980-х космологи разработали теорию космической инфляции, согласно которой никакой сингулярности не было, а Большому взрыву предшествовало другое, особое состояние Вселенной — инфляционное. В XXI веке мы постепенно начинаем получать доказательства существования Вселенной до Большого взрыва.
«В голову пришла идея сделать из старой электронной книжки на кухню что-то типа рамки, которая будет показывать прогноз погоды, температуру дома, на улице и в гараже. Питание хотелось бы иметь батарейное, поэтому обычные дисплеи отпадали. Нужен был именно e-ink-дисплей, и старая читалка была извлечена из забвения и немедленно разобрана»
Развлекаемся с электрофоретическими дисплеями
Йо-хо-хо, пиратство снова в тренде
Цифровое пиратство возникло вместе с Интернетом. И всё это время оно никуда не девалось. Какое-то время казалось, что мы победили цифровое пиратство. По крайней мере, статистика пиратства выглядела более позитивно. Многие думали, что рост популярности стриминг-сервисов решил проблему пиратства, но статистика доказывает обратное. Например, вместе с увеличением спроса на загрузку музыки возросло и нелегальное скачивание, несмотря на рост потоковых сервисов, таких как Spotify.
Сегодня вопреки доступности легальных вариантов потоковой передачи, статистика пиратства показывает, что нарушения авторских прав снова набирают обороты. А всё потому, что для многих бесплатно скачивать снова стало удобнее и проще.
На уходящей неделе мы взламывали спутник RUVDS, тестировали российские литиевые батарейки, исследовали пределы файлового формата модулей .NET и симулировали дестяки тысяч частиц на чистом Python с GPU-ускорением.
Лучшие публикации недели (17-23 июля)
«Привет, Хабр! Я Андрей Коваленко, в МойОфис возглавляю группу прикладной лингвистики и поисковых решений. Мы создаём корпоративную поисковую систему, извлекаем информацию, обобщаем, конкретизируем, анализируем и синтезируем тексты.
Но сегодня хочу поговорить не про сам поиск, а про его, без преувеличения, самый важный компонент — морфологический анализатор»
Зализняк: основа русской прикладной лингвистики
«На Хабре есть две статьи, автор которых пишет виртуальную машину для исполнения простого байткода, а потом применяет различные оптимизации для ускорения этой виртуальной машины. Кроме того, есть и компилятор простого С‑подобного языка в этот самый байткод. Ознакомившись со статьями и этим компилятором, я подумал, что будет интересно изучить, как написать виртуальную машину этого языка, которая сможет делать JIT‑компиляцию байткода с помощью библиотеки libjit»
Пишем виртуальную машину (интерпретатор) простого байткода + JIT-компиляция
Как писать про свой DIY-проект, чтобы его полюбили тысячи?
Что относится к DIY? Любой завершённый проект, при создании которого использованы лучшие ресурсы человека: руки и мозг, фантазия и изобретательность, инженерная мысль и рабочий дизайн. Это может быть что угодно: от бумажной настолки с необычной логикой до самодельного автомобиля. Проект может реализовать самоучка или топовый инженер, программист или просто очень хороший родитель — важно, что такие проекты реализуются для целей обучения, развлечения, реализации своих способностей и для пользы людей.
Но, к сожалению, не каждый изобретатель готов рассказать о своём проекте — нередко причина кроется в страхе сесть и начать писать, непонимании, как это — говорить буквами о технике. Мы подготовили для вас крошечный гайд, почти план — как писать о DIY-проекте на Хабр.
Релаксационные генераторы и ШИМ-регулятор на операционных усилителях
Вы когда-нибудь задумывались, насколько прекрасны операционные усилители? Сегодня мы изучим и соберём несколько схем, которые иллюстрируют их замечательные свойства. Мы познакомимся с основными свойствами и режимами работы операционных усилителей и сможем убедиться, что использовать их гораздо проще, чем кажется на первый взгляд.
Ежегодное исследование IT-брендов работодателей от Хабра и Экопси
Вот уже четвёртый год подряд мы опрашиваем айтишников Рунета о работе в компаниях на российском рынке. Настало время актуализировать данные, чтобы лучше понимать, что вообще происходит. Помогите нам составить новый рейтинг, пройдя небольшой опрос.
Что едят в космосе, или Кушать подано, Юрий Алексеевич
Когда речь заходит о космосе, многих волнуют вопросы про ракетные двигатели, конструкцию корпуса, траекторию полёта к отдалённым планетам и всё в таком духе. Но мало кто думает о такой банальной штуке, как еда — ведь космонавты проводят вне нашей планеты не один день.
Например, в 1995 году российский врач-космонавт Валерий Поляков установил мировой рекорд: он пробыл в космосе 437 дней и 18 часов, находясь на орбитальной станции «Мир». Чем же он там питался? А Юрий Гагарин успел что-то перехватить, пока 108 минут летел вокруг Земли? И вообще, что сейчас едят космонавты разных стран на орбите той же МКС? Давайте разбираться.
В жизни изобретения всего 5 этапов: курьёз, игрушка, инструмент, бытовая техника, ретро — и те, кто любит что-то делать руками, могут с душой рассказать про каждый из них. В Сезоне DIY мы принимаем истории об изобретениях на любом из этих этапов, и вот наши новые участники:
🍽 DIY-таймер кормления кота на Arduino Mega
☀️ Солнечные часы
🤯 Что делать с двумя тысячами роутеров, на которых корявая прошивка, если ты — провайдер?
🛴 Электросамокат из гироскутера, или «Каша из топора»
📻 Микро-40-SVXO: ещё одно простейшее радио
🎲 Как я настолку сделал
🏄♂️ Купи доску и мотор
⌛️ Сезон DIY мы проводим вместе с VK до 12 августа. Сделали что-то сами, вложили душу в пет-проект, претворили свои инженерные фантазии в жизнь — расскажите на Хабре и выиграйте приз!
⚡️ Новости к этому часу
🇹🇷 «М.Видео» запустил услугу помощи и активации предзаказов игр на PS5 в Турции
🔬 Учёные нашли положительно заряженные «островки» в ионных жидкостях
🔜 Blizzard анонсировала выход некоторых своих игр в Steam
🙀 Учёные обнаружили аномалии глубоко под поверхностью Марса
🆕 Вышел Cython 3.0
🤳 «Яндекс» запустил «Игроток» — аналог TikTok с играми вместо видео
🌴 Оборудование IMAX до сих пор работает на базе PalmOne
🎧 Apple выпустила наушники Beats Studio Pro
🏴☠️ По данным исследования XYZ School, доля пиратов в российской игровой индустрии в 2022 году достигла 69%
📊 В Сеть попали данные о зарплатах более 10 тыс. сотрудников Google за 2022 год (ФОТО)
#новости
Многоуровневое моделирование работы мозга
Человеческий мозг является одной из самых сложных и загадочных структур во Вселенной. Он содержит около 80 миллиардов нейронов, которые взаимодействуют друг с другом, создавая сложные сети и обрабатывая огромное количество информации. Но какие процессы регулируют работу отдельных нейронов и как происходит поддержание функционирования столь масштабной биологической сети?
Моделирование человеческого мозга является святым Граалем современной нейробиологии, предоставляющим инструмент для понимания того, как работает наш мозг и как бороться с его патологиями, такими как инсульт, эпилепсия, болезнь Альцгеймера и другими.