14289
Уютный чат для профессионалов, занимающихся поиском питоньих мудростей. Как не получить бан: https://t.me/ru_python/1961404
Моё понимание (ллм, не всего мл) сформировано по материалам вот этого чувака. Конкретно курс на ютубе я не смотрел, но вроде как он там подробно про структуру рассказывает
https://youtu.be/wNsp1ZH-pyk
Насчёт t2 и t3 поверхностно не согласен, но глубоко в это погружаться сегодня не готов, ахах
Читать полностью…
по идее у нас модельки [t1, t2, t3] на входе, а на выходе [t2, t3, t4]
Читать полностью…
ну это не значит же что внимание больше уделяется концу промпта чем началу
Читать полностью…
Я удивлён что для Training-Inference Mismatch нету статьи на википедии
Читать полностью…
А если вернуться к началу, то как это должно повлиять на общий ответ LLM
Читать полностью…
А, там о разнице перфа. Вот гайд, в котором он, ссылаясь на это, говорит, что надо следить за разницей между боевыми и учебными данными
https://developers.google.cn/machine-learning/crash-course/production-ml-systems/monitoring?hl=en#check_for_training-serving_skew
Ну сорян, а куда тут дать ссылку?
На вики мог бы, но статьи об этом нету
Не честно) я даю тебе инфу с указанием мест где можно посмотреть/прочитать а ты просто закидываешь фактами
Читать полностью…
Второй тейк был просто btw, это не аргумент особо. Отреагируй на первый как на аргумент, пожалуйста
Читать полностью…
Кроме того, на мой взгляд это нечто, очевидно следующее из самой идеи обучения чему-то
Читать полностью…
Сколько раз бы я не брался разобраться в механизме работы llm-к каждый раз голова кипит
Читать полностью…
Вот тут подробно расписал эффект от этого
НО пример из того поста вообще-то не верен)
Он замечательно иллюстрирует смысл проблемы, но конкретно с ним никаких проблем не возникнет, потому как ллм эмерджентно изобрели себе вектора с "суперпозицией смысла". Но это уже совсем другая история..
Это влияет на то, как она интерпретирует смысл написанного
Читать полностью…
Вообще всё это время можно было просто закинуть промпт ниже в любую ллм, но ты меня тут итак попустил за отсутствие внятных источников)
LLMЧитать полностью…
при рассчёте корреляций для токена n, просчитывают ли его коррелирование с токеном n+1?
ну не знает первый токен о том в чем говориться во втором
Читать полностью…
https://developers.google.cn/machine-learning/glossary#training-serving-skew
Гугл вон в своём глоссарии по мл (не знал что у них такой есть) пишет об этом, называя training-serving skew
Да, спасибо. Я сонный и от этого в негатив чрезмерно воспринимаю
Читать полностью…
Ну нет, это перенос. Ты сделал выводы исходя из собственных знаний.
Читать полностью…
Training-Inference Mismatch это общепринятый термин в сфере. Я не могу сослаться на один конкретный источник, но просто погуглив эти три слова это подтверждается
Читать полностью…
Ну я не могу принять твои умозаключения, мне нужны пруфы. Я свои пруфы тебе предоставляю
Читать полностью…