اخبار، اموزش و معرفی ابزارهای هوش مصنوعی
شرکت Runway ازAct-Two رونمایی کرده که نسخه پیشرفتهتری از فناوری قبلی این شرکت یعنی Act-One به شمار میره. این ابزار به کاربر اجازه میده با ترکیب یک ویدیوی اجرا (شامل حرکت، حالت چهره و گفتار) با تصویر یا ویدیویی از یک شخصیت، خروجیهایی واقعگرایانه و متحرک تولید کنه. Act-Two برای تصویرهای شخصیت، بهطور خودکار حرکات محیطی مثل لرزش دوربین رو اضافه میکنه و امکان کنترل حرکات بدن و دستها از طریق ویدیوی اجرا رو هم فراهم کرده.
این ابزار از طریق نسخه وب در دسترسه و خروجیها رو با نسبتهای مختلف تصویری و نرخ فریم ۲۴ فریم بر ثانیه تولید میکنه. هزینه استفاده از Act-Two برابر با ۵ کردیت به ازای هر ثانیه و با حداقل زمان ۳ ثانیه (۱۵ کردیت) تعیین شده. کاربران میتونن تنظیماتی مثل شدت حالتهای چهره و فعال یا غیرفعال بودن کنترل حرکات بدن رو هم پیش از تولید مشخص کنن. بهگفته Runway، این ابزار در کنترل دقیقتر ژستها، پشتیبانی از شخصیتهای غیرانسانی و ترکیب سبکهای متنوع، نسبت به نسخه قبلی خودش پیشرفت قابل توجهی داشته.
@aipulse24
فعلا ۲تا تئوری داره توی تویتر راجع به این میچرخه:
۱. موسسه المپیاد ریاضی از هردو این ها خواسته بوده که اجازه بدن تا توجه ها روی موفقیت بچه های رقابت کننده باقی بمونه و تا پایان مراسم اعلام نکنن گوگل به این درخواست متعهد مونده و اعلام نکرده ولی openai گوش نداده و زودتر اعلام کرده
۲. گمانه زنی دوم اینه که گوگل خبر رو فرستاده واسه تیم مارکتینگ و تا اونا برای انتشار و نحوه انتشار تایید های نهایی رو بدن openai اعلام کرده و توجه هارو به خودش جلب کرده
شرکت OpenAI از دستیابی به یک پیشرفت چشمگیر در توانایی استدلال مدلهای زبانی خودش در حل مسائل پیچیده ریاضی خبر داده؛ موفقیتی که میتونه یکی از جدیترین گامها در مسیر رسیدن به هوش مصنوعی عمومی (AGI) تلقی بشه. مدل آزمایشی OpenAI موفق شده در رقابت رسمی المپیاد جهانی ریاضی ۲۰۲۵، پنج مسئله از شش مسئله اصلی رو حل کنه و با کسب ۳۵ امتیاز از مجموع ۴۲، به سطح مدال طلا برسه. این اولینباریه که یک مدل هوش مصنوعی به چنین سطحی در یکی از دشوارترین آزمونهای ریاضی جهان میرسه. تمام پاسخها به زبان طبیعی نوشته شدن، هیچ ابزاری استفاده نشده و داوری هم بهصورت ناشناس توسط مدالآوران سابق IMO انجام شده.
نکته مهم اینجاست که برخلاف مدلهایی مثل AlphaGeometry که بهطور خاص برای ریاضی طراحی شدن، مدل OpenAI یه مدل عمومی برای استدلال و زبان محسوب میشه و از هیچ روش مهندسیشدهای برای حل این مسائل استفاده نکرده. به گفته الکساندر وی، سرپرست تیم تحقیقاتی این پروژه، این دستاورد نتیجه بهکارگیری تکنیکهای جدید در یادگیری تقویتی عمومی و افزایش توان محاسباتی در زمان اجراست. نوآم براون، یکی دیگه از پژوهشگرهای OpenAI، هم تأیید کرده که این مدل بر پایه روشهایی آزمایشی ساخته شده و هنوز جای زیادی برای ارتقاء داره.
جری توورک، پژوهشگر دیگه OpenAI، گفته که این مدل هیچ آموزش اختصاصی برای IMO ندیده و تنها روی مدل پایه عمومی شرکت آموزش بیشتری دیده. او این موفقیت رو یه «پیشرفت واقعی تحقیقاتی» توصیف کرده که توسط تیم وی انجام شده و احتمال داده که نسخهای از این مدل تا پایان سال منتشر بشه. به گفته توورک، همین سیستم یادگیری تقویتی، پشت چندتا از اعلامهای اخیر OpenAI هم بوده؛ از جمله ایجنت جدید ChatGPT و مدلی که توی یک رقابت برنامهنویسی نزدیکترین نتیجه رو به انسانها گرفته.
زمان انتشار این خبر هم قابل توجهه. چند روز قبل، پلتفرم MathArena گزارش داده بود که مدلهای زبانی معروف مثل Gemini 2.5 Pro، Grok-4، DeepSeek-R1 و حتی مدلهای o3 و o4-mini متعلق به خود OpenAI، عملکرد بسیار ضعیفی در حل مسائل IMO داشتن و حتی به آستانه مدال برنز هم نرسیدن. این مدلها در آزمونها پر از خطاهای منطقی، راهحلهای ناقص و حتی قضایای ساختگی بودن. در مقایسه با این نتایج، دستاورد OpenAI یه پاسخ مستقیم و پرقدرت به محدودیتهای فعلی مدلهای زبانیه.
OpenAI فعلاً برنامهای برای انتشار عمومی این مدل نداره و تأکید کرده که این یه پروژه تحقیقاتیه، نه یه محصول نهایی. با این حال، نوآم براون گفته که این فناوری در آینده میتونه به محصول تبدیل بشه و با توجه به سرعت پیشرفت، نسخههای بعدی حتی فراتر از این هم خواهند رفت. به گفته اون، این نتایج حتی برای کارکنان خود OpenAI هم غافلگیرکننده بوده و میتونن نقطه عطفی باشن که خیلیها انتظارش رو تا چند سال دیگه داشتن.
@aipulse24
شرکت Moonshot AI از مدل اوپن سورس جدید خودش به اسم Kimi K2 رونمایی کرده؛ یه مدل قدرتمند با ساختار Mixture-of-Experts که توی هر بار استفاده، ۳۲ میلیارد پارامتر فعال داره و در مجموع، به عدد خیرهکنندهی ۱ تریلیون پارامتر میرسه. Kimi K2 نهتنها توی تسکهایی مثل دانش عمومی، ریاضیات و برنامهنویسی عملکرد درخشانی داره، بلکه برای انجام وظایف عاملمحور (agentic tasks) هم بهینهسازی شده؛ یعنی فقط جواب نمیده، خودش میفهمه باید چی کار کنه و اجراش میکنه. Moonshot دو نسخه از این مدل رو منتشر کرده: نسخهی Base برای پژوهشگرها و توسعهدهندههایی که میخوان مدل رو به دلخواه خودشون تغییر بدن، و نسخهی Instruct که برای استفادهی آماده در تجربههای چت و اجرای وظایف طراحی شده.
یکی از ویژگیهای جالب Kimi K2 اینه که فقط به سؤالها جواب نمیده، بلکه میتونه خودش از ابزارها استفاده کنه و یه پروژه رو تا انتها ببره جلو. توی یه نمونه تحلیل داده، Kimi K2 با استفاده از ۱۶ مرحلهی کدنویسی در IPython، دادههای حقوق سالهای ۲۰۲۰ تا ۲۰۲۵ رو بررسی کرده و تأثیر «نسبت دورکاری» روی حقوق رو توی سطوح مختلف تجربهی شغلی تحلیل کرده. این مدل نهتنها تحلیل آماری انجام داده و نمودار ساخته، بلکه در نهایت یه وبسایت کامل با شبیهساز تعاملی ساخته که کاربر میتونه اطلاعات خودش رو وارد کنه و ببینه دورکاری براش خوبه یا نه.
از لحاظ فنی، Kimi K2 توی بنچمارکهای مهمی مثل LiveCodeBench، OJBench، SWE-bench و AIME، عملکرد فوقالعادهای داشته و تونسته بعضی از مدلهای بزرگ دیگه مثل GPT-4، Claude 4 و Gemini 2.5 رو پشت سر بذاره یا باهاشون رقابت کنه. این مدل بهویژه توی وظایف عاملمحور، عملکردی داره که باعث شده توی دستهی non-thinking models به یکی از بهترینها تبدیل بشه.
Kimi K2 با یه بهینهساز جدید به اسم MuonClip آموزش دیده؛ نسخهی پیشرفتهتر Muon که از تکنیکی به اسم qk-clip استفاده میکنه تا مشکل ناپایداری آموزش رو حل کنه. این مدل با بیش از ۱۵.۵ تریلیون توکن آموزش دیده و تیم Moonshot برای افزایش هوشمندی مدل، از دادهسازی وسیع عاملمحور و یادگیری تقویتی عمومی استفاده کرده. این یادگیری باعث شده مدل بتونه حتی برای کارهایی که معیار مشخصی ندارن (مثل نوشتن گزارش یا مدیریت ابزارها) هم تصمیمگیری کنه.
Kimi K2 از امروز روی وبسایت kimi.com در دسترس عموم قرار گرفته و کاربران میتونن بهصورت رایگان ازش استفاده کنن. نسخهی API هم ارائه شده که با استانداردهای OpenAI و Anthropic سازگاره و برای ساخت اپهای عاملمحور قابل استفادهست. هنوز ورودی تصویری به این مدل اضافه نشده و گاهی ممکنه توی تسکهای پیچیده خروجی ناقص بده، ولی Moonshot وعده داده این محدودیتها توی نسخههای بعدی برطرف میشن.
@aipulse24
کاربران اشتراکهای پولی جمنای در برخی کشورها حالا میتونن با آپلود یک عکس و توصیف صحنه مد نظرشون با استفاده از مدل Veo 3 اون رو به یک ویدیوی ۸ ثانیهای تبدیل کنن.
@aipulse24
گوگل دیپمایند اعلام کرده که Isomorphic Labs، بازوی کشف داروی این شرکت، به شروع آزمایشهای انسانی داروهای طراحیشده با هوش مصنوعی خیلی نزدیک شده.
کالین مرداک، رئیس این شرکت، توی مصاحبهای گفته که الان توی دفترشون در لندن، بعضیها دارن با کمک AI دارو برای سرطان طراحی میکنن و قدم بعدی، آزمایش روی انسانه.
Isomorphic Labs سال ۲۰۲۱ از دل پروژه AlphaFold بیرون اومد؛ همون مدلی که ساختار پروتئینها رو با دقت خیلی بالا پیشبینی میکرد و بعدها تونست تعاملشون با مولکولهایی مثل DNA و داروها رو هم شبیهسازی کنه.
این شرکت تو سال ۲۰۲۴ با Novartis و Eli Lilly همکاری کرد و بعد از انتشار AlphaFold 3، حدود ۶۰۰ میلیون دلار سرمایه جذب کرد. هدفشون ساخت یه موتور طراحی داروی سطحبالاست که بتونه با ترکیب AI و تخصص داروسازی، داروها رو خیلی سریعتر، دقیقتر و ارزونتر طراحی کنه.
مرداک میگه شاید یه روزی بتونیم فقط با یه کلیک، برای هر بیماری یه داروی جدید بسازیم.
@aipulse24
بریم سراغ جدیدترین کیس عجیب و غریب سیلیکون ولی آقای سوهام پارخ!
ایشون مثل اینکه تو مدرسه درس سو و شون رو نخونده واسه همین به شلخته درو کردن اعتقادی نداره. 😭
برای همین همزمان برای 6 الی 7 تا استارتاپ درحال کار کردن هست!!!
دو روز قبل سهیل دوشی مدیرعامل شرکت playground.ai توی یک توئیت درمورد این فرد صحبت کرد.
توی توئیتش گفت که این فرد ساکن هند هست و اخیرا استارتاپ های تحت حمایت Ycombinator (یک موسسه سرمایه گذاری خطرپذیر معروف) رو هدف قرار داده.
بعد از این توئیت تمام استارتاپ های دیگه ای هم که سهیل رو فالو میکردن اومدن و گفتن که این فرد رو استخدام کردن!
نکته جالب اینه که ایشون به نظر میرسه به شدت توی مصاحبه ها خوب عمل میکنه ولی عملکرد سر کارش زیاد جالب نیست یا شایدم دلیلش اینه که داره همزمان واسه 7 تا شرکت کار میکنه!!!
اینطور که گفته میشه ایشون از حقوق های مختلف این شرکت های متفاوت سالی 800 هزار دلار درامد داره!
همچنین افراد مختلف در تویئت هاشون گفتن که ایشون مدعی هست ساکن امریکاست تا بتونه این کارهارو بگیره ولی بعد مشخص میشه که ساکن امریکا هم نیست و ساکن هنده!
خلاصه اون توئیت سهیل 20 میلیون ویو گرفت و این خبر بسیار وایرال شد و درنتیجه سوهام سوژه یه عالمه میم و توئیت های دیگه شد
لیست یه سری از استارتاپ هایی که مشخص شده توی مصاحبه شون موفق بوده و تونسته استخدام بشه: (نصف سیلیکون ولی عه😃😃):
1. Playground AI
2. Dynamo AI
3. Union AI
4. Synthesia
5. Antimetal
6. Composio
7. Lindy
8. Browser Use
9. Resolve AI
10. Fleet AI
23 تای دیگه هم هست که از تایپ کردنشون خسته شدم😂😂
حالا واکنش ایشون؟
هیچی خیلی ریلکس رفته توی یه پادکست و گفته واقعیت داره، همزمان واسه خودش سخنگو استخدام کرده و مثل هر فردی در سیلیکون ولی (البته به صورت مجازی چون خودش که هند هست) در تلاشه که این شهرت رو تبدیل به بیزنس و پول کنه😭😭
خلاصه که فعلا به نظر میرسه:
ASI =
❌ Artificial Superintelligence
✅ Artificial Soham Intelligence
@aipulse24
بعد از معرفی نه چندان موفق Llama 4 که باعث استعفای تعدادی از مدیرای متا شد حالا زاکربرگ راه افتاده و داره کاری رو انجام میده که بیشتر از هرچیزی بلده!
خریدن رقبا!!!
توی این ۲ ۳ هفته زاکربرگ اونقدر دانشمند از شرکت های دیگه دزدیده که سوژه یه عالمه میم شده
مبالغی که بهشون پیشنهاد داده بسیار عجیب غریب هستن مثلا به یه تعدادشون در لحظه امضا قرار داد ۱۰۰ میلیون دلار داده!!
زاکربرگ از OpenAI به تنهایی ۸ تا دانشمند جذب کرده که همگی طبق توئیت یکی از کارمندان که بعدا پاک کرد بسیار افراد تاثیر گذار و حساسی هستن و از اینکه مدیریت برای حفظ اونها هیچ کاری نکرده شاکی هست
یکی از اونها حتی خالق ایده مدل های Reasoning هست!!
این شرایط باعث شده که OpenAi مدعی بشه که کارمندانش خسته ان و کلا هفته جاری رو برای همه کارمندان توی OpenAi تعطیل کرده!
فکرکن بخوای ۱۰۰ میلیون دلار رو با ۱ هفته تعطیلی حل کنی😭
این شرایط بسیار شبیه به چیزیه که سالها قبل جف بزوس برای الکسا ایجاد کرد. یک شرکت به اسم Nuance وجود داشت درحد OpenAi فعلی که واسه Speech بود بزوس تمام دانشمنداش رو خرید و فکرکنم لازم نباشه بگم بقیه ماجرا چی شد چون کسی نمیدونه Nuance کیه ولی همه الکسا رو میشناسن.
انتظار میره حداقل تا ۲ ۳ مدل اینده همچنان OpenAi پیشرو باشه چون تاثیر این استعدادها همچنان روی محصولاتی که منتشر نشدن وجود داره ولی از بعدش بسیار ضربه بزرگی برای OpenAi هست مگر اینکه بتونه سریع استعدادهارو جایگزین کنه که البته درحال حاضر جهان به شدت با کمبود نیروی هوش مصنوعی کار درست مواجهه
حالا باید ببینیم در اینده زاکربرگ میتونه یه اینستاگرام دیگه بپا کنه یا این سری مثل قبل شانس نمیاره
@aipulse24
همچنین مدل o3-pro حالا برای تمام کاربران پلن Pro در دسترس قرار گرفته. این مدل بهبود عملکرد قابل توجهی نسبت به o3 داره.
@aipulse24
ویدیوی جالبی که تماما با مدل Veo 3 گوگل و Suno تولید شده.
@aipulse24
شرکت انتروپیک بهتازگی از سرویس جدید خودش با نام «Claude Gov» رونمایی کرده؛ محصولی که بهطور خاص برای استفاده نهادهای نظامی و اطلاعاتی ایالات متحده طراحی شده. این مدلهای هوش مصنوعی طوری آموزش دیدن که اطلاعات محرمانه رو بهتر تحلیل کنن و نسبت به نسخههای عمومی، محدودیتهای کمتری در برابر چنین دادههایی دارن. انتروپیک اعلام کرده که این مدلها همین حالا هم توسط بالاترین سطوح امنیتی آمریکا استفاده میشن، اما نگفته از کی دقیقاً این استفاده شروع شده.
Claude Gov برای کارهایی مثل تحلیل تهدیدها و پردازش اطلاعات پیچیده طراحی شده و طبق گفته شرکت، همچنان از تستهای ایمنی سختگیرانه گذر کرده. با این حال، برخلاف نسخه عمومی Claude، در مواجهه با اطلاعات طبقهبندیشده «کمتر امتناع میکنه» و همین باعث میشه مناسبتر برای عملیاتهای امنیتی باشه. این مدلها همچنین توانایی بالاتری در درک اسناد نظامی، ساختارهای اطلاعاتی، و زبانها یا گویشهایی دارن که در امنیت ملی نقش دارن.
استفاده دولتها از هوش مصنوعی همیشه با نگرانیهایی همراه بوده؛ از جمله موارد متعدد بازداشت اشتباهی در آمریکا بهخاطر تشخیص چهره، یا الگوریتمهایی که در حوزههایی مثل پیشبینی جرم تبعیضآمیز عمل کردن. انتروپیک البته در سیاست استفادهاش همچنان تأکید داره که نباید از محصولاتش برای ساخت یا توزیع سلاح، مواد خطرناک یا عملیات سایبری مخرب استفاده شه. با این حال، این شرکت از سال گذشته برای بعضی نهادهای دولتی استثناهایی در نظر گرفته که با مأموریت و قوانین اون نهادها هماهنگ باشه.
Claude Gov در واقع رقیب مستقیم ChatGPT Gov محسوب میشه؛ سرویسی که OpenAI در دیماه برای سازمانهای دولتی آمریکا راه انداخت. انتروپیک فعلاً جزئیاتی درباره میزان استفاده یا کاربردهای خاص Claude Gov ارائه نداده، اما جزو برنامه FedStart شرکت Palantir شده؛ برنامهای که به استارتاپها کمک میکنه نرمافزارهای دولتی راهاندازی کنن.
@aipulse24
گوگل نسخهی پیشنمایش جدیدی از مدل Gemini 2.5 Pro رو معرفی کرده؛ مدلی که هوشمندترین نسخهی ساختهشده تا به امروز محسوب میشه. این نسخه نسبت به مدل قبلی که در رویداد I/O و در ماه مه معرفی شده بود، ارتقا پیدا کرده و قراره طی چند هفتهی آینده به نسخهی پایدار و عمومی تبدیل بشه.
نسخهی جدید تونسته با جهش ۲۴ امتیازی در رتبهبندی Elo، جایگاه اول خودش رو در LMArena با امتیاز ۱۴۷۰ حفظ کنه و در WebDevArena هم با جهش ۳۵ امتیازی، به امتیاز ۱۴۴۳ برسه. عملکرد مدل در حل مسائل پیچیدهی برنامهنویسی مثل Aider Polyglot و آزمونهایی مثل GPQA و HLE که مهارتهای استدلالی و علمی مدلها رو میسنجن، همچنان در سطح بالایی باقی مونده.
بر اساس بازخوردهایی که از نسخهی قبلی دریافت شده بود، گوگل ساختار و سبک پاسخهای مدل رو هم بهبود داده؛ حالا پاسخها هم خلاقانهترن و هم از نظر قالببندی بهتر شدن. توسعهدهندهها میتونن از همین حالا کار با نسخهی ارتقایافتهی این مدل رو از طریق Gemini API در Google AI Studio یا Vertex AI شروع کنن. همچنین قابلیت جدیدی به اسم «بودجهی تفکر» هم اضافه شده تا بشه کنترل بیشتری روی هزینه و تاخیر داشت. این نسخه از امروز در اپلیکیشن Gemini هم در دسترس قرار گرفته.
@aipulse24
مرسی از همه مسیج هاتون دوستان😭
بوقوران اینارو تو کامنتم میشد بگید😭
(جدای از شوخی مرسی که دنبالمون میکنید😀😀)
انتروپیک تو تازهترین پروژهی تحقیقاتیاش یه روش جدید معرفی کرده که به کاربرها اجازه میده مسیر تصمیمگیری مدلهای زبانی بزرگ رو قدمبهقدم ردیابی کنن. این روش که حالا بهصورت متنباز منتشر شده، از طریق تولید «گرافهای انتسابی» (attribution graphs) کمک میکنه بفهمیم مدل دقیقاً چه مراحلی رو طی کرده تا به یه خروجی خاص برسه. حالا همه میتونن با مراجعه به Neuronpedia این گرافها رو بسازن و بهشکل تعاملی بررسیشون کنن.
هستهی این ابزار، یه کتابخونهی متنباز به اسم Circuit Tracer هست که قابلیت اجرا روی مدلهای متنباز محبوب رو داره. تو رابط گرافیکی Neuronpedia، میشه گرافها رو دید، حاشیهنویسی کرد و حتی با بقیه به اشتراک گذاشت. این ابزارها اجازه میدن محققها فرضیههایی مثل نقش یه ویژگی خاص در تصمیمگیری مدل رو تست کنن و ببینن تغییر اون ویژگی چه اثری روی خروجی میذاره.
این پروژه توسط دو نفر از شرکتکنندههای برنامهی Anthropic Fellows با همکاری Decode Research توسعه داده شده. ابزار منتشرشده پیشتر برای تحلیل رفتارهایی مثل استدلال چندمرحلهای و بازنماییهای چندزبانه تو مدلهایی مثل Gemma-2-2b و Llama-3.2-1b استفاده شده و نتایجش توی نوتبوک دمو قابل مشاهدهست.
انتروپیک امیدواره با اوپن سورس کردن این ابزارها، جامعهی گستردهتری از محققها و علاقهمندا وارد حوزهی تفسیربذیری مدلهای زبانی بشن. دریو آمودئی، مدیرعامل شرکت، گفته که سرعت پیشرفت در هوش مصنوعی از درک ما از عملکرد درونی مدلها جلو زده و تحقیق در این زمینه فوریت داره. انتروپیک از همه دعوت کرده با استفاده از این ابزارها، مدارهای جالبتری پیدا کنن یا خودشون ابزارها رو توسعه بدن.
@aipulse24
با این ابزار گوگل میتونید مدلها رو بهصورت آفلاین روی سختافزار گوشیتون اجرا کنید!
اپ آزمایشی Google AI Edge Gallery به شما این امکان رو میده که مدلهای هوش مصنوعی مولد (GenAI) رو مستقیماً روی گوشی اندرویدیتون (و بهزودی روی iOS) اجرا کنید، اونم بدون نیاز به اینترنت. از چت با مدلها گرفته تا پرسش با تصویر و تست انواع پرامپتها، همه چیز لوکال قابل انجامه.
یکی از قابلیتهای کلیدی این اپ، امکان انتخاب بین مدلهای مختلف از Hugging Face و مقایسهی کارکردشونه. به این صورت که هر مدلی که مد نظرتون بود فقط کافیه از HuggingFace دانلود کنید و ایمپورت کنید توی برنامه!
داخل اپلیکیشن چند بخش مختلف قرار داده شده:
با ابزار Ask Image میتونید یه تصویر آپلود کنید و دربارهش سؤال بپرسید.
بخش Prompt Lab هم برای تست پرامپتهای مختلفه و برای خلاصهسازی، بازنویسی متن یا حتی تولید کد طراحی شده.
در بخش AI Chat میتونید با مدل وارد گفتگو بشید، درست شبیه چت با نرم افزارهای هوش مصنوعی معروف مثل ChatGPT.
همهی این پردازشها بهصورت کاملاً آفلاین روی گوشی انجام میشن. حتی ابزارهایی برای بررسی عملکرد مدلها هم توی اپ هست، مثل زمان شروع پاسخ، سرعت تولید متن و تأخیر مدل.
برای شروع، فقط کافیه فایل APK رو دانلود و نصب کنید. این اپ بر پایهی فناوریهای Google AI Edge، LiteRT و LLM Inference API ساخته شده و با Hugging Face هم یکپارچهست، تا یه تجربهی کامل و مستقل از GenAI رو روی گوشی بهتون بده.
@aipulse24
دیپ مایند بالاخره به صورت رسمی کسب مدال طلای المپیاد ریاضی رو اعلام کرده.
به دنبال اون دمیس هاسابیس هم در توییتر توضیحاتی در این مورد داده، اون گفته ما روز جمعه اعلام نکردیم چون به درخواست اولیهٔ هیئت برگزاری المپیاد جهانی ریاضی (IMO) احترام گذاشتیم؛ درخواستی که گفته بود همهٔ آزمایشگاههای هوش مصنوعی نتایجشون رو فقط بعد از این منتشر کنن که نتایج رسمی توسط کارشناسان مستقل تأیید شده باشه و شرکت کنندهها تحسینی که شایستهاش بودن رو بهدرستی دریافت کرده باشن.
الان بهمون اجازه داده شده که نتایجمون رو منتشر کنیم و خوشحالیم که یکی از اولین گروه هایی بودیم که نتایج مدلهامون بهصورت رسمی توسط کارشناسان IMO ارزیابی و تأیید شده و موفق به دریافت اولین مدال طلای رسمی برای یک سیستم هوش مصنوعی شدیم.
@aipulse24
حالا توی این بحبوحه یه اتفاق جالب هم افتاده، ظاهرا گوگل حتی یک روز قبل از OpenAI مدال طلا رو گرفته ولی اعلام نکردن!
تا این لحظه هم هیچ مطلبی درموردش روی وبسایت دیپمایند یا جای دیگهای قرار ندادن.
@aipulse24
شرکت OpenAI از قابلیت جدیدی به نام «ChatGPT Agent» رونمایی کرده که میتونه بعضی از وظایف پیچیده رو بهصورت خودکار و از ابتدا تا انتها انجام بده. این ایجنت طوری طراحی شده که فقط با یه درخواست ساده از طرف کاربر، خودش همهی مراحل لازم رو انجام بده؛ مثلاً اگه ازش بخوای یه ارائه برای جلسهی کاری آماده کنه، خودش میره اطلاعات مربوط رو جمع میکنه، تحلیلشون میکنه و یه فایل پاورپوینت قابل ویرایش تحویلت میده.
این ایجنت در واقع نسخهی پیشرفتهای از ابزارهای قبلی OpenAI مثل Operator و Deep Researchه، که حالا همهی قابلیتهاشون یک جا جمع شده. ایجنت میتونه توی صفحات وب بگرده، کلیک کنه، کد اجرا کنه، به ابزارهایی مثل تقویم و جیمیل وصل بشه و حتی با APIهای مختلف ارتباط بگیره. چیزی که این ویژگی رو خاص کرده، اینه که برای انجام خیلی از این کارها دیگه نیاز به مداخلهی مستقیم کاربر نیست، فقط کافیه هدفت رو مشخص کنی.
با این حال، OpenAI برای حفظ امنیت و کنترل کاربران یهسری محدودیت هم در نظر گرفته. ایجنت قبل از انجام هر اقدام مهمی اجازه میگیره، همهی کارهاش قابل پیگیری و متوقف شدنه و فعلاً اجازهی انجام کارهای حساس مالی یا چیزهایی که خطر سوءاستفاده داشته باشه رو نداره. کاربر میتونه مسیر کارهایی که ایجنت انجام داده رو ببینه و هر لحظه جلوی اون رو بگیره.
فعلاً این قابلیت فقط برای تعداد محدودی از کاربران نسخههای Pro، Plus و Team فعال شده و قراره بهزودی در دسترس کاربرهای Enterprise و Education هم قرار بگیره. اونایی که به این ابزار دسترسی پیدا کردن، میتونن از طریق گزینهی جدیدی به اسم Agent Mode ازش استفاده کنن. وظایف انجامشده هم توی یه گزارش شفاف برای کاربر نمایش داده میشه.
واکنشها نسبت به این ابزار جدید متفاوته. خیلیها گفتن که بالاخره هوش مصنوعی داره از مرحلهی پاسخگویی صرف عبور میکنه و تبدیل به یه دستیار واقعی میشه. اما بعضیها هم گفتن ایجنت هنوز تو اجرای بعضی کارها کند یا ناپایداره و ممکنه گاهی کار رو درست نفهمه. با این حال، خود OpenAI هم تأکید کرده که این نسخهی اولیهست و توسعهاش بهتدریج ادامه پیدا میکنه.
@aipulse24
پت گلسینگر، مدیرعامل سابق اینتل، بعد از پایان دوران ۴۰ سالهاش در این شرکت، حالا وارد مسیر تازهای شده: تلاش برای اینکه مدلهای هوش مصنوعی در راستای رشد و شکوفایی انسان عمل کنن. اون با همکاری یک شرکت فعال در حوزه اعتمادسازی مدل های هوش مصنوعی به نام Gloo، که حدود ده سال پیش توش سرمایهگذاری کرده بود، یک معیار جدید معرفی کرده به اسم Flourishing AI (FAI)؛ معیاری برای سنجش میزان همراستایی (alignment) مدلهای زبانی با ارزشها و مفاهیم انسانی.
این معیار بر اساس یک پژوهش جهانی به اسم Global Flourishing Study ساخته شده که توسط دانشگاههای هاروارد و بایلر هدایت میشه و تمرکزش روی اندازهگیری سطح رفاه انسانی (human well-being) در نقاط مختلف دنیاست.
شرکت Gloo از دل این مطالعه شش شاخص اصلی انتخاب کرده:
۱- «منش و فضیلت» (Character and Virtue)
۲- «روابط اجتماعی نزدیک» (Close Social Relationships)
۳- «شادکامی و رضایت از زندگی» (Happiness and Life Satisfaction)
۴-«معنا و هدف» (Meaning and Purpose)
۵- «سلامت روانی و جسمی» (Mental and Physical Health)
۶- «ثبات مالی و مادی» (Financial and Material Stability)
بعد هم خودش یک شاخص دیگه بهش اضافه کرده: «ایمان و معنویت» (Faith and Spirituality) تا ببینه مدلهای زبانی بزرگ در هرکدوم از این حوزهها چه عملکردی دارن.
گلسینگر در گفتوگویی با The New Stack گفته که همیشه ارتباط میان تکنولوژی و باورهای اعتقادی برایش جذاب بوده و حالا با راهاندازی FAI میخواد به این سوال پاسخ بده که آیا مدلهای هوش مصنوعی میتونن در خدمت رشد واقعی انسانها قرار بگیرن یا نه. این حرکت، بخشی از جریان روبهرشدیـه که میخواد مطمئن بشه هوش مصنوعی فقط قوی و سریع نیست، بلکه «همراستا با انسان» هم هست.
@aipulse24
ایلان ماسک چهارشنبه شب از مدل جدید هوش مصنوعی شرکت xAI با نام Grok 4 رونمایی کرد؛ مدلی پیشرفته که با هدف رقابت با ChatGPT و Gemini طراحی شده.
xAI همزمان اشتراک ماهانهی جدیدی با عنوان SuperGrok Heavy معرفی کرده که ۳۰۰ دلار قیمت داره و فعلاً گرونترین پلن بین همهی شرکتهای هوش مصنوعیه. Grok که حالا به طور عمیقتری با شبکهی اجتماعی X (توئیتر سابق) ادغام شده، قابلیت تحلیل تصویر و پاسخ به سوالات مختلف رو داره.
مدل جدید در دو نسخه منتشر شده: Grok 4 و نسخهی قویترش Grok 4 Heavy که عملکرد چندعامله داره. بهگفتهی ماسک، این نسخه مثل یه گروه مطالعه عمل میکنه و چند مدل بهصورت موازی روی یه مسئله کار میکنن و در نهایت بهترین پاسخ رو ارائه میدن. بنچمارکها نشون میدن که Grok 4 توی آزمون Humanity’s Last Exam امتیاز ۲۵.۴ درصد گرفته که از مدلهای رقیب مثل Gemini 2.5 Pro و o3 بهتره، و نسخه Heavy این مدل با ابزار تونسته به امتیاز ۴۴.۴ درصد برسه.
اما معرفی Grok 4 در شرایطی انجام شد که شرکت با یه بحران بزرگ روبهرو بوده. چند روز پیش، اکانت رسمی Grok توی X با انتشار پستهایی یهودستیزانه و تحسینآمیز نسبت به هیتلر جنجالی شد. این اتفاق باعث شد xAI اون بخش از دستورالعمل مدل رو که بهش اجازهی اظهارنظرهای "غیرسیاسیکارانه" میداد حذف کنه. با این حال، توی مراسم معرفی، ماسک و مدیرای شرکت دربارهی این حواشی سکوت کردن و تمرکز رو گذاشتن روی قدرت فنی مدل جدید.
xAI گفته که بهزودی Grok 4 رو از طریق API در اختیار توسعهدهندهها میذاره و در ماههای آینده قراره چند محصول دیگه مثل مدل کدنویسی (آگوست)، عامل چندحالته (سپتامبر) و مدل تولید ویدیو (اکتبر) هم معرفی بشن. هرچند عملکرد Grok روی کاغذ چشمگیره، اما اینکه آیا شرکتها حاضرن با وجود این حواشی ازش استفاده کنن یا نه، هنوز مشخص نیست.
@aipulse24
گوگل دیپمایند از مدل هوش مصنوعی جدیدی به نام AlphaGenome پرده برداشته که میتونه نحوه عملکرد و تأثیر جهشهای ژنتیکی رو با دقت بیسابقهای پیشبینی کنه. این مدل، قدم بزرگی در مسیر رمزگشایی از نحوه خوانده شدن دستورات ژنتیکی سلولهاست؛ یعنی همون دستورالعملهایی که بدن رو شکل میدن، رشد میدن یا حتی باعث بیماری میشن.
AlphaGenome برخلاف مدلهای قبلی، میتونه تا یک میلیون حرف DNA رو بهصورت همزمان پردازش کنه و هزاران ویژگی مولکولی رو برای هر توالی پیشبینی کنه. این یعنی پژوهشگران دیگه لازم نیست برای بررسی هر ویژگی ژنتیکی از یک مدل جداگانه استفاده کنن. با یه API ساده، میتونن تأثیر جهشهای ژنتیکی رو روی فرآیندهای مختلف مثل شروع یا پایان ژنها، میزان RNA تولیدشده یا محل اتصال پروتئینها بررسی کنن.
این مدل بر پایه معماری Enformer ساخته شده و نسبت به اون، دقت و کارایی بیشتری داره. یکی از ویژگیهای برجستهی AlphaGenome، توانایی پیشبینی دقیق جهشهایییه که باعث بیماریهای نادر میشن؛ مثل جهشهایی که روی فرآیند splice شدن RNA تأثیر میذارن. این نوع تحلیل تا حالا با هیچ مدل دیگهای ممکن نبوده.
در آزمایشهای مختلف، AlphaGenome تونسته در ۲۲ مورد از ۲۴ معیار پیشبینی توالی DNA، بهترین عملکرد رو در مقایسه با مدلهای موجود داشته باشه. این موفقیت، اون رو به یک ابزار عمومی قدرتمند تبدیل میکنه که میتونه در تحقیقات بنیادی، زیستفناوری و بررسی بیماریها مثل سرطان و اختلالات نادر ژنتیکی نقش بزرگی داشته باشه.
گرچه AlphaGenome هنوز محدودیتهایی هم داره، مثل پیشبینی دقیق اثر عناصر تنظیمکنندهی خیلی دور در توالی DNA؛ اما DeepMind قول داده که مدل رو بهبود بده و با جامعه علمی تعامل داشته باشه. این مدل در حال حاضر بهصورت پیشنمایش و فقط برای اهداف غیرتجاری از طریق API قابل استفادهست.
گوگل میگه این مدل میتونه نقش مهمی در توسعه درمانهای جدید، طراحی DNA مصنوعی هدفمند و درک عمیق از عملکرد ژن ها داشته باشه.
@aipulse24
کلودفلر از قابلیتی تازه به نام Pay Per Crawl رونمایی کرده که به صاحبان محتوا اجازه میده تا در ازای دسترسی خزندههای هوش مصنوعی به محتوای خودشون، پول دریافت کنن. این قابلیت که فعلاً بهصورت آزمایشی و خصوصی در دسترس قرار گرفته، یه راهحل میانبر برای مسئلهایه که مدتهاست ناشران و تولیدکنندگان محتوا باهاش درگیرن: یا باید همهچیز رو رایگان در اختیار مدلهای هوش مصنوعی بذارن، یا کامل جلوی دسترسی اونها رو ببندن.
ایدهی کلیدی اینه که دیگه لازم نباشه همهچیز صفر و یکی باشه. اگه یه خزنده بخواد محتوایی رو ایندکس کنه، میتونه درخواستش رو با هدر مخصوص و اعلام آمادگی برای پرداخت بفرسته و اگه قیمت از طرف ناشر مشخص شده باشه، با پرداخت اون مبلغ به محتوا دسترسی پیدا میکنه. اگرم پرداختی صورت نگیره، سرور یه پاسخ HTTP 402 (که قبلاً تقریباً هیچوقت استفاده نمیشد) برمیگردونه و خزنده از قیمت مطلع میشه. کلودفلر توی این فرآیند نقش واسط مالی رو هم بازی میکنه.
ناشرها اختیار کامل دارن که برای هر خزنده تصمیم بگیرن: اجازهی رایگان بدن، هزینه دریافت کنن یا دسترسی رو بهطور کامل ببندن. حتی اگه خزندهای حسابی توی کلودفلر نداشته باشه، باز هم میشه بهصورت مشروط ازش پول خواست، که این عملاً مثل بلاک کردنه اما با امکان مذاکرهی آینده. همچنین امکان تعریف قیمت ثابت برای کل سایت، یا اعمال استثنا برای بعضی خزندهها هم وجود داره.
کلودفلر میگه این فقط قدم اوله. در آینده، این مدل میتونه به زیرساختی برای «دیوار پرداختی عاملمحور» تبدیل بشه؛ جایی که مثلاً یه دستیار هوشمند بتونه برای پیدا کردن بهترین منابع درباره سرطان یا تحلیل یه قرارداد حقوقی، خودش بهصورت خودکار بودجه خرج کنه و بهترین نتایج رو بخره. این یعنی یه گام مهم به سمت اینترنتی که توش محتوا، ارزشگذاری و کنترل دست تولیدکنندههاست، نه خزندههای بینام و نشان.
@aipulse24
استارتاپ Midjourney که با مدلهای تولید تصویر مبتنی بر هوش مصنوعی شناخته میشه، بهتازگی از مدل تولید ویدئوی خودش به نام V1 رونمایی کرده. این مدل میتونه از یک تصویر ثابت (چه تصویر آپلودی، چه تصویر تولیدشده توسط مدلهای قبلی Midjourney) چهار ویدئوی پنجثانیهای تولید کنه و کاربران میتونن این ویدئوها رو تا چهار بار، هر بار بهمدت چهار ثانیه، طولانیتر کنن. در نتیجه، حداکثر طول ویدئویی که با V1 ساخته میشه میتونه به ۲۱ ثانیه برسه. این ویدئوها در حال حاضر فقط از طریق پلتفرم دیسکورد و در نسخهی وب در دسترس قرار دارن.
V1 بهگونهای طراحی شده که استفاده ازش هم ساده باشه و هم قابلیتهای فنی متنوعی در اختیار کاربران بذاره. از جمله تنظیماتی که در این مدل در نظر گرفته شده میشه به حالت «انیمیشن خودکار» اشاره کرد که تصویر ورودی رو بهصورت تصادفی و بدون دخالت کاربر به حرکت درمیاره. برای کاربران حرفهایتر، حالت «انیمیشن دستی» فراهم شده که در اون میتونن بهصورت متنی توضیح بدن که چه نوع حرکتی مدنظرشونه — مثل چرخش دوربین، حرکت کاراکتر یا تغییرات پسزمینه. همچنین گزینههایی برای میزان تحرک صحنه در نظر گرفته شده: از «low motion» برای حرکات آرام گرفته تا «high motion» برای صحنههای پویاتر.
از نظر هزینه، مدل V1 نسبت به مدلهای تصویری Midjourney پرمصرفتره. طبق اعلام شرکت، تولید یک ویدئو تا ۸ برابر بیشتر از یک تصویر از سهمیهی ماهانهی کاربران مصرف میکنه. اشتراک پایه برای استفاده از V1 از ۱۰ دلار در ماه شروع میشه، درحالیکه مشترکین پلن Pro (با قیمت ۶۰ دلار) و Mega (۱۲۰ دلار) امکان تولید نامحدود ویدئو در حالت Relax (حالت غیرسریع) رو دارن. البته Midjourney اعلام کرده که طی ماه آینده، سیاست قیمتگذاری برای مدلهای ویدئویی خودش رو بازبینی خواهد کرد.
از نظر جلوههای بصری، ویدئوهای تولیدشده توسط V1 در نگاه اول بیشتر «سورئال» و خیالگونه بهنظر میرسن تا واقعگرایانه؛ ویژگیای که پیشتر هم در مدلهای تصویری Midjourney دیده شده بود. با وجود اینکه این سبک ممکنه برای برخی از کاربران مناسب نباشه، اما در میان هنرمندان و خلاقان بازخورد مثبتی دریافت کرده. با این حال، هنوز مشخص نیست که V1 در عمل تا چه حد میتونه با مدلهایی مثل Veo 3 از گوگل یا Gen-4 از Runway رقابت کنه، مخصوصاً در زمینه کیفیت، پایداری تصویر و کنترلپذیری دقیق صحنه.
درنهایت، Midjourney با مدل V1 نشون داده که همچنان میخواد مرزهای خلاقیت بصری در دنیای هوش مصنوعی رو جابهجا کنه — حتی در شرایطی که از سوی نهادهای حقوقی و استودیوهای بزرگ فیلمسازی به چالش کشیده میشه. مسیر بعدی این شرکت، طبق وعدهها، توسعهی مدلهایی برای تولید رندرهای سهبعدی و شبیهسازیهای بلادرنگ خواهد بود؛ هدفی جاهطلبانه که میتونه آیندهی طراحی و داستانسرایی بصری رو متحول کنه.
@aipulse24
شرکت OpenAI قیمت API مدل o3 رو ۸۰٪ کاهش داده و این مدل حالا ۲ دلار برای هر یک میلیون توکن ورودی و ۸ دلار برای توکن خروجی هزینه خواهد داشت.
همچنین از مدل o3-pro هم در API رونمایی کرده که ۲۰ دلار برای هر یک میلیون توکن ورودی و ۸۰ دلار برای توکن خروجی هزینه داره ولی با این حال همچنان ۸۷٪ از مدل o1-pro ارزون تره.
@aipulse24
۱. Tokenization (توکنیزه کردن)
توکنیزه کردن یعنی شکستن متن به واحدهای کوچکتر به نام «توکن». این توکنها میتونن کلمات، بخشهایی از کلمات یا حتی کاراکترها باشن. مدلهای زبانی برای اینکه بتونن با متن کار کنن، باید اول متن رو به توکن تبدیل کنن.
مثلاً جملهی "من عاشق هوش مصنوعی هستم" ممکنه به توکنهای ["من", "عاشق", "هوش", "مصنوعی", "هستم"] شکسته بشه. اما در مدلهای مثل GPT، که از «byte pair encoding» استفاده میکنن، ممکنه حتی کلمات هم به قطعات کوچکتر تقسیم بشن. این مرحله خیلی مهمه چون ورودی مدل فقط میتونه توکنها رو بفهمه، نه متن طبیعی رو.
۲. Embedding
بعد از توکنیزه کردن، نوبت به «Embedding» میرسه. چون مدلها فقط با اعداد کار میکنن، هر توکن باید به یه عدد یا بردار (لیستی از اعداد) تبدیل بشه. این بردارها به مدل کمک میکنن معنی کلمات رو بهتر درک کنه.
مثلاً کلمات "پادشاه" و "ملکه" ممکنه بردارهایی داشته باشن که در فضای عددی به هم نزدیک باشن، چون از نظر معنایی شبیهان. این مرحله باعث میشه مدل بتونه «معنا» رو به شکلی قابل پردازش درک کنه.
۳. Self-Attention (توجه به خود)
Self-Attention یکی از خلاقانهترین ایدهها در مدلهای زبانیه. این مکانیزم کمک میکنه مدل تصمیم بگیره به کدوم قسمتهای جمله بیشتر توجه کنه.
مثلاً در جملهی "کتابی که دیروز خریدم عالی بود"، مدل باید بفهمه که "عالی بود" مربوط به "کتاب"ه، نه "دیروز". Self-attention این وابستگیها رو مشخص میکنه. به همین دلیل مدلهایی که از این روش استفاده میکنن (مثل BERT و GPT)، درک عمیقتری از ساختار زبان دارن.
۴. Transformer
ترنسفورمر یه معماری جدید و انقلابی در یادگیری زبان طبیعیه که از مکانیزم attention برای پردازش توالیها استفاده میکنه. برخلاف مدلهای قدیمیتر مثل RNN، این مدلها میتونن همزمان تمام کلمات یک جمله رو ببینن و سریعتر و دقیقتر کار کنن.
GPT، BERT، T5، LLaMA، همه بر پایهی ترنسفورمر ساخته شدن. مثلا GPT یه ترنسفورمر «سمت چپنگره» که فقط به کلمات قبلی نگاه میکنه و کلمه بعدی رو حدس میزنه.
۵. Pretraining و Fine-tuning
مدلهای زبانی مثل GPT اول در مرحلهای به اسم Pretraining روی مقدار زیادی متن عمومی آموزش میبینن (مثل کتاب، مقاله، سایتها). این مرحله کمک میکنه زبان رو یاد بگیرن، بدون اینکه وظیفه خاصی داشته باشن.
بعداً در مرحلهی Fine-tuning، مدل برای انجام یه کار خاص آموزش داده میشه؛ مثل خلاصهسازی، ترجمه یا پاسخ دادن به سوالها. این دو مرحله باعث میشن مدل هم «دانش عمومی» داشته باشه، هم توی کار خاصی بهتر از معمول عمل کنه.
۶. Prompting و Instruction Tuning
Prompting یعنی طراحی یک ورودی مناسب برای مدل تا کاری رو انجام بده. مثلاً وقتی به مدل میگی: «لطفاً این متن رو خلاصه کن»، این یه prompt محسوب میشه.
اما Instruction tuning مرحلهایه که طی اون مدل یاد میگیره چطور به دستورات مختلف پاسخ بده. این همون چیزیه که باعث شده ChatGPT یا Claude بتونن با زبان طبیعی باهات صحبت کنن.
۷. Distillation (تقطیر دانش)
Distillation یه تکنیکه برای اینکه یه مدل بزرگ و سنگین (Teacher) رو تبدیل کنیم به یه مدل کوچکتر و سریعتر (Student) بدون اینکه خیلی از دقتش کم بشه.
مثلاً GPT-4o ممکنه خیلی دقیق باشه ولی مدل گرونیه. با Distillation میتونیم یه نسخه سبکتر مثل GPT-4o mini تولید کنیم که روی موبایل یا مرورگر اجرا بشه.
به طور خلاصه این تکنیک اینطوری کار میکنه که مدل کوچکتر شروع میکنه به سوال پرسیدن از مدل اصلی و طی این فرآیند پاسخ هارو یاد میگیره.
۸. Fine-Tuning و LoRA
در Fine-Tuning سنتی، تمام پارامترهای مدل دوباره آموزش داده میشن، که منابع زیادی لازم داره.
اما LoRA یه روش سبکتره که فقط چند لایه کوچک به مدل اضافه میکنه و همونها آموزش میبینن. بهجای دستکاری کل مدل، فقط تنظیمات اضافه رو تغییر میدیم. این باعث میشه مدل سریعتر و با مصرف کمتر منابع برای کار خاصی بهینه بشه.
۹. Sampling, Top-k و Top-p (برای تولید متن)
وقتی مدل میخواد متن تولید کنه، از بین کلمههای ممکن، باید یه انتخاب انجام بده.
Greedy Sampling همیشه بهترین گزینه رو انتخاب میکنه ولی ممکنه جواب تکراری بشه.
Top-k فقط بین k تا از بهترین گزینهها انتخاب میکنه.
Top-p بین گزینههایی انتخاب میکنه که جمع احتمالشون به p درصد میرسه.
این تنظیمات روی سبک نوشتن مدل تأثیر زیادی دارن؛ مثلاً توی خلاقیت یا دقت متن.
#آموزشی
@aipulse24
گوگل امروز از قابلیت مکالمه صوتی در خانواده مدلهای Gemini 2.5 رونمایی کرده. این مدلها حالا بهطور چشمگیری درک بهتری از لحن، لهجه، حالت گفتار، و حتی نجوا و خنده پیدا کردن. این یعنی شما میتونین ازش بخواین که با لحن خاصی حرف بزنه یا حتی لهجه خاصی رو تقلید کنه. مدل در حین مکالمه میتونه به ابزارهای خارجی یا اطلاعات لحظهای مثل نتایج جستوجوی گوگل دسترسی پیدا کنه و حتی صداهای مزاحم اطراف رو فیلتر کنه تا فقط وقتی که واقعاً لازمه، وارد گفتوگو بشه.
در بخش تبدیل متن به گفتار (TTS) هم Gemini 2.5 پیشرفت قابلتوجهی داشته. حالا نهتنها صدایی طبیعی تولید میکنه، بلکه میتونه بر اساس فرمانهای متنی، سبک اجرا، سرعت، احساسات و حتی شخصیت صوتی گوینده رو کنترل کنه. مثلاً میتونین ازش بخواین یه خبر رو با لحن جدی بخونه یا داستانی رو با شور و هیجان روایت کنه. این مدل حتی قادره چند صدای مختلف رو همزمان در یک مکالمه تولید کنه، که برای تولید محتوا مثل پادکست یا ویدیوهای آموزشی یه ابزار قدرتمند محسوب میشه.
پشتیبانی از بیش از ۲۴ زبان مختلف (از جمله فارسی) هم به Gemini 2.5 اجازه میده بهراحتی بین زبانها جابهجا بشه یا حتی دو زبان رو توی یک جمله ترکیب کنه. این مدل همچنین میتونه به لحن کاربر گوش بده و بر اساس احساساتی که در صدا هست، نوع پاسخ خودش رو تنظیم کنه. همه اینها باعث میشه تجربه مکالمه با Gemini طبیعیتر، انسانیتر و چندلایهتر از همیشه باشه.
گوگل اعلام کرده که در تمام مراحل توسعه این ویژگیهای صوتی، ارزیابیهای دقیق ایمنی و اخلاقی انجام داده. تمام خروجیهای صوتی این مدلها با ابزار SynthID علامتگذاری میشن تا قابل شناسایی باشن و از سواستفاده جلوگیری بشه. این قابلیتها هماکنون در Google AI Studio (بخش استریم) و Vertex AI در دسترس توسعهدهندهها قرار دارن و میتونن برای ساخت اپلیکیشنهای صوتی، داستانگو، آموزشی، یا حتی بازیهای صوتمحور ازشون استفاده کنن.
پ.ن: وقتی گفتیم «سلام»، شروع کرد اردو حرف زدن! نتیجه این شد که تصمیم گرفتیم بگیم: «درود بر شما!» :)))
در بالا ویدیویی از مکالمه فارسی با این مدل رو قرار دادیم.
@aipulse24
ردیت رسماً از شرکت انتروپیک شکایت کرده و مدعی شده که این استارتاپ هوش مصنوعی، بدون داشتن مجوز قانونی، دادههای ردیت رو برای آموزش مدلهای خودش استفاده کرده. این شکایت در دادگاهی در شمال کالیفرنیا ثبت شده و ردیت میگه استفاده تجاری از محتوای پلتفرمش بدون مجوز، نقض توافقنامه کاربران محسوب میشه. این اولین باره که یک شرکت بزرگ فناوری، خودش مستقیماً علیه یک ارائهدهنده مدل هوش مصنوعی بابت استفاده از دادهها اقدام قضایی کرده.
ردیت در این پرونده، خودش رو در کنار رسانههایی مثل نیویورک تایمز قرار داده که قبلاً از شرکتهایی مثل OpenAI و مایکروسافت بابت استفاده بدون مجوز از محتوای خبریشون شکایت کرده بودن. همچنین هنرمندان، نویسندهها و ناشرهای موسیقی هم شکایتهای مشابهی علیه شرکتهایی که مدلهای مولد صوتی، تصویری و متنی میسازن، تنظیم کردن. ردیت با لحنی تند اعلام کرده که اجازه نمیده شرکتهایی مثل آنتروپیک بدون هیچ بازگشتی برای کاربران ردیت، محتوای ردیت رو به میلیاردها دلار سود تبدیل کنن.
نکته جالب اینه که ردیت با برخی شرکتهای دیگه مثل OpenAI و گوگل قرارداد رسمی امضا کرده که به اونها اجازه میده از محتوای ردیت در آموزش مدلهاشون استفاده کنن؛ البته تحت شرایط خاصی که شامل رعایت حریم خصوصی کاربران هم میشه. سم آلتمن، مدیرعامل OpenAI، خودش سومین سهامدار بزرگ ردیت محسوب میشه و قبلاً هم عضو هیئتمدیرهی این شرکت بوده.
در این شکایت، ردیت گفته که به آنتروپیک اطلاع داده استفاده از محتوای ردیت براشون مجاز نیست، اما آنتروپیک حاضر به مذاکره نشده. ردیت ادعا میکنه که حتی بعد از اینکه آنتروپیک گفته جلوی Crawlerهاش رو گرفته، رباتهاش بیش از صد هزار بار دیگه هم سایت ردیت رو اسکریپ کردن. حالا ردیت درخواست غرامت و ممنوعیت استفادهی بیشتر از محتوای ردیت توسط آنتروپیک رو مطرح کرده. آنتروپیک اما ادعاهای ردیت رو رد کرده و گفته از خودش به شدت دفاع خواهد کرد.
@aipulse24
۱. پیشبینی (Inference)
Inference یعنی وقتی مدل آموزش دیده، ازش استفاده کنیم تا روی دادههای جدید پیشبینی انجام بده. این بخش همون استفاده عملی از مدله. مثلاً وقتی یه عکس جدید به یه مدل تشخیص چهره میدی، مدل از چیزهایی که یاد گرفته استفاده میکنه تا بگه "این آدم فلانیه" یا "نمیشناسمش". توی برنامههایی مثل Google Photos یا Face ID گوشی، هر بار که یه عکس جدید بررسی میشه، مرحله inference در حال انجامه.
۲. بیشبرازش (Overfitting)
بیشبرازش زمانی اتفاق میافته که مدل خیلی دقیق دادههای آموزش رو یاد بگیره، حتی خطاها یا استثناهای اونها رو، طوری که وقتی با دادهی جدید روبهرو میشه، عملکرد خوبی نداره. مثلاً اگه یه دانشآموز فقط جواب سوالهای امتحان پارسال رو حفظ کنه، ولی نتونه سوالهای جدید رو حل کنه، اون دچار overfitting شده! مدل خوب مدلیه که علاوه بر یاد گرفتن دادهها، بتونه ازشون تعمیم بده و روی دادههای جدید هم خوب عمل کنه.
۳. کمبرازش (Underfitting)
کمبرازش زمانی پیش میاد که مدل حتی نتونه الگوهای ساده موجود در دادهها رو هم یاد بگیره. این معمولاً وقتی اتفاق میافته که مدل خیلی سادهست یا آموزش کافی ندیده. مثلاً فرض کن میخوای قیمت خونه رو پیشبینی کنی ولی فقط از متراژ استفاده کنی و بقیه عوامل مثل موقعیت، سن بنا یا تعداد اتاق رو نادیده بگیری. مدلی که با این اطلاعات ناقص آموزش دیده باشه، خیلی خطا خواهد داشت و underfitting محسوب میشه.
۴. Bias (سوگیری مدل)
Bias یعنی مدل به طور سیستماتیک اشتباه کنه یا همیشه یه جور خاصی پیشبینی کنه. این سوگیری ممکنه به خاطر دادههای نامتوازن یا اشتباه در آموزش مدل باشه. مثلاً اگه فقط عکسهای گربه خاکستری به یه مدل نشون بدی، ممکنه فکر کنه همه گربهها خاکستریان و اگه یه گربه سیاه ببینه، بگه این گربه نیست! سوگیریها توی مدلهای واقعی میتونن تبعات مهمی داشته باشن.
۵. Variance (واریانس یا نوسان عملکرد)
Variance یعنی مدل نسبت به دادههای جدید حساس باشه و خروجیهاش زیاد بالا پایین بشن. مدلهایی که واریانس بالا دارن، معمولاً روی دادههای آموزش خوبن ولی روی دادههای جدید عملکرد ثابتی ندارن. فرض کن یه مدل خیلی پیچیده داری که برای هر نمونه آموزش یه جواب متفاوت و دقیق تولید میکنه، اما روی دادههای جدید گیج میشه. این مدل نیاز به کنترل پیچیدگی یا افزایش داده داره تا باثباتتر عمل کنه.
۶. Loss Function (تابع خطا)
تابع خطا یا Loss Function یه معیاره که به مدل نشون میده چقدر اشتباه کرده. مدل سعی میکنه مقدار این خطا رو در طول آموزش کم کنه. این تابع مثل یه راهنماست که کمک میکنه بفهمیم وزنها یا پارامترهای مدل رو باید چطوری تغییر بدیم. مثلاً توی یه مدل پیشبینی قیمت، اگه مدل بگه قیمت یه خونه ۱ میلیارد تومنه ولی در واقع ۸۰۰ میلیونه، تابع خطا اختلاف بین این دو عدد رو اندازه میگیره و کمک میکنه مدل خودش رو اصلاح کنه.
#آموزشی
@aipulse24
دمیس حسابیس گفته رسیدن به هوش عمومی مصنوعی (AGI) هم به پیشرفتهای تدریجی مثل بزرگ کردن مدلها و آموزش اولیه نیاز داره، هم به جهشهای کاملاً جدید و نوآورانه.
بهگفتهی اون، دیپمایند داره روی هر دو مسیر کار میکنه: از یه طرف با قدرت داره مقیاس مدلها رو افزایش میده، و از طرف دیگه دنبال تحقیقات آزمایشیه که میتونه به پیشرفتهای اساسی منجر بشه.
بنابراین فقط با بزرگ کردن مدل ها نمیشه به AGI دست پیدا کرد.
@aipulse24
شرکت Together.AI یک ورکشاپ انلاین رایگان به زودی برگزار خواهد کرد.
توی این ورکشاپ نحوه ساخت یک ایجنت کدنویسی از صفر اموزش داده میشه
این ورکشاپ رایگان هست و هرکسی میتونه شرکت کنه و اگر اون زمان هم امکان حضور رو ندارید وقتی ثبت نام کرده باشید لینک برنامه ضبط شده رو براتون ایمیل میکنن تا بعدا ببینید.
اینجا میتونید اطلاعات بیشتر درمورد این ورکشاپ به دست بیارید و ثبت نام کنید
@aipulse24