Среда, 19.11.2025
×
Индекс S&P500: упал, отжался. Впереди 7100 | Петр Пушкарев

Павел Шпидель: Китайцы выходят на арену с новой продвинутой LLM

Аа +
- -

Насколько она хороша?

Вчера Alibaba представила семейство моделей Qwen3, которое по синтетическим бенчмаркам вырываются в группу лидеров, но … не является лидером по совокупности параметров, хотя заявка очень сильная.

Интегрально, Qwen3 конкурирует с Gemini 2.5 flash по соотношению цена/качество/производительность, опережая GPT o3 и o4-mini за счет лучшей доступности, но проигрывая по результативности, если цель состоит в генерации лучшего ответа/решения.

Моделей много, но выделю флагманскую - Qwen3-235B-A22B, которая активирует 22 млрд активных параметров из 235 млрд потенциально доступных, снижая требования к вычислительным ресурсам на 85%, сохраняя качество выходных токенов.

Qwen3 построены на базе архитектуры Mixture-of-Experts (MoE). Что это за зверь? Это подход в машинном обучении, который разделяет модель на специализированные подсети («эксперты»), активируемые динамически для каждого входного запроса. Её ключевая идея - повысить эффективность и качество модели за счёт условных вычислений, когда только часть параметров задействуется для обработки конкретного входа, позволяя генерировать токены быстрее и дешевле без потери качества.

Для понимания эффективности архитектуры, Qwen3-4B (4 млрд параметров!) превосходит Qwen2.5-72B-Instruct в задачах общего понимания, а MoE-версия Qwen3-30B-A3B обходит QwQ-32B, активируя лишь 10% параметров.

Для пользователей это означает возможность развертывания локальных очень мощных и производительных моделей с ограниченными ресурсами, буквально на домашних компах.

  • Эффективность ресурсов: 235B-A22B требует на 65-70% меньше VRAM, чем Llama4 Maverick 402B.
  • Скорость вывода: 320 токенов/сек на RTX 4090 против 180 у DeepSeek-R1.
  • Точность длинного контекста: 98% на 32k контекстном окне против 75-95% у последних моделей конкурентов. Этот параметр показывает точность удержания контекстного окна, тогда как старые LLM «сыпались» при большом окне, забывая нить повествования и детали.
  • Qwen3 изначально создавалась, как думающая модель (Thinking Mode), тогда как к Qwen2.5 этот модуль прикрутили через «костыли».
  • Объём тренировочных данных увеличен в 3 раза - до 36 триллионов токенов, с акцентом на STEM-дисциплины (35% данных) и синтетические наборы для рассуждений.

•  +42% точности в математических бенчмарках (MATH, AIME25)
•  +37% эффективности в задачах программирования (LiveCodeBench)
•  Поддержку 119 языков против 32 в Qwen2.5.

В сравнении с предыдущей версией и основными конкурентами Qwen3 демонстрирует прорыв в эффективности ресурсопотребления при сохранении лидирующих позиций в математических и кодирующих задачах.

Значительно улучшены возможности в мультимодальности (обработка видео и изображений), заявлена способность поглощать видео длительностью до 1 часа с точностью до секунды, не теряя детали.

По бенчмаркам выглядит достойно, но не идеально – в группе лучших LLM, но нужно смотреть детали.

Предварительный срез позволяет судить, что сейчас Qwen3-235B-A22B на третьем месте, уступая лучшей LLM в мире – GPT o3 и рядом с ней находящиеся Gemini 2.5 Pro, но выигрывая у Grok 3, и точно впереди DeepSeek R1, которые навел фурора в январе-феврале.

Весьма достойный ответ от китайцев, ждем DeepSeek R2, который должен выйти 15-25 мая. В начале мая Илон Маск обещал представить Grok 3.5. Конкуренция обостряется.

Qwen3 уже доступен бесплатно на официальном сайте.

Telegram канал автора: https://t.me/s/spydell_finance/

В разделе «Обзор блогов» редакция представляет републикации наиболее интересных постов известных российских экономистов, публицистов, финансистов и экспертов, опубликованных на личных каналах и онлайн-ресурсах авторов. Ссылки на эти ресурсы указаны под обзором. Данные републикации не являются подготовленными специально для Finversia.

Ответственность за информацию, высказанные профессиональные и этические оценки, версии и прогнозы остается на авторах блогов.

Орфография и пунктуация авторов блогов сохранена. Перевод иноязычных блогов – авторы блога.

Заметили ошибку? Выделите её и нажмите CTRL+ENTER
все обзоры блогов »
- -
113
ПОДПИСАТЬСЯ на канал Finversia YouTube Яндекс.Дзен Telegram

обсуждение

Ваш комментарий
Вы зашли как: Гость. Войти через

Уроки двух веков Уроки двух веков Deutsche Bank Research Institute проанализировал результаты инвестиций в разных странах мира за последние 200 лет. Какие полезные выводы может извлечь из этого исследования российский инвестор? Фондовые индексы США снижаются: страхи ИИ‑пузыря давят на рынок, Home Depot тянет Dow вниз Фондовые индексы США снижаются: страхи ИИ‑пузыря давят на рынок, Home Depot тянет Dow вниз Основные фондовые индексы США снижаются в последний час торгов во вторник, продлевая серию распродаж до четырёх сессий подряд, поскольку под давление попали как высокотехнологичные фавориты во главе с Nvidia (NVDA), так и представители «старой экономики», включая Home Depot (HD). Кирилл Дианов: «Финансовый сектор стал драйвером импортозамещения» Кирилл Дианов: «Финансовый сектор стал драйвером импортозамещения» Российский финансовый сектор находится на этапе масштабной технологической перестройки ввиду регуляторных требований и ограничений на использование зарубежного программного обеспечения. Ужесточение стандартов ЦБ, в том числе приказ № 683-П, ставит перед банками и страховыми компаниями задачу не только обеспечить высокий уровень информационной безопасности, но и выстроить устойчивую ИТ-инфраструктуру на базе отечественных решений. Вместе с Кириллом Диановым, руководителем направления облачной интеграции «Онланты», обсудили тренд на импортозамещение в финсекторе и проанализировали ряд используемых решений.

Канал Finversia на YouTube

календарь эфиров Finversia-TV »

 

Новости »

Корпоративные новости »

Blocks_DefaultController:render(13)