Календарь релизов нейросетей 2025–2026: open-source, GPT, Claude, Gemini

Ежедневно обновляемый календарь выхода новых нейросетей: open-source LLM с Hugging Face и GitHub, релизы OpenAI, Anthropic, Google, Mistral. Фильтры по типу модели (текст, изображение, видео, аудио, мультимодальная) и лицензии. Графики, поиск, ссылки на модели. На странице доступно 734 моделей за период с 2025-12-05 по 2026-07-12. Свежие релизы: NeuroVFM, Vidu S1, DrugGen 2, LingBot-VA 2.0, MuScriptor, OpenCoF, SAM-MT, SensorFM, GPT-5.6 Sol, GPT-5.6 Terra, GPT-5.6 Luna, Grok 4.5.

Часто задаваемые вопросы

Как часто обновляется календарь релизов ИИ-моделей?

Ежедневно. Каждое утро автоматический агент проходит по 26 площадкам (Hugging Face, GitHub Trending, arXiv, блоги OpenAI/Anthropic/Google/Mistral и др.) и добавляет новые модели за прошедший день.

Какие типы моделей попадают в календарь?

Все: open-source с возможностью локального запуска (Apache 2.0, MIT, Llama), бесплатные облачные (free-cloud), платные с локальной установкой (enterprise on-prem) и закрытые облачные (GPT-5, Claude, Gemini, Grok).

Можно ли отфильтровать только видео или аудио модели?

Да, фильтр «Тип модели» поддерживает значения: текст, изображения, видео, аудио, мультимодальные и документы. Фильтры комбинируются с типом лицензии и поиском по названию.

Откуда берутся данные о релизах?

Из 26 публичных источников: Hugging Face Models/Papers/Blog, arXiv cs.CL, GitHub Trending, Papers with Code, новостные ресурсы (The Decoder, VentureBeat, TechCrunch, MarkTechPost), сообщества (r/LocalLLaMA, r/MachineLearning, Hacker News) и блоги вендоров (OpenAI, Anthropic, Google, Meta, Mistral, Stability, Together, Databricks, xAI, Cohere). Полный список доступен по кнопке «Источники» на странице.

🚀 Open-Source и платные ИИ-модели

Календарь релизов 2025–2026

Отслеживайте последние релизы ИИ-моделей: от бесплатных open-source до платных облачных решений.

221

Дней отслеживается

131

Дней релизов

734

Моделей

Тип модели:

Тип лицензии:

Период:

–

Поиск и отображение:

🔍

Июль

2026

📅 12.07

3 модели

NeuroVFM

нейровизуализационная foundation-модель от команды University of Michigan (публикация в Nature Medicine); vision-only self-supervised энкодер на 85.8M параметров (есть вариант 21.7M), обучен методом Vol-JEPA (расширение I-JEPA/V-JEPA на объ…

МультимодальныеOpen-Source (локально)

Vidu S1

модель интерактивной генерации видео в реальном времени от Tsinghua University и Shengshu AI; на базе диффузионных фреймворков TurboDiffusion/TurboServe…

ВидеоБесплатные (облако)

DrugGen 2

disease-aware языковая модель для поиска лекарств от Isfahan University of Medical Sciences (Иран); дообученная GPT-2 с двухэтапным обучением (SFT на 13 908 парах болезнь-мишень-препарат + оптимизация GRPO)…

ТекстOpen-Source (локально)

📅 11.07

1 модель

LingBot-VA 2.0

video-action (видео-действие) foundation-модель для универсального управления роботами-манипуляторами от Robbyant (подразделение embodied AI в составе Ant Group); causal Diffusion Transformer (диффузионный трансформер) на ~15.3B параметров…

ВидеоOpen-Source (локально)

📅 10.07

5 моделей

MuScriptor

от Kyutai и команды Mirelo; декодер-only Transformer в трёх размерах (103M / 307M / 1.4B параметров), транскрибирует многоинструментальную музыку из аудио (мел-спектрограмм) в MIDI…

АудиоOpen-Source (локально)

OpenCoF

от ByteDance Seed; видео-модель, дообученная поверх Wan2.2-I2V-A14B с MoE-архитектурой (Mixture of Experts) и блоками DiT (Diffusion Transformer, ~14B параметров), реализует Chain-of-Frame рассуждения через генерацию видео…

ВидеоOpen-Source (локально)

SAM-MT

от Fudan University; расширение Segment Anything 2 для сегментации нескольких объектов в видео в реальном времени, использует раздельный masked-attention и query-based память; держит 36+ FPS на 10 целях там, где SAM2 падает до 12.4 FPS (htt…

ВидеоOpen-Source (локально)

DrugGen 2

от Isfahan University of Medical Sciences; языковая модель на базе GPT-2, дообученная через SFT и RL-метод GRPO (Group Relative Policy Optimization), генерирует молекулы-кандидаты по онтологии болезни и последовательности белка-мишени для d…

ТекстOpen-Source (локально)

SensorFM

от Google Research; foundation-модель для носимых устройств на базе ViT-1D (одномерный Vision Transformer) с masked-autoencoder, до 110M+ параметров, обучена на 1 трлн минут сенсорных сигналов от 5 млн человек; решает 35 задач прогноза здор…

МультимодальныеБесплатные (облако)

📅 09.07

8 моделей

GPT-5.6 Sol

флагманская закрытая reasoning-модель OpenAI, старшая в трёхуровневом семействе; заточена под сложный кодинг, кибербезопасность, науку и долгие агентные задачи, набирает 80 в Artificial Analysis Coding Agent Index (выше Claude Fable 5) и 91…

ТекстПлатные (облако)

GPT-5.6 Terra

средняя сбалансированная модель OpenAI с производительностью на уровне GPT-5.5, но вдвое дешевле; универсальный «повседневный» вариант для агентов и автоматизации, поддерживает Programmatic Tool Calling (запуск JS-кода в изолированном V8)…

ТекстПлатные (облако)

GPT-5.6 Luna

самая быстрая и дешёвая модель семейства OpenAI GPT-5.6, оптимизирована под высокую пропускную способность и объёмные нагрузки; даёт 84.3% на Terminal-Bench 2.1 при минимальной цене; закрытая, доступ через API ($1/$6 за 1M токенов) (https:/…

ТекстПлатные (облако)

Grok 4.5

новая закрытая модель xAI класса Opus для кодинга и агентных задач с контекстом 500K токенов и встроенными серверными инструментами (веб-поиск, поиск по X, исполнение кода); #4 из 168 в Artificial Analysis Intelligence Index и лучший резуль…

ТекстПлатные (облако)

Muse Spark 1.1

первая платная API-модель Meta Superintelligence Labs (уход от привычной open-weights стратегии Meta); мультимодальная reasoning-модель с контекстом 1M токенов, принимает текст, изображения, видео и документы, умеет tool use, автоматизацию…

ВидеоПлатные (облако)

Nemotron-Labs-3-Puzzle-75B-A9B

открытая гибридная MoE-модель (Mixture of Experts) от NVIDIA на 75.3B параметров (9.3B активных), архитектура из чередующихся Mamba-, MoE- и attention-блоков со сжатием от Nemotron-3-Super; даёт ~2× серверной пропускной способности и держит…

ТекстOpen-Source (локально)

GPT-Live-1

новая полнодуплексная голосовая модель OpenAI, заменяющая Advanced Voice Mode; непрерывно слушает и говорит одновременно, много раз в секунду решая говорить/слушать/перебить/вызвать инструмент, для сложных запросов делегирует фоновой fronti…

АудиоПлатные (облако)

GPT-Live-1 mini

облегчённая версия полнодуплексной голосовой модели OpenAI для бесплатного тарифа ChatGPT; та же архитектура естественного живого диалога (реакции «mhmm», паузы, перебивания), глобальный роллаут на iOS, Android и ChatGPT.com; бесплатно толь…

ТекстБесплатные (облако)

📅 07.07

3 модели

Cohere Transcribe Arabic

открытая модель распознавания речи (ASR) на 2B параметров от Cohere, заточена под арабский: диалекты, арабско-английский code-switching и спец-лексика; лицензия Apache 2.0, люди предпочли её Whisper в 95.8% тестов (WER 25.87 на HF Arabic AS…

АудиоOpen-Source (локально)

Nemotron-Labs-Audex-30B-A3B (Audex)

унифицированная аудио-текстовая MoE-модель (MoE — Mixture of Experts, «смесь экспертов») от NVIDIA: 30B параметров, 3B активных, гибрид Mamba-Transformer, контекст 1M токенов; умеет ASR, перевод речи, TTS (text-to-speech), генерацию аудио и…

АудиоOpen-Source (локально)

LingBot-Vision

открытая vision-модель (самообучаемый энкодер) от Robbyant (подразделение Ant Group) для плотного пространственного восприятия роботов; семейство ViT до 1.1B параметров, обучено на 161M изображений методом masked boundary modeling; в оценке…

МультимодальныеOpen-Source (локально)

📅 06.07

4 модели

Hy3

открытая языковая MoE-модель (Mixture of Experts) от Tencent Hunyuan: 295B параметров (21B активных), контекст 256K токенов, объединяет «быстрое» и «медленное» мышление с усиленными агентными возможностями; лицензия Apache 2.0, веса выложен…

ТекстOpen-Source (локально)

Wan-Streamer v0.2

интерактивная real-time (в реальном времени) foundation-модель от Wan-AI (Alibaba): единый трансформер потоково обрабатывает текст, аудио и видео и на входе, и на выходе через block-causal attention для полнодуплексного аудио-визуального об…

ВидеоOpen-Source (локально)

GigaWorld-1

world-model (модель мира) от GigaAI: задаёт методику построения моделей мира для оценки политик роботов в embodied AI (воплощённом ИИ), выступая симулятором для тестирования действий робота без реального железа; код и материалы открыты (htt…

ТекстOpen-Source (локально)

ZCode

облачный агент для кодинга от Zhipu AI (Z.ai) на базе модели GLM-5.2 с контекстом 1M токенов: умеет читать файлы, терминал и браузер, интегрируется с Git; работает только в облаке, бесплатный 5-дневный триал до 5M токенов в день (https://zc…

ТекстБесплатные (облако)

📅 03.07

1 модель

Leanstral 1.5

открытая MoE-модель (Mixture of Experts: 119B параметров, 6B активных, 128 экспертов, контекст 256K) от Mistral AI для формальной верификации и доказательства теорем в Lean 4; решает 587/672 задач PutnamBench, полностью «сатурирует» miniF2F…

ТекстOpen-Source (локально)

📅 02.07

1 модель

diffusion-gemma-asr-small

открытая мультиязычная ASR-модель (распознавание речи) от стартапа Interfaze (Y Combinator); адаптер на ~42M параметров поверх замороженного диффузионного бэкбона DiffusionGemma-26B и энкодера Whisper-small, транскрибирует 6 языков (EN/DE/F…

АудиоOpen-Source (локально)

📅 01.07

4 модели

Claude Sonnet 5

закрытая агентная LLM от Anthropic, ставшая 1 июля моделью по умолчанию для планов Free и Pro и доступная в Max/Team/Enterprise; умеет планировать, использовать инструменты (браузер, терминал) и работать автономно, показывая 63,2% на agenti…

ТекстПлатные (облако)

ABot-M0.5

vision-language-action (VLA, «зрение-язык-действие») мировая модель действий от команды AMAP CVLab (Alibaba) для мобильных роботов-манипуляторов…

МультимодальныеOpen-Source (локально)

VideoSearch-R1

агентная модель поиска и рассуждений по видео от исследователей Korea University (группа Hyunwoo J. Kim); обучена через RL-алгоритм GRPO с «мягким» уточнением запроса в латентном пространстве вместо переписывания текста, ставит SOTA на бенч…

ВидеоOpen-Source (локально)

DART / Domain Arithmetic

метод одношаговой (one-shot) адаптации VLA-моделей к смене окружения (ракурс камеры, другой робот — с Panda на UR5e) через арифметику весов и выравнивание сингулярных подпространств; от Taewook Kang и соавторов, превосходит существующие мет…

МультимодальныеOpen-Source (локально)

Июнь

2026

📅 27.06

1 модель

DeepSeek-V4-DSpark (Pro / Flash)

открытые ускоренные чекпоинты от DeepSeek AI на базе DeepSeek-V4: MoE-архитектура (Mixture of Experts) на 1.6T параметров (49B активных) с гибридным вниманием и контекстом 1M токенов…

ТекстOpen-Source (локально)

📅 26.06

3 модели

GPT-5.6 Sol

закрытая флагманская мультимодальная модель OpenAI с новым уровнем reasoning-усилия «max» и режимом «ultra» (использует суб-агентов для сложных задач); доступ только через API в ограниченном превью (~20 организаций, по согласованию с правит…

МультимодальныеПлатные (облако)

GPT-5.6 Terra

сбалансированная закрытая модель OpenAI для повседневной работы: сопоставима по качеству с GPT-5.5, но примерно вдвое дешевле; API only, цена $2.50 / $15 за 1M токенов, старт в ограниченном превью с поэтапным расширением доступа (https://he…

ТекстПлатные (облако)

GPT-5.6 Luna

самая быстрая и дешёвая модель линейки GPT-5.6 от OpenAI, рассчитана на высокообъёмные рутинные задачи; закрытый API, цена $1 / $6 за 1M токенов вход/выход, доступна пока только избранным партнёрам превью (https://help.openai.com/en/article…

ТекстПлатные (облако)

📅 25.06

4 модели

Ornith-1.0

семейство открытых моделей для кодинга от DeepReinforce в четырёх размерах (9B и 31B dense, а также 35B и 397B на MoE-архитектуре (Mixture of Experts), ~3B активных у 35B); построено поверх Gemma 4 и Qwen 3.5, выдаёт reasoning в <think>-бло…

ТекстOpen-Source (локально)

Gemini 3.5 Flash (Computer Use)

Google встроила управление компьютером напрямую в Gemini 3.5 Flash: модель видит экран и сама работает с браузером, ПК и мобильными устройствами для автотестов и офисной автоматизации…

МультимодальныеПлатные (облако)

ViQ

визуальный токенизатор от Tencent HY Vision Team (с Tsinghua, NTU, CAS) на 1.3B параметров на базе SigLIP2-g, преобразующий изображения любого разрешения в дискретные коды с сохранением семантики и качества реконструкции…

МультимодальныеOpen-Source (локально)

Qwen-Image-Agent

агентский фреймворк для генерации изображений от Alibaba Qwen: training-free, совместим с существующими генераторами, добавляет планирование, reasoning, веб/картиночный поиск и память для multi-image и multi-turn сценариев…

ИзображенияOpen-Source (локально)

📅 23.06

4 модели

lift

открытая vision-модель на 9B параметров от Datalab для извлечения структурированного JSON из PDF и изображений по заданной JSON-схеме; использует schema-constrained decoding (декодирование с ограничением по грамматике), гарантирующее валидн…

МультимодальныеOpen-Source (локально)

OpenThoughts-Agent

открытые агентные модели на 8B и 32B параметров, дообученные от Qwen3 командой OpenThoughts (коллаборация институтов); натренированы по data-рецептам для агентных задач (исправление кода/SWE, работа с инструментами, терминал)…

ТекстOpen-Source (локально)

Mistral OCR 4

закрытая модель document intelligence от Mistral AI; распознаёт документы (PDF, DOC, PPT, OpenDocument) на 170 языках, выдаёт структурированный JSON с bounding-box, классификацией блоков и оценками уверенности для RAG и enterprise-поиска…

DocumentПлатные (локально)

Doubao 2.1 Pro

закрытая флагманская LLM от ByteDance, представленная на конференции Volcano Engine FORCE; крупное обновление с упором на кодинг, агентные сценарии и vision-language-понимание…

МультимодальныеПлатные (облако)

📅 22.06

3 модели

Sakana Fugu

оркестрационная модель от японской Sakana AI: 7B-«дирижёр», который сам маршрутизирует подзадачи по пулу фронтир-LLM через OpenAI-совместимый API; основана на работах TRINITY и Conductor (ICLR 2026)…

ТекстПлатные (облако)

Sakana Fugu Ultra

усиленный вариант того же оркестратора, настроенный на максимальную точность в сложных многошаговых задачах (кодинг, рассуждения, наука); по заявлению Sakana, сравнивается с Claude Fable 5 и Mythos, не обучая ни одной собственной фронтир-мо…

ТекстПлатные (облако)

gemma-4-12B-it-abliterix

abliterated (расцензуренная) дообученная версия Google Gemma 4 12B от автора wangzhang; dense-трансформер на 12B параметров в формате BF16 safetensors со снятым «выравниванием-отказом» для локального запуска…

ТекстOpen-Source (локально)

📅 18.06

5 моделей

Sumi

открытая диффузионная языковая модель (Diffusion LM, uniform diffusion) на 7B параметров от Tohoku University; bidirectional Transformer на 36 слоёв, обучена на 1.5T токенов по фреймворку GIDD, полностью открыты веса, чекпойнты и рецепт обу…

ИзображенияOpen-Source (локально)

PerceptionDLM

мультимодальная диффузионная языковая модель (Diffusion LM) на 9B от MSALab/PKU для одновременного описания нескольких областей изображения (image-text-to-text); генерирует подписи ко всем регионам за один проход денойзинга с ускорением до…

МультимодальныеOpen-Source (локально)

Moebius

сверхлёгкая диффузионная модель инпейнтинга изображений на 0.22B от Huazhong University of Science and Technology и VIVO AI Lab; латентный U-Net с блоками LλMI, латентность 26 мс/шаг и качество на уровне 10B-моделей (FLUX.1-Fill) при менее…

ИзображенияOpen-Source (локально)

FreeStyle

диффузионный фреймворк генерации text-to-image с раздельными референсами стиля и контента от Fudan University, построен на майнинге community LoRA; сохраняет структуру и семантику контента, перенося стиль другого изображения; открыты веса…

ИзображенияOpen-Source (локально)

S-Agent-8B

vision-language агент для пространственного рассуждения (spatial reasoning) от NTU, THU и ByteDance; VLM на 8B, дообученный из Qwen3-VL-8B на датасете S-300K, координирует иерархические 2D- и 3D-инструменты для подсчёта объектов, измерения…

ВидеоOpen-Source (локально)

📅 17.06

2 модели

MolmoMotion

открытая модель Ai2 (Allen Institute for AI) для language-guided 3D motion forecasting (предсказание 3D-траекторий точек по видеокадру и текстовой инструкции); использует Molmo 2 в качестве VLM-бэкбона, выложены веса, датасет MolmoMotion-1M…

ВидеоOpen-Source (локально)

MiniMax-M3 (технический отчёт MSA)

MiniMax опубликовал технический отчёт и inference-кёрнел архитектуры MSA (MiniMax Sparse Attention) под MIT-лицензией; натиивно мультимодальная MoE-модель на ~428B параметров (~23B активных) с 1M-контекстом, двухветвевая блочно-разреженная…

МультимодальныеOpen-Source (локально)

📅 16.06

4 модели

GLM-5.2

флагманская MoE-модель (Mixture of Experts) от Zhipu AI на 744B параметров (40B активных) с контекстом 1M токенов, ориентирована на длинные траектории кодинг-агентов; открытые веса под лицензией MIT, доступна через API ZAI/Novita/FriendliAI…

ТекстOpen-Source (локально)

Qwen-RobotManip

VLA-модель (vision-language-action) от Alibaba Qwen на бэкбоне Qwen3.5-4B для манипуляции объектами роботизированными руками; обучена на 38 100+ часах данных манипуляции, код опубликован на GitHub в составе сюиты Qwen-RobotSuite (https://qw…

МультимодальныеOpen-Source (локально)

Qwen-RobotNav

навигационная VLA-модель от Alibaba Qwen на основе Qwen3-VL (варианты 2B/4B/8B), объединяющая следование инструкциям, point/target navigation и трекинг объектов; обучена на 15.6M примеров, latency 196 мс на Unitree Go2 с Jetson Thor (https:…

МультимодальныеOpen-Source (локально)

Qwen-RobotWorld

видео-«мировая модель» от Alibaba Qwen для предсказания будущих кадров сцены до действия робота; 60-слойная двухпоточная MMDiT-архитектура с замороженным энкодером Qwen2.5-VL на 20B параметров, опубликована в составе Qwen-RobotSuite (https:…

ВидеоOpen-Source (локально)

📅 13.06

2 модели

GLM-5.2

флагманская MoE-модель (Mixture of Experts) от Zhipu AI / Z.ai на 744B параметров (40B активных) с контекстом 1M токенов; 13 июня запущена на всех платных тарифах GLM Coding Plan (Lite / Pro / Max / Team), заточена под агентское программиро…

ТекстПлатные (облако)

Count Anything

vision-модель подсчёта объектов по текстовому запросу от исследователей Tsinghua University (Mengqi Lei и соавторы); построена поверх Meta SAM3 с двумя счётчиками (Region-level Sparse Counter для крупных объектов, Pixel-level Dense Counter…

МультимодальныеOpen-Source (локально)

📅 12.06

3 модели

Kimi K2.7 Code

открытая coding-модель от Moonshot AI с MoE-архитектурой (Mixture of Experts): 1 триллион параметров всего, 32B активных, 384 эксперта, контекст 256K; заточена на длинные agentic-задачи в инженерии ПО, лицензия Modified MIT, веса на Hugging…

ТекстOpen-Source (локально)

Zamba2-VL

семейство открытых vision-language моделей от Zyphra на 1.2B / 2.7B / 7B параметров с гибридной архитектурой Mamba2 (state-space) + Transformer; снижает time-to-first-token примерно на порядок против обычных VLM, лицензия Apache 2.0 (https:…

МультимодальныеOpen-Source (локально)

Gemini-SQL2

закрытая text-to-SQL модель Google Research поверх Gemini 3.1 Pro, переводит естественный язык в исполняемые SQL-запросы; первая система, преодолевшая 80% на бенчмарке BIRD (80.04%), без fine-tuning, рассчитана на интеграцию в BigQuery (htt…

ТекстПлатные (облако)

📅 10.06

5 моделей

DiffusionGemma 26B-A4B

открытая MoE-модель (Mixture of Experts) от Google DeepMind на базе Gemma 4: 26B параметров (3.8B активных), диффузионная генерация текста параллельно вместо токен-за-токеном, контекст 256K, 140+ языков, Apache 2.0, ~1100 ток/с на H100 (htt…

ИзображенияOpen-Source (локально)

Gemini 3.5 Live Translate

закрытая мультимодальная аудио-модель Google для синхронного голосового перевода с автоопределением языка на 70+ языков, доступ через Gemini API и приложение Gemini (https://blog.google/innovation-and-ai/models-and-research/gemini-models/ge…

АудиоПлатные (облако)

text-to-image (T2I) диффузионная модель на 3B параметров от Принстона, полностью открытый рецепт (веса, код и данные публичны), обучена на 300+ контролируемых экспериментах и конкурирует с проприетарными системами при тренировке только на п…

ИзображенияOpen-Source (локально)

InternVideo3

мультимодальная видео-foundation модель от Shanghai AI Lab с архитектурой Multimodal Multi-head Latent Attention (M²LA) для длинного видео-контекста; вводит парадигму Multimodal Contextual Reasoning (MCR) и показывает SOTA на Video-MME, MLV…

ВидеоOpen-Source (локально)

DeNovoSWE-Agent

code-агент для генерации целых репозиториев из документации, fine-tuned на Qwen3-30B-A3B и Qwen3.5-35B-A3B; поднимает результат на BeyondSWE-Doc2Repo с 5.8% до 47.2%, датасет на 4818 инстансов и код открыты (https://huggingface.co/collectio…

ТекстOpen-Source (локально)

📅 09.06

5 моделей

Claude Fable 5

закрытая флагманская модель Mythos-класса от Anthropic для самых сложных задач кодинга, vision и научных исследований; доступна через Claude API и Enterprise-планы по цене $10/$50 за 1M входных/выходных токенов (https://www.anthropic.com/ne…

МультимодальныеПлатные (облако)

Claude Mythos 5

та же базовая модель, что и Fable 5, но со снятыми защитными ограничениями; доступна узкой группе кибердефендеров и инфраструктурных провайдеров через Project Glasswing, цена та же ($10/$50 за 1M токенов) (https://www.anthropic.com/news/cla…

ТекстПлатные (облако)

North Mini Code

открытая агентная coding-модель от Cohere на MoE-архитектуре (Mixture of Experts), 30B параметров (3B активных), контекст 256K и выход 64K; лицензия Apache 2.0, веса на HuggingFace, на Coding Index обгоняет Devstral Small 2 в 2.8× по throug…

ТекстOpen-Source (локально)

Gemini 3.5 Live Translate

закрытая стриминговая speech-to-speech audio-модель от Google DeepMind для синхронного перевода между 70+ языками с сохранением тона и темпа; доступна в public preview через Gemini Live API и Google AI Studio, частный preview в Google Meet…

АудиоПлатные (облако)

ABot-Earth 0.5

генеративная 3D-модель Земли от Alibaba AMap CV Lab, по одному спутниковому снимку или текстовому промту строит километровую городскую сцену в формате 3D Gaussian Splatting за ~10 минут на потребительском GPU; код открыт на GitHub, paper оп…

ТекстOpen-Source (локально)

📅 08.06

4 модели

Xiaomi MiMo-V2.5-Pro-UltraSpeed

релиз Xiaomi совместно с TileRT: триллион-параметрическая MoE-модель (Mixture of Experts) с FP4-квантизацией и DFlash speculative decoding, преодолевшая отметку 1000+ токенов/с на стандартной 8-GPU-ноде; чекпойнт FP4-DFlash открыт на Huggin…

ТекстOpen-Source (локально)

Nex-N2-Pro

агентная MoE-модель от Nex AGI на 397B параметров (17B активных) на базе Qwen3.5, мультимодальная (image-text-to-text), контекст 262K, лицензия Apache 2.0; 75.3 на Terminal-Bench 2.1 и 1585 на GDPval, конкурирует с GPT-5.5 и Claude Opus 4.7…

МультимодальныеOpen-Source (локально)

Nex-N2-Pro (free)

бесплатный облачный доступ к Nex-N2-Pro через OpenRouter с поддержкой reasoning, function calling и structured outputs, оптимизирован для кодинга, deep research и долгогоризонтных агентных задач (https://openrouter.ai/nex-agi/nex-n2-pro:fre…

ТекстБесплатные (облако)

Apple Siri (Gemini-powered)

обновлённый Siri от Apple, представленный на WWDC 2026: работает на кастомной 1.2T-параметрической модели Google Gemini в Private Cloud Compute, поддерживает on-screen awareness, persona context и Extensions (выбор ChatGPT/Gemini/Claude) (h…

ТекстПлатные (облако)

📅 05.06

5 моделей

Gemma 4 E2B QAT

открытая мультимодальная (текст/изображение/аудио) модель от Google DeepMind, 2.3B эффективных параметров, 128K контекст; квантизация Q4_0 ужимает её до 3.2 ГБ, а новый мобильный формат — до ~1 ГБ для запуска на смартфонах, лицензия Gemma (…

АудиоOpen-Source (локально)

Gemma 4 E4B QAT mobile

edge-вариант Gemma 4 на 4B параметров с мобильно-оптимизированным форматом (статические активации, channel-wise квантизация, 2-bit таргетное сжатие), занимает 5 ГБ в Q4_0 против 15 ГБ в BF16; готов к запуску через LiteRT-LM и MLX (https://h…

ТекстOpen-Source (локально)

Gemma 4 12B QAT

instruction-tuned dense-модель Google на 12B параметров с QAT-квантизацией w4a16, рассчитана на потребительские GPU; поддерживает llama.cpp, Ollama, LM Studio, vLLM, лицензия Gemma (https://huggingface.co/google/gemma-4-12B-it-qat-w4a16-ct)

ТекстOpen-Source (локально)

Gemma 4 26B-A4B QAT

MoE-архитектура (Mixture of Experts) Google DeepMind с 26B всего и 4B активных параметров на токен, QAT Q4_0 чекпойнт для эффективного локального инференса с компенсацией потерь точности на этапе обучения (https://huggingface.co/google/gemm…

ТекстOpen-Source (локально)

Gemini Enterprise Agentic RAG

закрытая enterprise-система Google Research на базе Gemini для надёжного retrieval-augmented generation в корпоративных агентах; доступ только через Gemini Enterprise Agent Platform, без открытых весов (https://research.google/blog/unlockin…

ТекстПлатные (облако)

📅 04.06

3 модели

Nemotron 3 Ultra

флагманская открытая модель NVIDIA на 550B параметров (55B активных) с гибридной MoE-архитектурой (Mixture of Experts) Mamba-Transformer, 108 слоёв и 512 экспертов; контекст 1M токенов, лицензия NVIDIA Open Model License, заточена под долго…

ТекстOpen-Source (локально)

Nemotron 3.5 Content Safety

мультимодальный классификатор безопасности от NVIDIA на 4B параметров поверх Gemma 3 4B IT с LoRA-адаптерами и контекстом 128K; оценивает текст, изображения и ответы ассистента, поддерживает 12 языков нативно и ~140 в zero-shot, лицензия NV…

МультимодальныеOpen-Source (локально)

Grok Imagine Video 1.5

закрытая image-to-video модель xAI: анимирует статичные изображения в короткие ролики до 720p с сохранением освещения и деталей; управляется текстовыми промтами для камеры и темпа, доступна только в preview через xAI API (https://x.ai/news/…

ВидеоПлатные (облако)

📅 03.06

4 модели

Gemma 4 12B

открытая мультимодальная модель Google DeepMind на 12B параметров без визуального энкодера, нативно обрабатывает текст, изображения и аудио…

АудиоOpen-Source (локально)

Cosmos 3

семейство foundation-моделей мира от NVIDIA в двух вариантах: Nano 16B (бэкбон Qwen3-VL 8B) и Super 64B (бэкбон Qwen3-VL 32B), архитектура two-tower MoT (Mixture of Transformers)…

АудиоOpen-Source (локально)

Ideogram 4.0

открытая (open-weight) text-to-image (T2I) модель от Ideogram с нативным 2K-разрешением, bounding-box контролем размещения объектов и заметно улучшенным рендерингом текста…

ИзображенияOpen-Source (локально)

Cosmos 3 paper

статья NVIDIA «Cosmos 3: Omnimodal World Models for Physical AI» на HuggingFace Papers, описывающая two-tower MoT-архитектуру и протоколы обучения для омнимодальных моделей мира; набрала ~8.7K апвоутов за день (https://huggingface.co/papers…

МультимодальныеOpen-Source (локально)

📅 02.06

6 моделей

MAI-Thinking-1

первая собственная reasoning-модель Microsoft: разреженная MoE-архитектура (Mixture of Experts) на ~1T параметров (35B активных) с контекстом 256K, обучена без дистилляции чужих моделей; сильна в математике (AIME 2026 — 94.5%) и кодинге, до…

ТекстПлатные (облако)

MAI-Code-1-Flash

компактная кодинг-модель Microsoft на 5B параметров с адаптивным «мышлением» (экономит до 60% токенов на сложных задачах); закрытые веса, доступна в GitHub Copilot включая бесплатный тариф, по цене/качеству обходит Claude Haiku 4.5 (https:/…

ТекстБесплатные (облако)

MAI-Image-2.5

обновлённая модель Microsoft для генерации и редактирования изображений (text-to-image + image-to-image) с функциями «контроль с сохранением» деталей; дебютировала на 3-м месте Arena.ai среди image-моделей, доступ только через API в Microso…

АудиоПлатные (облако)

MAI-Voice-2

многоязычная TTS-модель Microsoft (text-to-speech) с клонированием голоса и voice-prompting для более чем 15 языков, единый голос сохраняет идентичность между языками; закрытая, поставляется через Foundry и продукты Copilot/Bing (https://te…

АудиоПлатные (облако)

MAI-Transcribe-1.5

модель распознавания речи (speech-to-text) от Microsoft на MoE-архитектуре, поддержка 43 языков и контекстного смещения терминологии; примерно в 5× быстрее конкурентов при цене $0.36/час, доступна только в облаке через Foundry (https://tech…

АудиоПлатные (облако)

Holo3.1

семейство быстрых computer-use агентов (управление GUI на вебе, десктопе и мобильных) от H company в размерах 0.8B/4B/9B и 35B-A3B (MoE); открытые веса на HuggingFace с квантизациями FP8/NVFP4/Q4 GGUF для локального запуска, 79.3% на Androi…

ТекстOpen-Source (локально)

📅 01.06

4 модели

MiniMax M3

открытая мультимодальная LLM от китайской MiniMax на разреженном внимании MSA (MiniMax Sparse Attention) с контекстом 1M токенов; нативно понимает изображения и видео, управляет компьютером и силён в агентном кодинге (59% SWE-Bench Pro, 70%…

ВидеоOpen-Source (локально)

Mellum2

компактная MoE-модель (Mixture of Experts) на 12B параметров (2.5B активных) от JetBrains для текста и кода; более чем в 2 раза быстрее моделей своего класса, заточена под маршрутизацию, RAG и саб-агентов, лицензия Apache 2.0 (https://huggi…

ТекстOpen-Source (локально)

NVIDIA Cosmos 3

открытая omni-модель для физического ИИ от NVIDIA на архитектуре Mixture-of-Transformers; в едином трансформере объединяет генерацию мира, физический reasoning и генерацию действий (текст/изображение/видео/аудио/действия), версии Nano 16B и…

ВидеоOpen-Source (локально)

Nemotron 3 Ultra

открытая (open-weight) MoE-модель от NVIDIA на ~550B параметров (~55B активных), анонсирована 1 июня (выкладка весов 4 июня); сильнейшая открытая модель из США по Artificial Analysis (48 баллов) и >300 токенов/с на DeepInfra (https://the-de…

ТекстOpen-Source (локально)

Май

2026

📅 29.05

5 моделей

Step 3.7 Flash

открытая vision-language MoE-модель (MoE — Mixture of Experts, разреженная архитектура экспертов) на 198B параметров (~11B активных) с контекстом 256k от StepFun; ориентирована на агентов для кодинга и веб-поиска (56,26% на SWE-Bench Pro)…

МультимодальныеOpen-Source (локально)

Qwen-VLA

vision-language-action модель (зрение-язык-действие) от Alibaba Qwen для управления роботами разных конфигураций; использует DiT-декодер действий (Diffusion Transformer) и единый фреймворк для манипуляций и навигации, 97,9% на бенчмарке LIB…

МультимодальныеOpen-Source (локально)

minWM

открытый full-stack фреймворк от ShengShu и университетов Tsinghua/RUC для real-time интерактивных видео-world-моделей; дистиллирует диффузионные бэкбоны Wan2.1-1.3B и HY1.5-8B в few-step (малошаговые) авторегрессионные генераторы, ускоряя…

ВидеоOpen-Source (локально)

NAVA

модель на 6.3B параметров от ERNIE Team (Baidu) для совместной генерации аудио и видео; архитектура Align-then-Fuse MMDiT обеспечивает точную аудио-видео синхронизацию и управляемый тембр речи, веса и код открыты на HuggingFace (https://hug…

ВидеоOpen-Source (локально)

GPT-Rosalind

закрытая облачная модель OpenAI для наук о жизни (рассуждения о молекулах, белках, генах, биологии болезней); 29 мая OpenAI расширила бесплатный доступ через программу Rosalind Biodefense для проверенных команд и госпартнёров (вакцины, скри…

ТекстБесплатные (облако)

📅 28.05

10 моделей

RightNow-Arabic-0.5B-Turbo

арабоязычная LLM на 518M параметров на базе Qwen2.5-0.5B, полные веса (bf16/int8/GGUF), код и бенчмарки выложены на Hugging Face (arXiv cs.CL)

ТекстOpen-Source (локально)

Liquid AI LFM2.5-8B-A1B

MoE-модель с 8.3B общих и 1.5B активных параметров, оптимизирована для on-device-инференса

ТекстOpen-Source (локально)

Perplexity Unigram Tokenizer

переписанный с нуля open-source токенизатор, снижает латентность реранкеров и CPU-нагрузку в 5–6×

ТекстOpen-Source (локально)

minWM

полностековый open-source фреймворк для интерактивных видео-«world models» в реальном времени

ВидеоOpen-Source (локально)

Qwen-VLA

унифицированная vision-language-action модель от команды Qwen для роботов и разных окружений

МультимодальныеOpen-Source (локально)

MOSS-TTS

открытое семейство моделей для генерации речи и звуков, включая диалоги и звуковые эффекты

АудиоOpen-Source (локально)

Parallax

параметризованное локальное линейное внимание для языкового моделирования от Northwestern University

ТекстOpen-Source (локально)

GenClaw

code-driven агентная генерация изображений от Tencent Hunyuan

ИзображенияOpen-Source (локально)

LiteCoder-Terminal

масштабирование long-horizon terminal-окружений для обучения языковых агентов

ТекстOpen-Source (локально)

PhoneWorld

масштабируемая среда для агентов, использующих смартфон

ТекстOpen-Source (локально)

📅 27.05

15 моделей

DiffusionBlocks

фреймворк блочного обучения от Sakana AI, превращает остаточные сети в независимо обучаемые денойзинг-модули

ИзображенияOpen-Source (локально)

Polar

NVIDIA выпустила token-faithful rollout-фреймворк для GRPO-тренировки поверх Codex, Claude Code и Qwen Code

ТекстOpen-Source (локально)

EAGLE 3.1

алгоритм спекулятивного декодинга, борющийся с attention drift; совместный релиз EAGLE team, vLLM и TorchSpec

ТекстOpen-Source (локально)

Gamma-World

генеративная модель мульти-агентного мира от NVIDIA, выходящая за рамки игр на двух игроков

ТекстOpen-Source (локально)

From Pixels to Words

натив-визуальная модель на масштабе с архитектурой one-vision

МультимодальныеOpen-Source (локально)

Agent Explorative Policy Optimization

NVIDIA, оптимизация политики для мультимодального агентного рассуждения

МультимодальныеOpen-Source (локально)

OSP-Next

эффективная высококачественная модель генерации видео от Peking University

ВидеоOpen-Source (локально)

HRBench

Tencent, бенчмарк стратегий переключения режимов мышления в гибридно-рассуждающих LLM

ТекстOpen-Source (локально)

OmniVerifier-M1

мультимодальный мета-верификатор со структурированной рекалибровкой

МультимодальныеOpen-Source (локально)

ResearchMath-14K

Seoul National University, агентное масштабирование математики исследовательского уровня

ТекстOpen-Source (локально)

Self-Improving LM with Bidirectional Evolutionary Search

Harvard, самоулучшающиеся языковые модели через двунаправленный эволюционный поиск

ТекстOpen-Source (локально)

AutoScientists

Harvard, самоорганизующиеся команды агентов для научных экспериментов

ТекстOpen-Source (локально)

ITBench-AA

IBM × Artificial Analysis, первый бенчмарк для агентных задач корпоративного IT (фронтир-модели набирают <50%)

ТекстOpen-Source (локально)

Reachy Mini goes fully local

open-source стек локального голосового робота от Pollen Robotics / Hugging Face

ТекстOpen-Source (локально)

FLUID

фреймворк адаптации AR-бэкбонов к диффузионным моделям для параллельной генерации текста (arXiv cs.CL)

ТекстOpen-Source (локально)

📅 26.05

10 моделей

OmniVoice Studio

локальная open-source альтернатива ElevenLabs: клонирование голоса, дубляж видео, диктовка и диаризация спикеров, поддержка 646 языков и встроенный MCP-сервер

ВидеоOpen-Source (локально)

Stable Audio 3

семейство быстрых latent-diffusion моделей для генерации и редактирования аудио (Small SFX 459M, Small 459M, Medium 1.4B с открытыми весами); генерация композиций до 6 мин 20 сек

АудиоOpen-Source (локально)

LocateAnything

модель NVIDIA для vision-language grounding с параллельным декодированием bounding-боксов

МультимодальныеOpen-Source (локально)

MobileMoE

оптимизированная on-device Mixture-of-Experts модель от Meta AI для запуска на мобильных устройствах

ТекстOpen-Source (локально)

MUSE-Autoskill

фреймворк самоэволюционирующих агентов ByteDance с автономным созданием навыков, памятью и оценкой

ТекстOpen-Source (локально)

RT-Lynx

диффузионная модель от RTP-LLM с правильной GEMM-разрежённостью для ускорения инференса

ТекстOpen-Source (локально)

MRT (Masked Region Transformer)

трансформер для послойной генерации и редактирования изображений в большом масштабе

ИзображенияOpen-Source (локально)

Soap2Soap

мультиагентная система Show Lab для пересборки длинных кинематографических видео

ВидеоOpen-Source (локально)

Geometry-Aware Representation Denoising

модель KAIST AI для устойчивой multi-view 3D-реконструкции через денойзинг геометрических представлений

ТекстOpen-Source (локально)

Squeezing Capacity from MLLMs

методы Adobe для эффективной subject-driven генерации на базе мультимодальных LLM

МультимодальныеOpen-Source (локально)

📅 25.05

6 моделей

Raon-Speech

9B-параметровая речевая языковая модель для английского и корейского с публичными чекпоинтами и обучающим пайплайном (arxiv cs.CL)

АудиоOpen-Source (локально)

QUEST

семейство открытых моделей 2B–35B в роли универсальных агентов для глубоких исследований; выложены веса, данные и скрипты обучения (arxiv cs.CL)

ТекстOpen-Source (локально)

EchoDistill

open-source фреймворк выравнивания для аудио-LLM, повышающий устойчивость к шуму; код в анонимном репозитории (arxiv cs.CL)

АудиоOpen-Source (локально)

ContextEcho

открытый бенчмарк и харнесс для измерения дрейфа персоны в длинных агентских сессиях кодинга (arxiv cs.CL)

ТекстOpen-Source (локально)

CP-Agent

агент с калиброванным контролем риска для соревновательного программирования; код на GitHub (arxiv cs.CL)

ТекстOpen-Source (локально)

OSCAR

attention-aware система 2-битной квантизации KV-кэша для long-context инференса LLM от Together AI (together.ai)

ТекстOpen-Source (локально)

📅 24.05

2 модели

Gated DeltaNet-2

новый слой линейного внимания от NVIDIA AI, разделяющий «стирание» и «запись» в Delta Rule через отдельные канальные гейты; на 1.3B параметрах и 100B токенах обгоняет конкурентов в…

ТекстOpen-Source (локально)

Webwright

терминальный browser-agent фреймворк от Microsoft Research, заменяющий click-trace веб-автоматизацию переиспользуемыми Playwright-скриптами; 60.1% на Odysseys и 86.7% на Online-Min…

ТекстOpen-Source (локально)

📅 23.05

4 модели

Nemotron-Labs Diffusion

диффузионные языковые модели NVIDIA с генерацией текста «на скорости света»

ИзображенияOpen-Source (локально)

TencentDB Agent Memory

четырёхуровневая локальная система памяти для AI-агентов от Tencent

ТекстOpen-Source (локально)

Contrastive Neuron Attribution (CNA)

метод от Nous Research для управления MLP-цепями без SAE-обучения и модификации весов

ТекстOpen-Source (локально)

Bumblebee

read-only сканер цепочки поставок для разработчиков от Perplexity

ТекстOpen-Source (локально)

📅 22.05

3 модели

Microsoft Fara1.5

семейство open-weight браузерных computer-use агентов (4B/9B/27B на базе дообученной Qwen 3.5); 27B-версия даёт 72% на Online-Mind2Web, опережая OpenAI Operator и Gemini 2.5 Comput…

МультимодальныеOpen-Source (локально)

OpenMythos

открытый фреймворк для построения recurrent-depth трансформеров с поддержкой MLA, GQA, Sparse MoE и loop-scaled reasoning

ТекстOpen-Source (локально)

Models.dev

открытая база спецификаций, цен и возможностей AI-моделей (Hacker News / YC)

ТекстOpen-Source (локально)

📅 17.05

7 моделей

X-OmniClaw (Oppo Multi-X)

открытый Android AI-агент, работающий прямо на устройстве: использует камеру, экран и голос для выполнения задач в реальных приложениях без облачного клона телефона; запоминает цеп…

МультимодальныеOpen-Source (локально)

Solvita

агентный фреймворк непрерывного обучения для соревновательного программирования; 4 специализированных агента (Planner, Solver, Oracle, Hacker) накапливают опыт без изменения весов…

ТекстOpen-Source (локально)

ICRL

фреймворк RL для интернализации самокритики языковой моделью; построен на Qwen3-4B/8B, код открыт (arXiv cs.AI)

ТекстOpen-Source (локально)

SMCEvolve

метод поиска программ на основе Sequential Monte Carlo: задача переформулируется как сэмплирование из reward-tilted распределений; ориентирован на научные открытия, код открыт (arX…

ТекстOpen-Source (локально)

SkillSmith

компилятор и рантайм для упаковки навыков агентов в минимальные исполняемые интерфейсы; исходный код и данные опубликованы на GitHub (arXiv cs.AI)

ТекстOpen-Source (локально)

OP-Mix

алгоритм смешивания данных для тренировки LLM на всём жизненном цикле через low-rank адаптеры, обученные на текущей модели; устраняет необходимость в прокси-моделях (arXiv cs.CL)

ТекстOpen-Source (локально)

Parallel Speculative Decoding (PSD)

фреймворк без дообучения для ускорения инференса диффузионных LLM через адаптивные политики размаскирования (arXiv cs.CL)

ТекстOpen-Source (локально)

📅 15.05

3 модели

Supertonic v3

лёгкая on-device TTS-модель (~99M параметров, ONNX) с поддержкой 31 языка, тегами эмоций (<laugh>, <breath>, <sigh>) и сниженным числом ошибок чтения

АудиоOpen-Source (локально)

ZAYA1-8B-Diffusion-Preview

первая MoE diffusion-модель от Zyphra, сконвертированная из авторегрессионного LLM, с ускорением до 7.7× при генерации

ИзображенияOpen-Source (локально)

VectraYX-Nano

41.95M decoder-only LLM для испаноязычной кибербезопасности с нативной интеграцией MCP; опубликованы корпус, скрипты обучения и GGUF-веса (arXiv cs.CL, 2605.13989)

ТекстOpen-Source (локально)

📅 13.05

7 моделей

GLiGuard

энкодерная safety/guardrail-модель на 300M параметров от Fastino Labs (детекция джейлбрейков, классификация вреда и отказы за один проход), лицензия Apache 2.0, опубликована на Hug…

ТекстOpen-Source (локально)

Voxtral TTS

мультиязычная TTS-модель на 4B параметров от Mistral, архитектура Autoregressive + Flow-Matching, синтез 24 kHz (WAV/MP3/FLAC), лицензия CC BY-NC 4.0

АудиоOpen-Source (локально)

Qwen-Image-VAE-2.0

технический отчёт от команды Qwen (Alibaba) о новой архитектуре image VAE, сопровождается публикацией модели

ИзображенияOpen-Source (локально)

AnyFlow

any-step видео-диффузионная модель от NVIDIA с on-policy flow map distillation

ВидеоOpen-Source (локально)

PresentAgent-2

мультимодальный агент общего назначения для генерации презентаций от Peking University

МультимодальныеOpen-Source (локально)

DavidAU/Marco-Nano-Thinking-8B-A0.6B

компактная reasoning-модель на 8B параметров

ТекстOpen-Source (локально)

OpenHuman

Rust-проект персонального приватного AI-суперинтеллекта, +1696 звёзд за день

ТекстOpen-Source (локально)

📅 09.05

2 модели

NVIDIA Star Elastic

единый чекпойнт, содержащий вложенные ризонинг-модели на 30B/23B/12B с zero-shot «нарезкой» размера без дообучения; вариант 23B→30B даёт до +16% точности и 1.9× меньшую задержку

ТекстOpen-Source (локально)

OncoAgent

open-source двухуровневый мульти-агентный фреймворк для приватного клинического принятия решений в онкологии

ТекстOpen-Source (локально)

📅 08.05

2 модели

EMO (Allen AI)

MoE-модель с эмерджентной модульностью, 1B активных / 14B общих параметров, 128 экспертов, обучена на 1T токенов; веса, код и статья открыты

ТекстOpen-Source (локально)

CyberSecQwen-4B

специализированная 4B-модель на базе Qwen3-4B-Instruct для оборонительной кибербезопасности (CWE/CVE-классификация, threat intel), Apache 2.0, запускается на 12 ГБ GPU

ТекстOpen-Source (локально)

📅 07.05

6 моделей

TokenSpeed

открытый инференс-движок для LLM от LightSeek Foundation, нацелен на агентские нагрузки и сопоставимую с TensorRT-LLM производительность

ТекстOpen-Source (локально)

NeuralBench / NeuralBench-EEG v1.0

открытый бенчмарк-фреймворк Meta AI для NeuroAI: 36 задач, 94 датасета, 14 архитектур, крупнейший открытый EEG-бенчмарк

ТекстOpen-Source (локально)

Hunyuan3D-2.1

открытая модель Image-to-3D (Tencent), новая публикация на Hugging Face

ИзображенияOpen-Source (локально)

gemma-4-E4B-it

instruct-вариант Gemma 4 E4B (~8B, Any-to-Any), опубликован на Hugging Face

ТекстOpen-Source (локально)

Negentropy-claude-opus-4.7-9B (8bit / bf16)

открытые 9B-веса для генерации текста, выложены на Hugging Face

ТекстПлатные (облако)

modern_DNABERT

обновлённая открытая BERT-модель для геномных последовательностей

ТекстOpen-Source (локально)

📅 06.05

6 моделей

Voxtral TTS

TTS-модель Mistral (4B параметров) с авторегрессивно-flow-matching архитектурой и выходом 24 кГц

АудиоOpen-Source (локально)

Gemma 4 MTP Drafters

вспомогательные модели Google для спекулятивного декодинга Gemma 4, ускорение до 3× без потери качества, Apache 2.0 на HF и Kaggle

ТекстOpen-Source (локально)

HunyuanOCR Q8_0 GGUF

квантизованная (Q8_0) сборка HunyuanOCR (0.5B) для image-text-to-text задач, формат GGUF

ИзображенияOpen-Source (локально)

TabPFN

обновление foundation-модели для табличных данных, в топе GitHub Trending за день

ТекстOpen-Source (локально)

Kronos

open-source foundation-модель для анализа финансовых рынков и языка торговли

ТекстOpen-Source (локально)

vLLM V0→V1

апдейт open-source инференс-движка с фокусом на корректность RL-режимов

ТекстOpen-Source (локально)

📅 05.05

7 моделей

Voxtral TTS

TTS-модель Mistral, 4B параметров, гибрид авторегрессии и flow-matching, 24 кГц, многоязычное клонирование голоса, лицензия CC BY-NC 4.0 (marktechpost.com)

АудиоOpen-Source (локально)

Kimi K2.6

открытая модель Moonshot, конкурирует с GPT-5.4 и Claude Opus 4.6 за счёт агентных «роёв» (the-decoder.com)

ТекстOpen-Source (локально)

GLM-5V-Turbo

нативная мультимодальная foundation-модель для агентов от Zhipu, статья и веса на arXiv (news.ycombinator.com)

МультимодальныеOpen-Source (локально)

isetnefret/gemma-4-E2B-it-mlx-fp16

порт Gemma 4 E2B-it под Apple MLX в fp16, ~5B параметров, any-to-any (huggingface.co)

ТекстOpen-Source (локально)

ThakiCloud/SkillRet-Embedding-8B

модель эмбеддингов на 8B для поиска по навыкам/sentence-similarity (huggingface.co)

ТекстOpen-Source (локально)

core12345/codev-r1-9b-atgrpo

9B reasoning-модель для кода, дообученная методом AT-GRPO (huggingface.co)

ТекстOpen-Source (локально)

NLP-Final-Project/mistral-7b-base-dpo

DPO-файнтюн Mistral-7B-base, открытые веса (huggingface.co)

ТекстOpen-Source (локально)

📅 01.05

7 моделей

Nemotron 3 Nano Omni

открытая мультимодальная модель от NVIDIA, ориентированная на эффективность и агентные сценарии

МультимодальныеOpen-Source (локально)

MiniCPM-o 4.5

омни-модальная модель на 9B параметров с full-duplex real-time обработкой зрения, аудио и речи для edge-устройств (arxiv cs.CL)

АудиоOpen-Source (локально)

Qwen-Scope

открытая SAE-сьюита от Qwen AI, превращающая внутренние признаки LLM в практические инструменты разработки

ТекстOpen-Source (локально)

JaiTTS-v1.0

открытая TTS-модель клонирования голоса для тайского языка с SOTA-показателем CER (arxiv cs.CL)

АудиоOpen-Source (локально)

Length Value Model (LenVM)

открытый token-level фреймворк для предсказания оставшейся длины генерации в LLM и VLM (arxiv cs.CL)

МультимодальныеOpen-Source (локально)

NeuralSet

open-source Python-пакет от Meta FAIR для нейро-AI задач: fMRI, M/EEG, спайк-записи и эмбеддинги Hugging Face

ТекстOpen-Source (локально)

Meta Autodata

открытый агентный фреймворк, превращающий AI-модели в автономных «дата-сайентистов» для генерации качественных обучающих данных

ТекстOpen-Source (локально)

Апрель

2026

📅 30.04

14 моделей

GLM-5V-Turbo

нативная мультимодальная foundation-модель для построения агентных систем

МультимодальныеOpen-Source (локально)

MiniCPM-o 4.5

9B омни-модальная модель с полнодуплексным real-time взаимодействием, требует <12 ГБ ОЗУ (arXiv cs.CL)

ТекстOpen-Source (локально)

Tencent Hy-MT1.5-1.8B-1.25bit

440 МБ офлайн-модель перевода на 33 языка прямо на смартфоне (The Decoder)

ТекстOpen-Source (локально)

Granite Speech 4.1 2B (IBM)

пара компактных речевых моделей: авторегрессионный ASR с переводом + неавторегрессионное редактирование

АудиоOpen-Source (локально)

FlashKDA (Moonshot AI)

open-source CUTLASS-ядра для Kimi Delta Attention с поддержкой переменной длины батча на H20

ТекстOpen-Source (локально)

Turning the TIDE (Пекинский ун-т)

кросс-архитектурная дистилляция для диффузионных LLM с открытым кодом

ТекстOpen-Source (локально)

Diffusion Templates

единый plugin-фреймворк для управляемой генерации в диффузионных моделях

ИзображенияOpen-Source (локально)

Praxy Voice (Praxel)

TTS commercial-класса для индийских языков с восстановлением голос-промптом

АудиоOpen-Source (локально)

VachaSpeech-0.6B-GGUF

компактная 0.6B речевая модель в формате GGUF

АудиоOpen-Source (локально)

Geodesic-Phantom-12B-GGUF

12B языковая модель в формате GGUF для локального запуска

ТекстOpen-Source (локально)

Qwen2.5-VL-7B-Instruct-OmniQuant-w8a8

W8A8 OmniQuant-квантизация vision-language модели Qwen2.5-VL-7B

МультимодальныеOpen-Source (локально)

Whisper Ghanaian ASR

модель распознавания речи, дообученная на ганских языках

АудиоOpen-Source (локально)

ClawGym

масштабируемый open-source фреймворк для обучения агентов-манипуляторов

ТекстOpen-Source (локально)

Large Language Models Explore by Latent Distilling (ShanghaiTech)

метод исследования LLM через дистилляцию в латентном пространстве с открытым релизом

ТекстOpen-Source (локально)

📅 29.04

7 моделей

Granite 4.1 (IBM)

семейство dense decoder-only LLM (3B / 8B / 30B), Apache 2.0, обучены на ~15T токенов, контекст до 512K

ТекстOpen-Source (локально)

Nemotron 3 Nano Omni (NVIDIA)

открытая мультимодальная модель, рассуждает по тексту, изображениям, видео и аудио, под агентные нагрузки

ВидеоOpen-Source (локально)

Step-Audio-R1.5 (StepFun)

технический отчёт о новой версии аудио-модели с reasoning, топ дня по апвоутам на HF Papers

АудиоOpen-Source (локально)

VibeVoice (Microsoft)

open-source frontier voice AI, в трендах GitHub за день

АудиоOpen-Source (локально)

FlashQLA

высокопроизводительная библиотека ядер линейного внимания, ускорение до 3× на NVIDIA Hopper

ТекстOpen-Source (локально)

smol-audio

набор Colab-ноутбуков для дообучения речевых и аудио-моделей

АудиоOpen-Source (локально)

NeuralSet

Python-пакет для neuro-AI с поддержкой fMRI, M/EEG, спайков и эмбеддингов HuggingFace

ТекстOpen-Source (локально)

📅 28.04

9 моделей

LittleLamb 0.3B

ультракомпактная модель общего назначения от Multiverse Computing, 50%-сжатая версия Qwen3-0.6B с двуязычным рассуждением

ТекстOpen-Source (локально)

LittleLamb 0.3B Tool-Calling

вариант LittleLamb, оптимизированный под вызов инструментов и агентные сценарии

ТекстOpen-Source (локально)

LittleLamb 0.3B Mobile

деплой-ориентированный вариант LittleLamb для on-device и мобильных применений

ТекстOpen-Source (локально)

NVIDIA Nemotron 3 Nano Omni

мультимодальная модель с длинным контекстом для документов, аудио и видео-агентов

ВидеоOpen-Source (локально)

Marco-MoE

открытое семейство многоязычных Mixture-of-Experts моделей (~5% активных параметров) с полностью открытыми весами, датасетами и рецептом обучения (arXiv 2604.25578)

ТекстOpen-Source (локально)

VibeVoice

open-source фронтирная голосовая AI-модель от Microsoft

АудиоOpen-Source (локально)

OpenAI Privacy Filter

открытая модель на 1.5B параметров (50M активных) для редактирования PII и приватности данных

ТекстOpen-Source (локально)

MING-MOE-14B

открытая Mixture-of-Experts модель на 14B параметров, опубликованная на Hugging Face

ТекстOpen-Source (локально)

Fiber-Qwen2.5-7B

открытая модель генерации текста на базе Qwen2.5-7B от LayerEight

ТекстOpen-Source (локально)

📅 27.04

2 модели

Talkie-1930

открытая 13B LLM, обученная исключительно на англоязычных текстах до 1931 года; для исследований исторического рассуждения и обобщения

ТекстOpen-Source (локально)

MOSS-Audio

открытая мультимодальная аудио-foundation-модель: речь, окружающие звуки, музыка и темпоральное рассуждение в единой архитектуре, обходит более крупные проприетарные альтернативы н…

АудиоOpen-Source (локально)

📅 26.04

10 моделей

Qwen3.6-27B

плотная 27B модель Alibaba, обходит более крупного MoE-предшественника на бенчмарках кодинга, проще в развёртывании (the-decoder.com)

ТекстOpen-Source (локально)

Ghost-V6-Deep-Thinker

вариант Ghost-V6 с акцентом на цепочки рассуждений

ТекстOpen-Source (локально)

Ghost-V6-Ultra-Reasoning

8B модель генерации текста с расширенными возможностями reasoning

ТекстOpen-Source (локально)

helenk/gemma-4-finetune

мультимодальный image-text-to-text файнтюн на базе Gemma 4

МультимодальныеOpen-Source (локально)

BAR-7B-GGUF

7B модель в формате GGUF для локального инференса

ТекстOpen-Source (локально)

Eve-4b-FP16-i1-GGUF

4B модель Eve в FP16 с GGUF-квантизацией

ТекстOpen-Source (локально)

bluey-8B_GGUF

8B модель в GGUF

ТекстOpen-Source (локально)

symfony_ai_maker-V0.5-Qwen3-0.6B

лёгкий ассистент для Symfony на основе Qwen3-0.6B, версии 16bit и LoRA

ТекстOpen-Source (локально)

pcd-llama31-8b-singlelayer-72m-norm

экспериментальный вариант Llama 3.1 8B с однослойной архитектурой

ТекстOpen-Source (локально)

HOIGen1M_hands_mask

модель генерации масок рук для задач Human-Object Interaction

ТекстOpen-Source (локально)

📅 24.04

10 моделей

DeepSeek-V4-Pro

флагманская MoE-модель на 1.6T параметров с контекстом 1M токенов и архитектурой Hybrid Attention; топ среди open-моделей по коду и математике

ТекстOpen-Source (локально)

DeepSeek-V4-Flash

облегчённая версия V4 на 284B параметров с тем же 1M-контекстом, рассчитанная на дешёвый инференс

ТекстOpen-Source (локально)

AgenticQwen

серия малых агентных LLM, обученных через RL; чекпоинты и часть синтетических данных открыты

ТекстOpen-Source (локально)

AFRILANGTUTOR

дообученные Llama-3-8B-IT и Gemma-3-12B-IT под 10 африканских языков, прирост 1.8–15.5% через SFT+DPO

ТекстOpen-Source (локально)

VLAA-GUI

модульный open-source фреймворк GUI-автоматизации, 77.5% на OSWorld (arXiv 2604.21375 / UCSC-VLAA)

ТекстOpen-Source (локально)

Decoupled DiLoCo

открытый метод устойчивого распределённого предобучения больших моделей (arXiv 2604.21428)

ТекстOpen-Source (локально)

Huihui4-8B-A4B-GGUF

8B-модель в формате GGUF для локального инференса

ТекстOpen-Source (локально)

Llama-3.2-3B_mathv1_grpo

версия Llama 3.2 3B, дообученная GRPO под математические задачи

ТекстOpen-Source (локально)

ReasonAssessor

модель оценки качества рассуждений LLM

ТекстOpen-Source (локально)

isabert-v2-stage2

ALBERT-вариант второй стадии обучения

ТекстOpen-Source (локально)

📅 23.04

2 модели

DeepSeek-V4 (Pro и Flash)

открытые веса, гибридное внимание (CSA+HCA), контекст до 1 млн токенов, доступны на Hugging Face

ТекстOpen-Source (локально)

OpenMythos

открытая PyTorch-реализация, достигающая глубокого рассуждения через итеративные вычисления вместо роста числа параметров

ТекстOpen-Source (локально)

📅 21.04

3 модели

Kimi K2.6

open-weight модель от Moonshot AI, конкурирует с GPT-5.4 и Claude Opus 4.6 на задачах кодинга, поддерживает «рои» до 300 параллельных агентов; модифицированная MIT-лицензия (artifi…

ТекстOpen-Source (локально)

ml-intern

open-source автономный ML-инженер от Hugging Face, читает статьи, обучает модели и автоматизирует post-training-пайплайн LLM (github.com/huggingface, marktechpost.com)

ТекстOpen-Source (локально)

QIMMA قِمّة

open-source Arabic LLM Leaderboard от TIIUAE с 52 000+ примеров по 7 доменам и качественной валидацией бенчмарков (huggingface.co/blog)

ТекстOpen-Source (локально)

📅 20.04

1 модель

Kimi K2.6 (Moonshot AI)

open-source модель для «long-horizon coding» с агентной архитектурой до 300 под-агентов и 4 000 скоординированных шагов

ТекстOpen-Source (локально)

📅 18.04

4 модели

SAGE Celer 2.6 (5B / 10B / 27B)

многоязычная мультимодальная модель общего назначения с нативной поддержкой южноазиатских языков (деванагари, хинди, непали); три размера весов (arXiv cs.CL, новинки 18 апр.)

МультимодальныеOpen-Source (локально)

RAD-2

масштабируемая система обучения с подкреплением в схеме «генератор–дискриминатор»; авторы утверждают улучшение на задачах рассуждения по сравнению с GRPO

ТекстOpen-Source (локально)

HY-World 2.0

мультимодальная world-модель для реконструкции, генерации и симуляции 3D-миров; поддерживает видео и изображения

ВидеоOpen-Source (локально)

Gemini Robotics-ER 1.6

модель Google DeepMind для воплощённого рассуждения в робототехнике; статья о релизе опубликована 18 апр. на The Decoder (статус открытых весов не подтверждён)

ТекстПлатные (облако)

📅 17.04

9 моделей

NVIDIA Nemotron OCR v2

быстрая мультиязычная OCR-модель с гибридной архитектурой (детектор + распознаватель + реляционная модель); 6 языков, 34 страницы/сек на A100; лицензия NVIDIA Open Model License (h…

DocumentOpen-Source (локально)

HY-World 2.0

мультимодальная world model для реконструкции, генерации и симуляции 3D-миров; 45 авторов

МультимодальныеOpen-Source (локально)

RAD-2

модель масштабирования RL в фреймворке генератор-дискриминатор; Huazhong University of Science and Technology

ТекстOpen-Source (локально)

HiVLA

иерархическая воплощённая манипуляционная система с визуальной привязкой; 11 авторов

ТекстOpen-Source (локально)

GlobalSplat

эффективный feed-forward 3D Gaussian Splatting через глобальные токены сцены; Hebrew University of Jerusalem

ТекстOpen-Source (локально)

MM-WebAgent

иерархический мультимодальный веб-агент для генерации веб-страниц; Microsoft Research

МультимодальныеOpen-Source (локально)

SAGE Celer 2.6

модель общего назначения 5B–27B параметров с мультимодальными возможностями и оптимизацией для южноазиатских языков (arXiv cs.CL, 17.04.2026)

МультимодальныеOpen-Source (локально)

APEX-MEM

разговорная система памяти на основе граф свойств с темпоральным рассуждением для долгосрочных взаимодействий (arXiv cs.CL, 17.04.2026)

ТекстOpen-Source (локально)

HUOZIIME

on-device LLM-расширенный метод ввода для мобильных устройств с иерархическим механизмом памяти (arXiv cs.CL, 17.04.2026)

ТекстOpen-Source (локально)

📅 16.04

8 моделей

Qwen3.6-35B-A3B (Alibaba)

открытая MoE-модель на 35B параметров (3B активных), можно запустить локально на ноутбуке; по неформальным тестам обходит Claude Opus 4.7 в ряде задач

ТекстOpen-Source (локально)

Gemma 4 (Google DeepMind)

открытая мультимодальная модель для агентного AI с локальным запуском на мобильных устройствах, данные не покидают устройство

МультимодальныеOpen-Source (локально)

Parcae (UCSD + Together AI Research)

новая архитектура «зацикленных» языковых моделей, которая достигает качества трансформера вдвое большего размера при меньшем числе параметров

ТекстOpen-Source (локально)

SAGE Celer 2.6 (SAGEA Research Team)

семейство открытых моделей 5B/10B/27B с нативной мультимодальностью и усиленной поддержкой южноазиатских языков (хинди, непали, деванагари)

МультимодальныеOpen-Source (локально)

HY-World 2.0 (Tencent)

мультимодальная мировая модель для реконструкции, генерации и симуляции 3D-миров

МультимодальныеOpen-Source (локально)

RAD-2

масштабируемая система обучения с подкреплением в рамках генератор-дискриминатор; улучшает качество рассуждений LLM

ТекстOpen-Source (локально)

LeapAlign (ByteDance Seed)

метод пост-тренинга flow matching моделей на любом шаге генерации, значительно ускоряет обучение

ТекстOpen-Source (локально)

Cross-Tokenizer LLM Distillation

открытый метод дистилляции LLM через байтовый интерфейс, не зависящий от токенизатора модели-учителя

ТекстOpen-Source (локально)

📅 15.04

15 моделей

NVIDIA Ising

первые в мире открытые AI-модели для ускорения пути к полезным квантовым вычислениям: 2.5× прирост производительности и 3× рост точности по сравнению с существующими open-source ст…

ТекстOpen-Source (локально)

VAKRA (IBM Research)

агентная система с анализом рассуждений, использования инструментов и режимов отказа у AI-агентов

ТекстOpen-Source (локально)

Seedance 2.0 (ByteDance Seed)

продвинутая модель видеогенерации для моделирования сложного мира

ВидеоOpen-Source (локально)

EVE 24B

первая специализированная LLM-система для наук о Земле и спутникового наблюдения, 24B параметров

ТекстOpen-Source (локально)

PersonaVLM

мультимодальная LLM с долгосрочной персонализацией: запоминание, рассуждение и адаптация к предпочтениям пользователя (arXiv)

МультимодальныеOpen-Source (локально)

MM-Doc-R1

агентная vision-система для сложных запросов по длинным документам с итеративным поиском информации (arXiv)

МультимодальныеOpen-Source (локально)

TREX

автоматизация fine-tuning LLM через исследование дерева решений агентами

ТекстOpen-Source (локально)

UI-Copilot

система автоматизации GUI на длинных горизонтах с tool-integrated оптимизацией

ТекстOpen-Source (локально)

GameWorld

стандартизированный фреймворк оценки мультимодальных игровых агентов (NUS)

МультимодальныеOpen-Source (локально)

SpatialEvo

саморазвивающийся пространственный интеллект через детерминированные геометрические среды

ТекстOpen-Source (локально)

RationalRewards

масштабирование визуальной генерации через рассуждения о наградах

ТекстOpen-Source (локально)

MERRIN

бенчмарк для мультимодального поиска и рассуждений в зашумлённой веб-среде

МультимодальныеOpen-Source (локально)

UI-Zoomer

адаптивное масштабирование с учётом неопределённости для точной привязки элементов GUI

ТекстOpen-Source (локально)

TIP

метод дистилляции on-policy с учётом важности токенов (Princeton University)

ТекстOpen-Source (локально)

ROSE

улучшение сегментации изображений, ориентированное на задачи поиска

ИзображенияOpen-Source (локально)

📅 14.04

6 моделей

GLM-5.1

открытая модель от Z.ai под лицензией MIT, превосходит GPT-5.4 и Opus 4.6 на задачах кодирования (SWE-Bench), поддерживает локальный запуск и файнтюнинг (scitech.whatfinger.com)

ТекстOpen-Source (локально)

Nemotron 3 Super

открытая гибридная MoE-модель NVIDIA на архитектуре Mamba-Transformer для агентных рассуждений

ТекстOpen-Source (локально)

Audio Flamingo Next (AF-Next)

открытая аудио-языковая модель нового поколения от NVIDIA и Университета Мэриленда для речи, звука и музыки (marktechpost.com + Hugging Face Papers)

АудиоOpen-Source (локально)

ClawGUI

открытый фреймворк Чжэцзянского университета для обучения, оценки и развёртывания GUI-агентов; самая популярная статья дня (307 голосов)

ТекстOpen-Source (локально)

Bielik v3 7B / 11B

открытые польскоязычные языковые модели от SpeakLeash с оптимизированной токенизацией

ТекстOpen-Source (локально)

TorchUMM

открытая унифицированная мультимодальная кодовая база от Университета Карнеги–Меллон для оценки, анализа и пост-тренировки мультимодальных моделей

МультимодальныеOpen-Source (локально)

📅 13.04

12 моделей

HY-Embodied-0.5 (Tencent Hunyuan)

фундаментальные модели для воплощённых агентов на архитектуре Mixture-of-Transformers с улучшенным визуальным восприятием и рассуждением в реальном мире

ТекстOpen-Source (локально)

Audio Flamingo Next (NVIDIA)

следующее поколение открытых аудио-языковых моделей для речи, звука и музыки

АудиоOpen-Source (локально)

WildDet3D (AI2 / Allen Institute)

унифицированный фреймворк 3D-обнаружения объектов в открытом мире с поддержкой множества типов подсказок

ТекстOpen-Source (локально)

VOID (Netflix)

модель удаления объектов из видео с использованием VLM и диффузионных моделей для генерации физически правдоподобных сцен

ВидеоOpen-Source (локально)

LPM 1.0

мультимодальная модель большого масштаба для генерации персонажей в реальном времени с бесконечной длиной видео

ВидеоOpen-Source (локально)

RefineAnything (Zhejiang University)

диффузионная мультимодальная модель для регионально-специфичного уточнения изображений с сохранением фона

МультимодальныеOpen-Source (локально)

MegaTrain

метод полноточного обучения моделей 100B+ параметров на одном GPU через хранение в памяти хоста

ТекстOpen-Source (локально)

Kronos (shiyu-coder)

фундаментальная модель для языка финансовых рынков

ТекстOpen-Source (локально)

NousResearch/hermes-agent

агентный ИИ-фреймворк нового поколения на базе открытых весов

ТекстOpen-Source (локально)

ClawGUI

унифицированный фреймворк для обучения, оценки и развёртывания GUI-агентов

ТекстOpen-Source (локально)

CodeTracer

система трассировки состояний агентов при написании кода

ТекстOpen-Source (локально)

OmniShow (ByteDance)

модель генерации видео взаимодействий человека и объектов с мультимодальными условиями

ВидеоOpen-Source (локально)

← Назад к нейронкам