🚀 Open-Source и платные ИИ-модели
Календарь релизов 2025–2026
Отслеживайте последние релизы ИИ-моделей: от бесплатных open-source до платных облачных решений.
104
Дней отслеживается
104
Дней релизов
637
Моделей
–
Май
2026
📅 28.05
10 моделей
RightNow-Arabic-0.5B-Turbo
арабоязычная LLM на 518M параметров на базе Qwen2.5-0.5B, полные веса (bf16/int8/GGUF), код и бенчмарки выложены на Hugging Face (arXiv cs.CL)
Liquid AI LFM2.5-8B-A1B
MoE-модель с 8.3B общих и 1.5B активных параметров, оптимизирована для on-device-инференса
Perplexity Unigram Tokenizer
переписанный с нуля open-source токенизатор, снижает латентность реранкеров и CPU-нагрузку в 5–6×
minWM
полностековый open-source фреймворк для интерактивных видео-«world models» в реальном времени
Qwen-VLA
унифицированная vision-language-action модель от команды Qwen для роботов и разных окружений
MOSS-TTS
открытое семейство моделей для генерации речи и звуков, включая диалоги и звуковые эффекты
Parallax
параметризованное локальное линейное внимание для языкового моделирования от Northwestern University
GenClaw
code-driven агентная генерация изображений от Tencent Hunyuan
LiteCoder-Terminal
масштабирование long-horizon terminal-окружений для обучения языковых агентов
PhoneWorld
масштабируемая среда для агентов, использующих смартфон
📅 27.05
15 моделей
DiffusionBlocks
фреймворк блочного обучения от Sakana AI, превращает остаточные сети в независимо обучаемые денойзинг-модули
Polar
NVIDIA выпустила token-faithful rollout-фреймворк для GRPO-тренировки поверх Codex, Claude Code и Qwen Code
EAGLE 3.1
алгоритм спекулятивного декодинга, борющийся с attention drift; совместный релиз EAGLE team, vLLM и TorchSpec
Gamma-World
генеративная модель мульти-агентного мира от NVIDIA, выходящая за рамки игр на двух игроков
From Pixels to Words
натив-визуальная модель на масштабе с архитектурой one-vision
Agent Explorative Policy Optimization
NVIDIA, оптимизация политики для мультимодального агентного рассуждения
OSP-Next
эффективная высококачественная модель генерации видео от Peking University
HRBench
Tencent, бенчмарк стратегий переключения режимов мышления в гибридно-рассуждающих LLM
OmniVerifier-M1
мультимодальный мета-верификатор со структурированной рекалибровкой
ResearchMath-14K
Seoul National University, агентное масштабирование математики исследовательского уровня
Self-Improving LM with Bidirectional Evolutionary Search
Harvard, самоулучшающиеся языковые модели через двунаправленный эволюционный поиск
AutoScientists
Harvard, самоорганизующиеся команды агентов для научных экспериментов
ITBench-AA
IBM × Artificial Analysis, первый бенчмарк для агентных задач корпоративного IT (фронтир-модели набирают <50%)
Reachy Mini goes fully local
open-source стек локального голосового робота от Pollen Robotics / Hugging Face
FLUID
фреймворк адаптации AR-бэкбонов к диффузионным моделям для параллельной генерации текста (arXiv cs.CL)
📅 26.05
10 моделей
OmniVoice Studio
локальная open-source альтернатива ElevenLabs: клонирование голоса, дубляж видео, диктовка и диаризация спикеров, поддержка 646 языков и встроенный MCP-сервер
Stable Audio 3
семейство быстрых latent-diffusion моделей для генерации и редактирования аудио (Small SFX 459M, Small 459M, Medium 1.4B с открытыми весами); генерация композиций до 6 мин 20 сек
LocateAnything
модель NVIDIA для vision-language grounding с параллельным декодированием bounding-боксов
MobileMoE
оптимизированная on-device Mixture-of-Experts модель от Meta AI для запуска на мобильных устройствах
MUSE-Autoskill
фреймворк самоэволюционирующих агентов ByteDance с автономным созданием навыков, памятью и оценкой
RT-Lynx
диффузионная модель от RTP-LLM с правильной GEMM-разрежённостью для ускорения инференса
MRT (Masked Region Transformer)
трансформер для послойной генерации и редактирования изображений в большом масштабе
Soap2Soap
мультиагентная система Show Lab для пересборки длинных кинематографических видео
Geometry-Aware Representation Denoising
модель KAIST AI для устойчивой multi-view 3D-реконструкции через денойзинг геометрических представлений
Squeezing Capacity from MLLMs
методы Adobe для эффективной subject-driven генерации на базе мультимодальных LLM
📅 25.05
6 моделей
Raon-Speech
9B-параметровая речевая языковая модель для английского и корейского с публичными чекпоинтами и обучающим пайплайном (arxiv cs.CL)
QUEST
семейство открытых моделей 2B–35B в роли универсальных агентов для глубоких исследований; выложены веса, данные и скрипты обучения (arxiv cs.CL)
EchoDistill
open-source фреймворк выравнивания для аудио-LLM, повышающий устойчивость к шуму; код в анонимном репозитории (arxiv cs.CL)
ContextEcho
открытый бенчмарк и харнесс для измерения дрейфа персоны в длинных агентских сессиях кодинга (arxiv cs.CL)
CP-Agent
агент с калиброванным контролем риска для соревновательного программирования; код на GitHub (arxiv cs.CL)
OSCAR
attention-aware система 2-битной квантизации KV-кэша для long-context инференса LLM от Together AI (together.ai)
📅 24.05
2 модели
Gated DeltaNet-2
новый слой линейного внимания от NVIDIA AI, разделяющий «стирание» и «запись» в Delta Rule через отдельные канальные гейты; на 1.3B параметрах и 100B токенах обгоняет конкурентов в…
Webwright
терминальный browser-agent фреймворк от Microsoft Research, заменяющий click-trace веб-автоматизацию переиспользуемыми Playwright-скриптами; 60.1% на Odysseys и 86.7% на Online-Min…
📅 23.05
4 модели
Nemotron-Labs Diffusion
диффузионные языковые модели NVIDIA с генерацией текста «на скорости света»
TencentDB Agent Memory
четырёхуровневая локальная система памяти для AI-агентов от Tencent
Contrastive Neuron Attribution (CNA)
метод от Nous Research для управления MLP-цепями без SAE-обучения и модификации весов
Bumblebee
read-only сканер цепочки поставок для разработчиков от Perplexity
📅 22.05
3 модели
Microsoft Fara1.5
семейство open-weight браузерных computer-use агентов (4B/9B/27B на базе дообученной Qwen 3.5); 27B-версия даёт 72% на Online-Mind2Web, опережая OpenAI Operator и Gemini 2.5 Comput…
OpenMythos
открытый фреймворк для построения recurrent-depth трансформеров с поддержкой MLA, GQA, Sparse MoE и loop-scaled reasoning
Models.dev
открытая база спецификаций, цен и возможностей AI-моделей (Hacker News / YC)
📅 17.05
7 моделей
X-OmniClaw (Oppo Multi-X)
открытый Android AI-агент, работающий прямо на устройстве: использует камеру, экран и голос для выполнения задач в реальных приложениях без облачного клона телефона; запоминает цеп…
Solvita
агентный фреймворк непрерывного обучения для соревновательного программирования; 4 специализированных агента (Planner, Solver, Oracle, Hacker) накапливают опыт без изменения весов…
ICRL
фреймворк RL для интернализации самокритики языковой моделью; построен на Qwen3-4B/8B, код открыт (arXiv cs.AI)
SMCEvolve
метод поиска программ на основе Sequential Monte Carlo: задача переформулируется как сэмплирование из reward-tilted распределений; ориентирован на научные открытия, код открыт (arX…
SkillSmith
компилятор и рантайм для упаковки навыков агентов в минимальные исполняемые интерфейсы; исходный код и данные опубликованы на GitHub (arXiv cs.AI)
OP-Mix
алгоритм смешивания данных для тренировки LLM на всём жизненном цикле через low-rank адаптеры, обученные на текущей модели; устраняет необходимость в прокси-моделях (arXiv cs.CL)
Parallel Speculative Decoding (PSD)
фреймворк без дообучения для ускорения инференса диффузионных LLM через адаптивные политики размаскирования (arXiv cs.CL)
📅 15.05
3 модели
Supertonic v3
лёгкая on-device TTS-модель (~99M параметров, ONNX) с поддержкой 31 языка, тегами эмоций (<laugh>, <breath>, <sigh>) и сниженным числом ошибок чтения
ZAYA1-8B-Diffusion-Preview
первая MoE diffusion-модель от Zyphra, сконвертированная из авторегрессионного LLM, с ускорением до 7.7× при генерации
VectraYX-Nano
41.95M decoder-only LLM для испаноязычной кибербезопасности с нативной интеграцией MCP; опубликованы корпус, скрипты обучения и GGUF-веса (arXiv cs.CL, 2605.13989)
📅 13.05
7 моделей
GLiGuard
энкодерная safety/guardrail-модель на 300M параметров от Fastino Labs (детекция джейлбрейков, классификация вреда и отказы за один проход), лицензия Apache 2.0, опубликована на Hug…
Voxtral TTS
мультиязычная TTS-модель на 4B параметров от Mistral, архитектура Autoregressive + Flow-Matching, синтез 24 kHz (WAV/MP3/FLAC), лицензия CC BY-NC 4.0
Qwen-Image-VAE-2.0
технический отчёт от команды Qwen (Alibaba) о новой архитектуре image VAE, сопровождается публикацией модели
AnyFlow
any-step видео-диффузионная модель от NVIDIA с on-policy flow map distillation
PresentAgent-2
мультимодальный агент общего назначения для генерации презентаций от Peking University
DavidAU/Marco-Nano-Thinking-8B-A0.6B
компактная reasoning-модель на 8B параметров
OpenHuman
Rust-проект персонального приватного AI-суперинтеллекта, +1696 звёзд за день
📅 09.05
2 модели
NVIDIA Star Elastic
единый чекпойнт, содержащий вложенные ризонинг-модели на 30B/23B/12B с zero-shot «нарезкой» размера без дообучения; вариант 23B→30B даёт до +16% точности и 1.9× меньшую задержку
OncoAgent
open-source двухуровневый мульти-агентный фреймворк для приватного клинического принятия решений в онкологии
📅 08.05
2 модели
EMO (Allen AI)
MoE-модель с эмерджентной модульностью, 1B активных / 14B общих параметров, 128 экспертов, обучена на 1T токенов; веса, код и статья открыты
CyberSecQwen-4B
специализированная 4B-модель на базе Qwen3-4B-Instruct для оборонительной кибербезопасности (CWE/CVE-классификация, threat intel), Apache 2.0, запускается на 12 ГБ GPU
📅 07.05
6 моделей
TokenSpeed
открытый инференс-движок для LLM от LightSeek Foundation, нацелен на агентские нагрузки и сопоставимую с TensorRT-LLM производительность
NeuralBench / NeuralBench-EEG v1.0
открытый бенчмарк-фреймворк Meta AI для NeuroAI: 36 задач, 94 датасета, 14 архитектур, крупнейший открытый EEG-бенчмарк
Hunyuan3D-2.1
открытая модель Image-to-3D (Tencent), новая публикация на Hugging Face
gemma-4-E4B-it
instruct-вариант Gemma 4 E4B (~8B, Any-to-Any), опубликован на Hugging Face
Negentropy-claude-opus-4.7-9B (8bit / bf16)
открытые 9B-веса для генерации текста, выложены на Hugging Face
modern_DNABERT
обновлённая открытая BERT-модель для геномных последовательностей
📅 06.05
6 моделей
Voxtral TTS
TTS-модель Mistral (4B параметров) с авторегрессивно-flow-matching архитектурой и выходом 24 кГц
Gemma 4 MTP Drafters
вспомогательные модели Google для спекулятивного декодинга Gemma 4, ускорение до 3× без потери качества, Apache 2.0 на HF и Kaggle
HunyuanOCR Q8_0 GGUF
квантизованная (Q8_0) сборка HunyuanOCR (0.5B) для image-text-to-text задач, формат GGUF
TabPFN
обновление foundation-модели для табличных данных, в топе GitHub Trending за день
Kronos
open-source foundation-модель для анализа финансовых рынков и языка торговли
vLLM V0→V1
апдейт open-source инференс-движка с фокусом на корректность RL-режимов
📅 05.05
7 моделей
Voxtral TTS
TTS-модель Mistral, 4B параметров, гибрид авторегрессии и flow-matching, 24 кГц, многоязычное клонирование голоса, лицензия CC BY-NC 4.0 (marktechpost.com)
Kimi K2.6
открытая модель Moonshot, конкурирует с GPT-5.4 и Claude Opus 4.6 за счёт агентных «роёв» (the-decoder.com)
GLM-5V-Turbo
нативная мультимодальная foundation-модель для агентов от Zhipu, статья и веса на arXiv (news.ycombinator.com)
isetnefret/gemma-4-E2B-it-mlx-fp16
порт Gemma 4 E2B-it под Apple MLX в fp16, ~5B параметров, any-to-any (huggingface.co)
ThakiCloud/SkillRet-Embedding-8B
модель эмбеддингов на 8B для поиска по навыкам/sentence-similarity (huggingface.co)
core12345/codev-r1-9b-atgrpo
9B reasoning-модель для кода, дообученная методом AT-GRPO (huggingface.co)
NLP-Final-Project/mistral-7b-base-dpo
DPO-файнтюн Mistral-7B-base, открытые веса (huggingface.co)
📅 01.05
7 моделей
Nemotron 3 Nano Omni
открытая мультимодальная модель от NVIDIA, ориентированная на эффективность и агентные сценарии
MiniCPM-o 4.5
омни-модальная модель на 9B параметров с full-duplex real-time обработкой зрения, аудио и речи для edge-устройств (arxiv cs.CL)
Qwen-Scope
открытая SAE-сьюита от Qwen AI, превращающая внутренние признаки LLM в практические инструменты разработки
JaiTTS-v1.0
открытая TTS-модель клонирования голоса для тайского языка с SOTA-показателем CER (arxiv cs.CL)
Length Value Model (LenVM)
открытый token-level фреймворк для предсказания оставшейся длины генерации в LLM и VLM (arxiv cs.CL)
NeuralSet
open-source Python-пакет от Meta FAIR для нейро-AI задач: fMRI, M/EEG, спайк-записи и эмбеддинги Hugging Face
Meta Autodata
открытый агентный фреймворк, превращающий AI-модели в автономных «дата-сайентистов» для генерации качественных обучающих данных
Апрель
2026
📅 30.04
14 моделей
GLM-5V-Turbo
нативная мультимодальная foundation-модель для построения агентных систем
MiniCPM-o 4.5
9B омни-модальная модель с полнодуплексным real-time взаимодействием, требует <12 ГБ ОЗУ (arXiv cs.CL)
Tencent Hy-MT1.5-1.8B-1.25bit
440 МБ офлайн-модель перевода на 33 языка прямо на смартфоне (The Decoder)
Granite Speech 4.1 2B (IBM)
пара компактных речевых моделей: авторегрессионный ASR с переводом + неавторегрессионное редактирование
FlashKDA (Moonshot AI)
open-source CUTLASS-ядра для Kimi Delta Attention с поддержкой переменной длины батча на H20
Turning the TIDE (Пекинский ун-т)
кросс-архитектурная дистилляция для диффузионных LLM с открытым кодом
Diffusion Templates
единый plugin-фреймворк для управляемой генерации в диффузионных моделях
Praxy Voice (Praxel)
TTS commercial-класса для индийских языков с восстановлением голос-промптом
VachaSpeech-0.6B-GGUF
компактная 0.6B речевая модель в формате GGUF
Geodesic-Phantom-12B-GGUF
12B языковая модель в формате GGUF для локального запуска
Qwen2.5-VL-7B-Instruct-OmniQuant-w8a8
W8A8 OmniQuant-квантизация vision-language модели Qwen2.5-VL-7B
Whisper Ghanaian ASR
модель распознавания речи, дообученная на ганских языках
ClawGym
масштабируемый open-source фреймворк для обучения агентов-манипуляторов
Large Language Models Explore by Latent Distilling (ShanghaiTech)
метод исследования LLM через дистилляцию в латентном пространстве с открытым релизом
📅 29.04
7 моделей
Granite 4.1 (IBM)
семейство dense decoder-only LLM (3B / 8B / 30B), Apache 2.0, обучены на ~15T токенов, контекст до 512K
Nemotron 3 Nano Omni (NVIDIA)
открытая мультимодальная модель, рассуждает по тексту, изображениям, видео и аудио, под агентные нагрузки
Step-Audio-R1.5 (StepFun)
технический отчёт о новой версии аудио-модели с reasoning, топ дня по апвоутам на HF Papers
VibeVoice (Microsoft)
open-source frontier voice AI, в трендах GitHub за день
FlashQLA
высокопроизводительная библиотека ядер линейного внимания, ускорение до 3× на NVIDIA Hopper
smol-audio
набор Colab-ноутбуков для дообучения речевых и аудио-моделей
NeuralSet
Python-пакет для neuro-AI с поддержкой fMRI, M/EEG, спайков и эмбеддингов HuggingFace
📅 28.04
9 моделей
LittleLamb 0.3B
ультракомпактная модель общего назначения от Multiverse Computing, 50%-сжатая версия Qwen3-0.6B с двуязычным рассуждением
LittleLamb 0.3B Tool-Calling
вариант LittleLamb, оптимизированный под вызов инструментов и агентные сценарии
LittleLamb 0.3B Mobile
деплой-ориентированный вариант LittleLamb для on-device и мобильных применений
NVIDIA Nemotron 3 Nano Omni
мультимодальная модель с длинным контекстом для документов, аудио и видео-агентов
Marco-MoE
открытое семейство многоязычных Mixture-of-Experts моделей (~5% активных параметров) с полностью открытыми весами, датасетами и рецептом обучения (arXiv 2604.25578)
VibeVoice
open-source фронтирная голосовая AI-модель от Microsoft
OpenAI Privacy Filter
открытая модель на 1.5B параметров (50M активных) для редактирования PII и приватности данных
MING-MOE-14B
открытая Mixture-of-Experts модель на 14B параметров, опубликованная на Hugging Face
Fiber-Qwen2.5-7B
открытая модель генерации текста на базе Qwen2.5-7B от LayerEight
📅 27.04
2 модели
Talkie-1930
открытая 13B LLM, обученная исключительно на англоязычных текстах до 1931 года; для исследований исторического рассуждения и обобщения
MOSS-Audio
открытая мультимодальная аудио-foundation-модель: речь, окружающие звуки, музыка и темпоральное рассуждение в единой архитектуре, обходит более крупные проприетарные альтернативы н…
📅 26.04
10 моделей
Qwen3.6-27B
плотная 27B модель Alibaba, обходит более крупного MoE-предшественника на бенчмарках кодинга, проще в развёртывании (the-decoder.com)
Ghost-V6-Deep-Thinker
вариант Ghost-V6 с акцентом на цепочки рассуждений
Ghost-V6-Ultra-Reasoning
8B модель генерации текста с расширенными возможностями reasoning
helenk/gemma-4-finetune
мультимодальный image-text-to-text файнтюн на базе Gemma 4
BAR-7B-GGUF
7B модель в формате GGUF для локального инференса
Eve-4b-FP16-i1-GGUF
4B модель Eve в FP16 с GGUF-квантизацией
bluey-8B_GGUF
8B модель в GGUF
symfony_ai_maker-V0.5-Qwen3-0.6B
лёгкий ассистент для Symfony на основе Qwen3-0.6B, версии 16bit и LoRA
pcd-llama31-8b-singlelayer-72m-norm
экспериментальный вариант Llama 3.1 8B с однослойной архитектурой
HOIGen1M_hands_mask
модель генерации масок рук для задач Human-Object Interaction
📅 24.04
10 моделей
DeepSeek-V4-Pro
флагманская MoE-модель на 1.6T параметров с контекстом 1M токенов и архитектурой Hybrid Attention; топ среди open-моделей по коду и математике
DeepSeek-V4-Flash
облегчённая версия V4 на 284B параметров с тем же 1M-контекстом, рассчитанная на дешёвый инференс
AgenticQwen
серия малых агентных LLM, обученных через RL; чекпоинты и часть синтетических данных открыты
AFRILANGTUTOR
дообученные Llama-3-8B-IT и Gemma-3-12B-IT под 10 африканских языков, прирост 1.8–15.5% через SFT+DPO
VLAA-GUI
модульный open-source фреймворк GUI-автоматизации, 77.5% на OSWorld (arXiv 2604.21375 / UCSC-VLAA)
Decoupled DiLoCo
открытый метод устойчивого распределённого предобучения больших моделей (arXiv 2604.21428)
Huihui4-8B-A4B-GGUF
8B-модель в формате GGUF для локального инференса
Llama-3.2-3B_mathv1_grpo
версия Llama 3.2 3B, дообученная GRPO под математические задачи
ReasonAssessor
модель оценки качества рассуждений LLM
isabert-v2-stage2
ALBERT-вариант второй стадии обучения
📅 23.04
2 модели
DeepSeek-V4 (Pro и Flash)
открытые веса, гибридное внимание (CSA+HCA), контекст до 1 млн токенов, доступны на Hugging Face
OpenMythos
открытая PyTorch-реализация, достигающая глубокого рассуждения через итеративные вычисления вместо роста числа параметров
📅 21.04
3 модели
Kimi K2.6
open-weight модель от Moonshot AI, конкурирует с GPT-5.4 и Claude Opus 4.6 на задачах кодинга, поддерживает «рои» до 300 параллельных агентов; модифицированная MIT-лицензия (artifi…
ml-intern
open-source автономный ML-инженер от Hugging Face, читает статьи, обучает модели и автоматизирует post-training-пайплайн LLM (github.com/huggingface, marktechpost.com)
QIMMA قِمّة
open-source Arabic LLM Leaderboard от TIIUAE с 52 000+ примеров по 7 доменам и качественной валидацией бенчмарков (huggingface.co/blog)
📅 20.04
1 модель
Kimi K2.6 (Moonshot AI)
open-source модель для «long-horizon coding» с агентной архитектурой до 300 под-агентов и 4 000 скоординированных шагов
📅 18.04
4 модели
SAGE Celer 2.6 (5B / 10B / 27B)
многоязычная мультимодальная модель общего назначения с нативной поддержкой южноазиатских языков (деванагари, хинди, непали); три размера весов (arXiv cs.CL, новинки 18 апр.)
RAD-2
масштабируемая система обучения с подкреплением в схеме «генератор–дискриминатор»; авторы утверждают улучшение на задачах рассуждения по сравнению с GRPO
HY-World 2.0
мультимодальная world-модель для реконструкции, генерации и симуляции 3D-миров; поддерживает видео и изображения
Gemini Robotics-ER 1.6
модель Google DeepMind для воплощённого рассуждения в робототехнике; статья о релизе опубликована 18 апр. на The Decoder (статус открытых весов не подтверждён)
📅 17.04
9 моделей
NVIDIA Nemotron OCR v2
быстрая мультиязычная OCR-модель с гибридной архитектурой (детектор + распознаватель + реляционная модель); 6 языков, 34 страницы/сек на A100; лицензия NVIDIA Open Model License (h…
HY-World 2.0
мультимодальная world model для реконструкции, генерации и симуляции 3D-миров; 45 авторов
RAD-2
модель масштабирования RL в фреймворке генератор-дискриминатор; Huazhong University of Science and Technology
HiVLA
иерархическая воплощённая манипуляционная система с визуальной привязкой; 11 авторов
GlobalSplat
эффективный feed-forward 3D Gaussian Splatting через глобальные токены сцены; Hebrew University of Jerusalem
MM-WebAgent
иерархический мультимодальный веб-агент для генерации веб-страниц; Microsoft Research
SAGE Celer 2.6
модель общего назначения 5B–27B параметров с мультимодальными возможностями и оптимизацией для южноазиатских языков (arXiv cs.CL, 17.04.2026)
APEX-MEM
разговорная система памяти на основе граф свойств с темпоральным рассуждением для долгосрочных взаимодействий (arXiv cs.CL, 17.04.2026)
HUOZIIME
on-device LLM-расширенный метод ввода для мобильных устройств с иерархическим механизмом памяти (arXiv cs.CL, 17.04.2026)
📅 16.04
8 моделей
Qwen3.6-35B-A3B (Alibaba)
открытая MoE-модель на 35B параметров (3B активных), можно запустить локально на ноутбуке; по неформальным тестам обходит Claude Opus 4.7 в ряде задач
Gemma 4 (Google DeepMind)
открытая мультимодальная модель для агентного AI с локальным запуском на мобильных устройствах, данные не покидают устройство
Parcae (UCSD + Together AI Research)
новая архитектура «зацикленных» языковых моделей, которая достигает качества трансформера вдвое большего размера при меньшем числе параметров
SAGE Celer 2.6 (SAGEA Research Team)
семейство открытых моделей 5B/10B/27B с нативной мультимодальностью и усиленной поддержкой южноазиатских языков (хинди, непали, деванагари)
HY-World 2.0 (Tencent)
мультимодальная мировая модель для реконструкции, генерации и симуляции 3D-миров
RAD-2
масштабируемая система обучения с подкреплением в рамках генератор-дискриминатор; улучшает качество рассуждений LLM
LeapAlign (ByteDance Seed)
метод пост-тренинга flow matching моделей на любом шаге генерации, значительно ускоряет обучение
Cross-Tokenizer LLM Distillation
открытый метод дистилляции LLM через байтовый интерфейс, не зависящий от токенизатора модели-учителя
📅 15.04
15 моделей
NVIDIA Ising
первые в мире открытые AI-модели для ускорения пути к полезным квантовым вычислениям: 2.5× прирост производительности и 3× рост точности по сравнению с существующими open-source ст…
VAKRA (IBM Research)
агентная система с анализом рассуждений, использования инструментов и режимов отказа у AI-агентов
Seedance 2.0 (ByteDance Seed)
продвинутая модель видеогенерации для моделирования сложного мира
EVE 24B
первая специализированная LLM-система для наук о Земле и спутникового наблюдения, 24B параметров
PersonaVLM
мультимодальная LLM с долгосрочной персонализацией: запоминание, рассуждение и адаптация к предпочтениям пользователя (arXiv)
MM-Doc-R1
агентная vision-система для сложных запросов по длинным документам с итеративным поиском информации (arXiv)
TREX
автоматизация fine-tuning LLM через исследование дерева решений агентами
UI-Copilot
система автоматизации GUI на длинных горизонтах с tool-integrated оптимизацией
GameWorld
стандартизированный фреймворк оценки мультимодальных игровых агентов (NUS)
SpatialEvo
саморазвивающийся пространственный интеллект через детерминированные геометрические среды
RationalRewards
масштабирование визуальной генерации через рассуждения о наградах
MERRIN
бенчмарк для мультимодального поиска и рассуждений в зашумлённой веб-среде
UI-Zoomer
адаптивное масштабирование с учётом неопределённости для точной привязки элементов GUI
TIP
метод дистилляции on-policy с учётом важности токенов (Princeton University)
ROSE
улучшение сегментации изображений, ориентированное на задачи поиска
📅 14.04
6 моделей
GLM-5.1
открытая модель от Z.ai под лицензией MIT, превосходит GPT-5.4 и Opus 4.6 на задачах кодирования (SWE-Bench), поддерживает локальный запуск и файнтюнинг (scitech.whatfinger.com)
Nemotron 3 Super
открытая гибридная MoE-модель NVIDIA на архитектуре Mamba-Transformer для агентных рассуждений
Audio Flamingo Next (AF-Next)
открытая аудио-языковая модель нового поколения от NVIDIA и Университета Мэриленда для речи, звука и музыки (marktechpost.com + Hugging Face Papers)
ClawGUI
открытый фреймворк Чжэцзянского университета для обучения, оценки и развёртывания GUI-агентов; самая популярная статья дня (307 голосов)
Bielik v3 7B / 11B
открытые польскоязычные языковые модели от SpeakLeash с оптимизированной токенизацией
TorchUMM
открытая унифицированная мультимодальная кодовая база от Университета Карнеги–Меллон для оценки, анализа и пост-тренировки мультимодальных моделей
📅 13.04
12 моделей
HY-Embodied-0.5 (Tencent Hunyuan)
фундаментальные модели для воплощённых агентов на архитектуре Mixture-of-Transformers с улучшенным визуальным восприятием и рассуждением в реальном мире
Audio Flamingo Next (NVIDIA)
следующее поколение открытых аудио-языковых моделей для речи, звука и музыки
WildDet3D (AI2 / Allen Institute)
унифицированный фреймворк 3D-обнаружения объектов в открытом мире с поддержкой множества типов подсказок
VOID (Netflix)
модель удаления объектов из видео с использованием VLM и диффузионных моделей для генерации физически правдоподобных сцен
LPM 1.0
мультимодальная модель большого масштаба для генерации персонажей в реальном времени с бесконечной длиной видео
RefineAnything (Zhejiang University)
диффузионная мультимодальная модель для регионально-специфичного уточнения изображений с сохранением фона
MegaTrain
метод полноточного обучения моделей 100B+ параметров на одном GPU через хранение в памяти хоста
Kronos (shiyu-coder)
фундаментальная модель для языка финансовых рынков
NousResearch/hermes-agent
агентный ИИ-фреймворк нового поколения на базе открытых весов
ClawGUI
унифицированный фреймворк для обучения, оценки и развёртывания GUI-агентов
CodeTracer
система трассировки состояний агентов при написании кода
OmniShow (ByteDance)
модель генерации видео взаимодействий человека и объектов с мультимодальными условиями
📅 12.04
6 моделей
MiniMax M2.7
языковая модель от MiniMax с контекстным окном 205K токенов, стала доступна через API Fireworks и Together AI одновременно (pricepertoken.com)
llama.cpp b8766
плановый релиз инференс-движка llama.cpp: бинарные сборки для Windows (CUDA 12.4 / 13.1), macOS (arm64/x64) и openEuler (aarch64/x86); исходный код выпущен в 12:15 UTC
Arcee AI Trinity-Large-Thinking
открытая модель рассуждений на 400 миллиардов параметров от стартапа Arcee AI, позиционируется как конкурент Claude Opus в агентских задачах; компания вложила около половины всех в…
NousResearch/hermes-agent
открытый агентский фреймворк «агент, который растёт вместе с тобой»; вышел в топ GitHub Trending с 7 400+ звёздами за сутки
shiyu-coder/Kronos
фундаментальная модель для языка финансовых рынков, 1 985 новых звёзд за день на GitHub
OpenBMB/VoxCPM
многоязычная TTS-система с клонированием голоса от OpenBMB, появилась в GitHub Trending
📅 11.04
9 моделей
LFM2.5-VL-450M (Liquid AI)
компактная 450M-параметровая vision-language модель для edge-устройств: предсказание ограничивающих рамок (RefCOCO-M: 81.28), многоязычность, вызов функций, инференс < 250 мс на Sn…
Waypoint-1.5 (Overworld)
обновлённая модель генерации интерактивных 3D-миров в реальном времени; обучена на объёме данных в ~100× больше предыдущей версии; поддерживает Mac и Windows, 60 fps при 720p на мо…
HY-Embodied-0.5 (Tencent Hunyuan)
фундаментальная модель для воплощённых агентов реального мира, выложена на HuggingFace; вошла в топ по просмотрам Daily Papers (427 просмотров)
OpenVLThinkerV2 (UCLA NLP)
мультимодальная reasoning-модель общего назначения для задач из нескольких визуальных доменов, open weights
MolmoWeb
открытый визуальный веб-агент с открытыми данными для работы в браузере; построен на базе Molmo
SkillClaw
open-source агентная система коллективной эволюции навыков; агенты обмениваются и улучшают умения автономно
NousResearch/hermes-agent
MIT-лицензированный самообучающийся AI-агент с персистентной памятью; в день 11.04 набрал +7 450 GitHub-звёзд (66k итого); поддержка Telegram, Discord, Slack, WhatsApp, CLI
OpenBMB/VoxCPM
TTS-модель без токенизатора для многоязычного синтеза речи, open source
shiyu-coder/Kronos
фундаментальная модель «языка финансовых рынков», open source, +1 998 звёзд за день
📅 10.04
10 моделей
HY-Embodied-0.5
воплощённые фундаментальные модели Tencent Hunyuan для управления реальными роботизированными агентами
MemReader-0.6B / MemReader-4B
компактные модели для извлечения долгосрочной памяти LLM-агентов из неструктурированного текста (arXiv cs.CL 2604.07877)
Kathleen
сверхлёгкая архитектура классификации текста (733K параметров) на байтовых входах без токенизатора (arXiv cs.CL 2604.07969)
VoxCPM2 (OpenBMB/VoxCPM)
многоязычная TTS-модель без токенизатора, поддерживает генерацию речи в реальном времени
Kronos (shiyu-coder/Kronos)
фундаментальная модель для моделирования языка финансовых рынков
NousResearch/hermes-agent
открытый агентский фреймворк «агент, который растёт вместе с вами»
SkillClaw
система коллективной эволюции навыков для многопользовательских LLM-агентов
MegaStyle
Tencent: масштабируемая генерация стилистических датасетов через согласованное text-to-image отображение
Wan 2.7
набор из четырёх open-source моделей генерации видео: создание, продолжение, редактирование, reference-driven workflows
RhymeTagger
языконезависимый инструмент-модель для распознавания рифм на 7 языках (arXiv cs.CL 2604.08156)
📅 09.04
10 моделей
Waypoint-1.5
real-time видеомодель для генерации интерактивных виртуальных миров от Overworld; работает на потребительском железе (RTX 3090–5090), 720p при 60 FPS; доступна как Waypoint-1.5-1B…
Sentence Transformers v5.4
обновление open-source библиотеки с поддержкой мультимодальных embedding- и reranker-моделей (текст, изображения, аудио, видео); поддерживает Qwen3-VL-Embedding, NVIDIA Llama Nemot…
RAGEN-2 (2604.06268)
фреймворк/исследование MLL Lab о коллапсе рассуждений в агентном обучении с подкреплением; 2.6k лайков на HF Papers
INSPATIO-WORLD (2604.07209)
real-time 4D симулятор мира на основе пространственно-временного авторегрессионного моделирования, 23 автора; 785 лайков
MARS (2604.07023)
метод для многотокенной генерации в авторегрессионных моделях от Nanyang Technological University
Think in Strokes, Not Pixels (2604.04746)
генерация изображений через пошаговое рассуждение (process-driven), AI at Meta
SkillClaw
система коллективной эволюции навыков с помощью агентного эволюционера, NAIL-Group
ClawBench
бенчмарк для оценки способности AI-агентов выполнять повседневные онлайн-задачи, NAIL-Group
SEVerA (2603.25111)
верифицированный синтез самоэволюционирующих агентов
Combee (2604.04247)
масштабирование обучения промптам для самосовершенствующихся LLM-агентов, UC Berkeley
📅 08.04
4 модели
GLM-5.1
открытая модель от Z.AI (Zhipu AI), 754B параметров (архитектура MoE), лицензия MIT; способна автономно работать до 8 часов, превосходит Claude Opus 4.6 на SWE-Bench Pro; веса дост…
MedGemma 1.5
медицинская мультимодальная модель Google на базе Gemma, технический отчёт опубликован на Hugging Face Daily Papers 8 апреля; ориентирована на клинические и биомедицинские задачи
Paper Circle
open-source мульти-агентный фреймворк для поиска и анализа научных публикаций, от Mohamed Bin Zayed University of AI; опубликован на Hugging Face Papers 8 апреля
--
--
📅 07.04
6 моделей
GLM-5.1
флагманская модель Z.ai (бывш. Zhipu AI), 744B параметров (MoE, 40B активных), лицензия MIT, контекст 200K токенов; заняла #1 на SWE-Bench Pro (58.4 балла), обогнав GPT-5.4 и Claud…
MinerU2.5-Pro
модель для масштабного парсинга документов от OpenDataLab, ориентированная на высококачественное извлечение структурированных данных; бумага опубликована на HuggingFace Daily Paper…
TriAttention
метод/модуль от NVIDIA для эффективного длинного рассуждения с тригонометрическим сжатием KV-кэша; снижает вычислительную нагрузку при длинных контекстах; бумага опубликована на Hu…
BidirLM
архитектура преобразования каузальных LLM в двунаправленные энкодеры («Decoder To Encoder»); позволяет создавать мощные эмбеддинг-модели из decoder-only основ; бумага опубликована…
Vero
открытый RL-рецепт для общего визуального рассуждения (General Visual Reasoning); бумага опубликована на HuggingFace Daily Papers 07.04 (huggingface.co/papers)
OpenWorldLib
единая кодовая база и формализация продвинутых World Models от Пекинского университета; опубликована на HuggingFace Daily Papers 07.04 (huggingface.co/papers)
📅 06.04
8 моделей
InCoder-32B-Thinking
Промышленная кодовая «world model» с возможностями рассуждения (thinking), 32B параметров, 25+ авторов; 226 голосов на HuggingFace (huggingface.co/papers)
GrandCode
Агентная система на основе RL, достигающая уровня гроссмейстера в соревновательном программировании; 349 голосов на HuggingFace (huggingface.co/papers, DeepReinforce)
Self-Distilled RLVR
Метод обучения с подкреплением через самодистилляцию для языковых моделей; 155 голосов на HuggingFace (huggingface.co/papers)
VoxCPM2 (OpenBMB)
TTS-модель без токенизатора для многоязычной генерации речи, клонирования голоса и творческого синтеза; +1 276 звёзд за день (github.com/trending)
Kronos (shiyu-coder)
Фундаментальная модель для языка финансовых рынков; +1 998 звёзд за день (github.com/trending)
hermes-agent (NousResearch)
Открытая агентная AI-система «растущая вместе с пользователем»; +7 450 звёзд за день (github.com/trending)
A Simple Baseline for Streaming Video Understanding (LMMs-Lab)
Базовый подход для понимания потокового видео в реальном времени; 72 голоса на HuggingFace (huggingface.co/papers)
Agentic-MME
Бенчмарк для оценки вклада агентных возможностей в мультимодальный интеллект; 36 голосов на HuggingFace (huggingface.co/papers)
📅 05.04
8 моделей
Generative World Renderer
генеративная модель рендеринга мира (Shanda AI Research Tokyo), 554 лайка (huggingface.co/papers)
VOID: Video Object and Interaction Deletion
модель удаления объектов и взаимодействий из видео (Netflix Research), 1490 лайков (huggingface.co/papers)
CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery
фреймворк автономной эволюции мультиагентных систем (MIT), 440 лайков (huggingface.co/papers)
SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization
метод обучения с подкреплением для интернализации навыков агентов, 184 лайка (huggingface.co/papers)
DataFlex: A Unified Framework for Data-Centric Dynamic Training of LLMs
унифицированный фреймворк динамического обучения LLM (Peking University), 198 лайков (huggingface.co/papers)
The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
масштабный обзорный труд о пространстве скрытых представлений в нейросетях, 680 лайков (huggingface.co/papers)
Steerable Visual Representations
управляемые визуальные представления (UTN / Fundamental AI Lab), 65 лайков (huggingface.co/papers)
EgoSim: Egocentric World Simulator for Embodied Interaction Generation
симулятор эгоцентрического мира для воплощённых агентов, 34 лайка (huggingface.co/papers)
📅 04.04
15 моделей
Wan 2.7
набор из четырёх видеомоделей (генерация, продолжение, reference-driven и редактирование), стал доступен на Together AI
Deepgram STT & TTS
производственные модели распознавания и синтеза речи от Deepgram, добавлены в Together AI Dedicated Model Inference
T5Gemma-TTS
TTS-модель на основе архитектур T5 и Gemma, технический отчёт опубликован на HuggingFace (huggingface.co/papers)
DataFlex
единый фреймворк для динамического обучения LLM с данно-центричным подходом, Пекинский университет (huggingface.co/papers)
Generative World Renderer
генеративная модель рендеринга трёхмерных миров, Shanda AI Research Tokyo (huggingface.co/papers)
SKILL0
фреймворк интернализации навыков через агентное обучение с подкреплением в контексте (huggingface.co/papers)
CORAL
система автономной мультиагентной эволюции для открытых научных открытий, MIT (huggingface.co/papers)
Nemotron-Cascade-2-30B-A3B
NVIDIA, каскадная MoE-архитектура для эффективного инференса агентных систем (huggingface.co/models, trending 2026-04-04)
LFM2.5-350M
ультра-компактная 350M-параметровая liquid foundation model для edge-устройств, LiquidAI (huggingface.co/models, trending 2026-04-04)
context-1
первая генеративная модель ChromaDB, оптимизированная для retrieval-augmented задач (huggingface.co/models, trending 2026-04-04)
harrier-oss-v1-0.6b
600M embedding-модель Microsoft на базе Qwen3, протестирована на MTEB (huggingface.co/models, trending 2026-04-04)
NousResearch/hermes-agent
открытый агентный фреймворк «растущий вместе с пользователем», 7 450 звёзд за день (github.com/trending)
Kronos
foundation model для языка финансовых рынков, shiyu-coder (github.com/trending)
VoxCPM
многоязычная TTS-модель без токенизатора, OpenBMB (github.com/trending)
sam3.1
Meta Segment Anything 3.1 с нативной сегментацией видео (huggingface.co/models, trending 2026-04-04)
📅 03.04
11 моделей
Woosh
фундаментальная модель для генерации звуковых эффектов от Sony; опубликована на HuggingFace Papers (huggingface.co/papers/date/2026-04-03)
Apriel-Reasoner
модель ServiceNow с RL-постобучением для универсального и эффективного рассуждения (huggingface.co/papers/date/2026-04-03)
T5Gemma-TTS
технический отчёт и модель синтеза речи от Google на базе архитектур T5 и Gemma (huggingface.co/papers/date/2026-04-03)
Generative World Renderer
генеративная модель рендеринга виртуальных миров от Shanda AI Research Tokyo (huggingface.co/papers/date/2026-04-03)
UniDriveVLA
vision-language-action модель для автономного вождения от Huazhong University of Science and Technology (huggingface.co/papers/date/2026-04-03)
Kronos
фундаментальная модель для языка финансовых рынков
VoxCPM2 (OpenBMB)
TTS-модель без токенизатора для многоязычной генерации речи, клонирования голоса и творческого дизайна звука
NousResearch/hermes-agent
открытый агентный фреймворк «модель, которая растёт вместе с тобой»
CORAL (MIT)
фреймворк для эволюции мультиагентных систем в целях открытых научных открытий (huggingface.co/papers/date/2026-04-03)
EgoSim
эгоцентрический симулятор мира для генерации воплощённых взаимодействий (huggingface.co/papers/date/2026-04-03)
ASI-Evolve (SII-GAIR)
фреймворк «ИИ ускоряет ИИ» для самоулучшения систем (huggingface.co/papers/date/2026-04-03)
📅 02.04
10 моделей
Gemma 4 E2B
Эффективная модель Google на ~2B параметров, мультимодальная (текст, изображения, аудио), оптимизирована для работы прямо на устройстве, лицензия Apache 2.0
Gemma 4 E4B
Эффективная модель Google на ~4B параметров, мультимодальная, edge-ориентированная, контекст до 256K токенов, 140+ языков, лицензия Apache 2.0
Gemma 4 26B MoE
Модель Google на 26B параметров, архитектура Mixture-of-Experts, занимает #6 в открытом рейтинге Arena AI, лицензия Apache 2.0
Gemma 4 31B Dense
Флагманская плотная модель Google на 31B параметров, #3 в открытом рейтинге Arena AI среди открытых моделей, лицензия Apache 2.0
Wan 2.7
Набор из четырёх открытых моделей для генерации видео: text-to-video, продолжение видео, reference-driven генерация и редактирование, доступен через Together AI
ClawKeeper
Фреймворк комплексной защиты безопасности для агентов OpenClaw через навыки, плагины и наблюдателей, код открыт
Terminal Agents Suffice for Enterprise Automation
Модель/фреймворк от ServiceNow AI для автоматизации корпоративных задач через терминальных агентов
MiroEval
Открытый бенчмарк от MiroMind AI для оценки мультимодальных агентов глубокого исследования, включает эталонные модели
ViGoR-Bench
Открытый бенчмарк от Meituan для оценки визуальных генеративных моделей как zero-shot визуальных рассуждателей
Vision2Web
Открытый иерархический бенчмарк от Z.ai для разработки веб-сайтов с помощью визуальных агентов
📅 01.04
3 модели
Holo3-35B-A3B
агентная модель для управления компьютером от H Company (35B параметров, 10B активных), лицензия Apache 2.0; достигла 78.85% на бенчмарке OSWorld-Verified — новый SOTA для desktop…
Falcon Perception
открытая vision-модель от Technology Innovation Institute (TII, ОАЭ), 0.6B параметров; early-fusion трансформер для open-vocabulary grounding и сегментации по текстовым промптам; т…
TRL v1.0
Hugging Face выпустил стабильную версию библиотеки пост-обучения: унифицированный стек для SFT, Reward Modeling, DPO и GRPO с единым CLI и API; ориентирован на продакшн-использован…
Март
2026
📅 31.03
4 модели
Granite 4.0 3B Vision
компактная мультимодальная модель IBM Granite для обработки корпоративных документов; поддерживает текст и изображения в едином небольшом пакете
TRL v1.0
крупный релиз библиотеки пост-обучения языковых моделей от Hugging Face; версия 1.0 знаменует стабилизацию API и полную поддержку современных методов RLHF/DPO/PPO
mRNA Language Models (OpenMed)
мультивидовые языковые модели для мРНК, обученные на 25 биологических видах за $165; исследовательский релиз с открытыми весами
Mamba-3
open-source SSM-архитектура от Together AI; быстрее трансформеров при декодировании, превосходит Mamba-2 по качеству, открытая с первого дня релиза
📅 30.03
12 моделей
Mr. Chatterbox
языковая модель, обученная на 28 000+ текстах викторианской эпохи из British Library; предназначена для локального запуска на обычных ПК, доступна на Hugging Face (simonwillison.ne…
ShotStream
модель потоковой мультикадровой генерации видео для интерактивного сторителлинга; 116 голосов сообщества
PackForcing (Shanda AI Research Tokyo)
показывает, что короткое видеообучение достаточно для долгосрочного семплирования и длинного контекстного инференса; 233 голоса
Out of Sight but Not Out of Mind (H-EmbodVis)
гибридная память для динамических видео-world-моделей; 221 голос
Know3D (Peking University)
3D-генерация с использованием знаний из vision-language моделей; 89 голосов
Sommelier (KAIST AI)
масштабируемая аудиопредобработка для full-duplex речевых языковых моделей; 40 голосов
RealChart2Code (Qwen)
улучшенная генерация кода из диаграмм на реальных данных с многозадачной оценкой; 47 голосов
Trace2Skill
метод дистилляции навыков агентов из локальных траекторий для повторного использования в новых задачах
Diffutron (Diffutron org)
маскированная диффузионная языковая модель, специализированная для турецкого языка
Composer 2
технический отчёт новой версии крупной языковой модели, 55 авторов; вероятно Databricks/MosaicML
GenMask
адаптация Diffusion Transformer (DiT) для задач сегментации через прямые маски
MedOpenClaw (TU Munich)
аудируемая агентная система рассуждений для медицинского анализа изображений на неструктурированных данных
📅 27.03
5 моделей
Intern-S1-Pro
первая мультимодальная научная фундаментальная модель с 1 триллионом параметров от InternLM; охватывает химию, материаловедение, науки о жизни и Earth Sciences; открытые веса на Hu…
Voxtral TTS
выразительная многоязычная TTS-модель от Mistral AI; клонирует голос всего из 3 секунд референсного аудио; win rate 68.4% против ElevenLabs Flash v2.5; веса опубликованы под лиценз…
PixelSmile
модель для тонкого редактирования мимики лица от Fudan University; позволяет управлять выражениями лица с высокой точностью
Calibri
метод parameter-efficient калибровки диффузионных трансформеров от группы Visual Generative AI; повышает качество генерации без полного дообучения
RealRestorer
обобщённая модель восстановления реальных изображений от SUSTech; использует крупномасштабные модели редактирования изображений
📅 26.03
1 модель
Voxtral-4B-TTS-2603
открытая TTS-модель от Mistral AI на 4B параметров для синтеза речи: поддерживает 9 языков (английский, французский, немецкий, испанский, нидерландский, португальский, итальянский…
📅 25.03
15 моделей
MinerU-Diffusion
переосмысление OCR документов как задачи обратного рендеринга через диффузионное декодирование
WildWorld
крупномасштабный датасет для динамического моделирования мира с действиями и явными состояниями для генеративных ARPG
ABot-PhysWorld
интерактивная world foundation model для роботизированных манипуляций с выравниванием физики
Attend Before Attention
эффективное и масштабируемое понимание видео через авторегрессионный механизм взгляда
SpecEyes
ускорение агентных мультимодальных LLM через спекулятивное восприятие и планирование
PEARL
персонализированная модель для понимания потокового видео в реальном времени
SIMART
декомпозиция монолитных мешей в готовые к симуляции шарнирные объекты через MLLM
UniGRPO
унифицированная оптимизация политики для визуальной генерации с рассуждением
RealMaster
перенос отрендеренных сцен в фотореалистичное видео
2Xplat
исследование: два специализированных эксперта лучше, чем один генералист
Ego2Web
бенчмарк для веб-агентов на основе эгоцентрических видеозаписей
CanViT
foundation model для задач активного зрения
ThinkJEPA
усиление латентных world models через большую vision-language модель рассуждения
VP-VLA
визуальное промптирование как интерфейс для vision-language-action моделей
AgentSLR
автоматизация систематических литературных обзоров в эпидемиологии с помощью агентного ИИ
📅 24.03
15 моделей
Speed by Simplicity
одностримовая архитектура для быстрой аудио-видео генеративной фундаментальной модели
OpenResearcher
полностью открытый пайплайн для синтеза траекторий глубокого исследования с длинным горизонтом; TIGER-Lab
Repurposing Geometric Foundation Models
переиспользование геометрических фундаментальных моделей для многоракурсной диффузии; KAIST AI
Omni-WorldBench
комплексный бенчмарк для оценки world-моделей с фокусом на интерактивности; Alibaba Inc
Manifold-Aware Exploration
обучение с подкреплением для видеогенерации на основе исследования многообразий; Tencent Hunyuan
Look Where It Matters
высокоэффективное извлечение высокоразрешённых кропов для ускорения VLM; IBM Research
LongCat-Flash-Prover
нативное формальное рассуждение через агентное обучение с подкреплением с интеграцией инструментов; LongCat / Meituan
VideoDetective
поиск улик в длинных видео через внешние запросы и внутреннюю релевантность; Nanjing University
SpatialBoost
улучшение визуального представления через языковое пространственное рассуждение; KAIST AI
mSFT
гетерогенная борьба с переобучением на смесях датасетов при многозадачном SFT
F4Splat
предиктивное уплотнение feed-forward 3D Gaussian Splatting
BubbleRAG
RAG на основе доказательств для чёрно-ящичных графов знаний
PivotRL
агентный пост-трейнинг с высокой точностью при низких вычислительных затратах; NVIDIA
EVA (Evaluating Voice Agents)
новый фреймворк оценки голосовых агентов; ServiceNow-AI
AdditiveLLM2
мультимодальная LLM для аддитивного производства (3D-печать); Carnegie Mellon University
📅 23.03
7 моделей
Voxtral-4B-TTS-2603
текстово-речевая (TTS) модель от Mistral AI с открытыми весами, 4B параметров, поддерживает 9 языков (EN/FR/DE/ES/IT/PT/NL/AR/HI), 20 встроенных голосов, задержка ~90 мс, лицензия…
Hyperagents
исследовательская работа об архитектуре мультиагентных систем на основе LLM, набрала 2.23k лайков на HuggingFace Daily Papers в день публикации (huggingface.co/papers)
The Y-Combinator for LLMs
метод решения проблемы деградации длинного контекста в языковых моделях с применением λ-исчисления (huggingface.co/papers)
Astrolabe
подход к управлению обучением с подкреплением для дистиллированных авторегрессионных видеогенераторов (huggingface.co/papers)
TerraScope
мультимодальная модель для попиксельных визуальных рассуждений при анализе спутниковых снимков Земли (huggingface.co/papers)
HopChain
фреймворк синтеза многошаговых данных для улучшения reasoning в vision-language моделях, от команды Qwen/Alibaba (huggingface.co/papers)
ProactiveBench
бенчмарк для оценки проактивности мультимодальных больших языковых моделей (huggingface.co/papers)
📅 20.03
6 моделей
Nemotron-Cascade 2 (NVIDIA)
открытая 30B MoE-модель с 3B активных параметров; превосходит модели втрое большего размера на задачах математики и кода; получила золотые медали IMO, IOI и ICPC; веса опубликованы…
Generation Models Know Space (arxiv 2603.19235, H-EmbodVis)
исследование и модель, использующие неявные 3D-приоры генеративных моделей для понимания сцен и окружающей среды
SAMA (arxiv 2603.19228, Baidu)
модель редактирования видео по инструкциям, основана на факторизованной семантической привязке и выравнивании движения
3DreamBooth (arxiv 2603.18524, Yonsei University)
модель генерации высококачественного 3D-видео, ориентированного на конкретный субъект (subject-driven)
FASTER (arxiv 2603.19199, HKU)
переосмысление подхода к обучению роботов в реальном времени (Real-Time Flow VLAs)
Llama Nemotron VL RAG (NVIDIA)
мультимодальные RAG-модели на базе Llama Nemotron для понимания PDF и визуальных документов в 1B-варианте
📅 18.03
7 моделей
MiniMax M2.7
облегчённая языковая модель от MiniMax с лицензией MIT, поддерживает генерацию текста (llm-stats.com)
InCoder-32B
32B кодовая модель-основа для промышленных сценариев от Beihang University
MiroThinker-1.7 & H1
тяжёлые исследовательские агенты с верификацией от MiroMind AI
Qianfan-OCR
унифицированная сквозная модель для распознавания документов и интеллектуальной обработки от Baidu
Kinema4D
кинематическое 4D-моделирование мира для пространственно-временной симуляции воплощённых агентов от MMLab@NTU
WorldCam
интерактивная авторегрессивная модель 3D-игровых миров с унифицированным геометрическим представлением от Adobe Research
OpenBMB/VoxCPM
безтокенизаторная TTS-модель для многоязычной генерации речи и клонирования голоса
📅 17.03
1 модель
Mistral Small 4
открытая модель весом 119 млрд параметров (MoE, 4 активных эксперта из 128), лицензия Apache 2.0; ускоряет выполнение запросов до 40%, требует минимум 4× Nvidia HGX H100
📅 16.03
8 моделей
Mistral Small 4
MoE-модель 119B параметров (6B активных), мультимодальная (текст + изображения), контекст 256k, встроенный reasoning и агентный кодинг, лицензия Apache 2.0 (mistral.ai/news)
Nemotron-Cascade 2
открытая 30B MoE-модель NVIDIA (3B активных параметров), достигла уровня золотых медалей на IMO/IOI/ICPC, пайплайн постобучения Cascade RL опубликован в репозитории NeMo-RL (resear…
Isaac GR00T N1.7
открытая рассуждающая VLA-модель NVIDIA для гуманоидных роботов, готова к коммерческому развёртыванию (nvidianews.nvidia.com)
Alpamayo 1.5
рассуждающая VLA-модель NVIDIA для автономных транспортных средств, поддерживает несколько камер и навигационные подсказки (nvidianews.nvidia.com)
Cosmos 3
открытая физическая AI-модель NVIDIA для роботов и беспилотного транспорта (nvidianews.nvidia.com)
Proteina-Complexa
открытая модель NVIDIA (BioNeMo) для ускорения открытия белковых препаратов, создана совместно с Google DeepMind, EMBL-EBI и SNU (nvidianews.nvidia.com)
OmniForcing
модель совместной генерации аудио и видео в реальном времени
Cheers
унифицированная мультимодальная модель, разделяющая детали патчей от семантических представлений для понимания и генерации
📅 14.03
10 моделей
FireRedASR2S
промышленная all-in-one система распознавания речи (ASR + VAD + LID + пунктуация) от FireRed Team; поддерживает китайский мандаринский, 20+ диалектов, английский и пение; открытый…
DVD (Deterministic Video Depth Estimation)
первый фреймворк для детерминированной оценки глубины видео на основе предобученных диффузионных моделей; однопроходный инференс, SOTA-качество на 163× меньших данных; код открыт н…
Neural Thickets / RandOpt
исследование MIT: окрестность предобученных весов уже содержит специализированных «экспертов»; метод RandOpt (случайная выборка + голосование) сравним с PPO/GRPO; код открыт
Mobile-GS
система Gaussian Splatting в реальном времени для мобильных устройств; 228 апвоутов на HuggingFace
XSkill
модель для непрерывного обучения мультимодальных агентов через накопление опыта и навыков; 166 апвоутов
Spatial-TTT
модель Tencent Hunyuan для потоковой пространственной визуальной аналитики с test-time training; 91 апвоут
IndexCache
метод Z.ai для ускорения разреженного внимания через повторное использование индексов между слоями; 53 апвоута
ShotVerse
модель Tencent для кинематографического управления камерой в text-to-video генерации нескольких планов; 34 апвоута
DreamVideo-Omni
модель Alibaba TongyiLab для кастомизации видео с несколькими субъектами и полным управлением движением через Latent Identity RL; 31 апвоут
Tiny Aya (Cohere Labs)
компактная мультиязычная языковая модель на 3.35B параметров, поддерживает 70+ языков, работает локально; бумага появилась 14 марта (основной релиз модели — февраль 2026)
📅 13.03
15 моделей
Neural Thickets
MIT: метод создания разнообразных специализированных экспертов вокруг предобученных весов без переобучения
FireRedASR2S
промышленная система распознавания речи «всё-в-одном», state-of-the-art на нескольких бенчмарках
DVD: Deterministic Video Depth Estimation
детерминированная оценка глубины на видео с использованием генеративных приоров
Mobile-GS
real-time Gaussian Splatting для мобильных устройств: рендеринг 3D-сцен прямо на смартфоне
Spatial-TTT
Tencent Hunyuan/Tsinghua: потоковый анализ пространственного видео с адаптацией весов в реальном времени (Test-Time Training)
XSkill
непрерывное обучение мультимодальных агентов на основе накопленного опыта и навыков
ShotVerse
Tencent: управление кинематографической камерой при текстово-управляемой многокадровой генерации видео
IndexCache
Z.ai: ускорение разреженного внимания в LLM за счёт переиспользования индексов между слоями
OmniStream
единая модель для непрерывного восприятия, реконструкции и управления действиями в потоковом режиме
Training LMs via Neural Cellular Automata
обучение языковых моделей с помощью нейронных клеточных автоматов: новая парадигма архитектуры
EVATok
HKU: адаптивная токенизация видео переменной длины для эффективной авторегрессионной генерации
One Model, Many Budgets
Snapchat Inc.: гибкие латентные интерфейсы для диффузионных трансформеров с поддержкой нескольких бюджетов вычислений
DreamVideo-Omni
Alibaba TongyiLab: настройка мультисубъектного видео с полным управлением движением и латентным усилением идентичности
Tiny Aya
Cohere Labs: многоязычная малая языковая модель, перекидывающая мост между масштабом и глубиной охвата языков
EndoCoT
Intern Large Models: масштабирование эндогенной цепочки рассуждений в диффузионных моделях
📅 12.03
6 моделей
Mamba-3
SSM-архитектура, созданная совместно Together AI, CMU и Princeton; быстрее трансформеров на стадии декодирования, превосходит Mamba-2, open-source с первого дня
OpenClaw-RL
фреймворк Princeton AI Lab для обучения агентов через диалог на естественном языке без ручного программирования наград; 4.83k upvotes на HF Papers (huggingface.co/papers)
Flash-KMeans
алгоритм точной кластеризации K-Means от UC Berkeley с резко сниженным потреблением памяти и ускоренным вычислением; 531 upvote на HF Papers (huggingface.co/papers)
LLM2Vec-Gen
метод получения генеративных эмбеддингов из LLM без дополнительного энкодера, McGill NLP Group (huggingface.co/papers)
In-Context RL for Tool Use
метод In-Context Reinforcement Learning для обучения LLM использованию инструментов без fine-tuning, National University of Singapore (huggingface.co/papers)
Flood Forecasting Open Model
открытая модель Google Research для прогнозирования внезапных наводнений в городах в реальном времени, помечена тегом "Open Source Models & Datasets"
📅 11.03
2 модели
NVIDIA Nemotron 3 Super
гибридная MoE-модель (Mamba-Transformer), 120B параметров всего / 12B активных, контекст 1M токенов; оптимизирована для многошаговых агентных задач, в 5× быстрее предыдущего Nemotr…
Hunter Alpha
стелс-релиз на OpenRouter без официального анонса: 1 триллион параметров, контекст 1M токенов, мультимодальный ввод (текст + изображения); позже установлено, что это ранняя тестова…
📅 10.03
1 модель
Canopy Height Maps v2 (CHMv2)
открытая модель от Meta и World Resources Institute для высокоточного картографирования лесного полога в глобальном масштабе; предназначена для экологического мониторинга и охраны…
📅 09.03
10 моделей
Penguin-VL-2B / Penguin-VL-8B (Tencent)
мультимодальная VLM, где визуальный энкодер инициализирован из текстового LLM (Qwen3-0.6B) вместо CLIP/SigLIP; модели выложены на Hugging Face и GitHub (huggingface.co/papers + git…
Physical Simulator In-the-Loop Video Generation (Max Planck Institute for Inform
метод генерации видео с интеграцией физического симулятора в процесс генерации; 108 голосов на HF Papers (huggingface.co/papers/date/2026-03-09)
WildActor
модель генерации видео с неограниченным сохранением идентичности персонажей; 84 голоса на HF Papers (huggingface.co/papers/date/2026-03-09)
BandPO (OpenMOSS)
новый метод оптимизации политики для обучения LLM с подкреплением, объединяющий trust region и ratio clipping; 49 голосов на HF Papers (huggingface.co/papers/date/2026-03-09)
Planning in 8 Tokens
компактный дискретный токенизатор для латентных мировых моделей, сжимающий планирование до 8 токенов; 48 голосов на HF Papers (huggingface.co/papers/date/2026-03-09)
FlashPrefill
техника сверхбыстрого prefill для длинного контекста через мгновенное обнаружение паттернов и пороговую обрезку; 43 голоса на HF Papers (huggingface.co/papers/date/2026-03-09)
EffectMaker
система объединения рассуждений и генерации для создания кастомных визуальных эффектов; 39 голосов на HF Papers (huggingface.co/papers/date/2026-03-09)
PixARMesh (mlpc-ucsd)
авторегрессионная реконструкция 3D-сцены по одному изображению на основе меш-нативного подхода; 52 голоса на HF Papers (huggingface.co/papers/date/2026-03-09)
nabla-Reasoner
метод улучшения рассуждений LLM через градиентный спуск в латентном пространстве во время инференса; 25 голосов на HF Papers (huggingface.co/papers/date/2026-03-09)
Dynamic Chunking Diffusion Transformer (AMD)
оптимизация диффузионных трансформеров через динамическую чанкинговую стратегию; 15 голосов на HF Papers (huggingface.co/papers/date/2026-03-09)
📅 08.03
6 моделей
Reasoning Models Struggle to Control their Chains of Thought (arXiv:2603.05706)
исследование OpenAI о том, как модели-рассуждатели теряют контроль над цепочками мыслей (huggingface.co/papers)
RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies (
бенчмарк памяти для роботизированных агентов общего назначения, University of Michigan (huggingface.co/papers)
Dynamic Chunking Diffusion Transformer (arXiv:2603.06351)
новая диффузионная трансформер-архитектура от AMD (huggingface.co/papers)
Physical Simulator In-the-Loop Video Generation (arXiv:2603.06408)
генерация видео с физическим симулятором в петле, Max Planck Institute for Informatics (huggingface.co/papers)
FlashPrefill (arXiv:2603.06199)
метод мгновенного обнаружения паттернов для ультрабыстрого prefilling длинного контекста у LLM (huggingface.co/papers)
PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction (arXiv:26
авторегрессионная 3D-реконструкция сцен из одного изображения, mlpc-ucsd (huggingface.co/papers)
📅 06.03
15 моделей
Sarvam-30B
открытая reasoning-модель (Apache 2.0), обучена полностью в Индии, 32K контекст, архитектура MoE+GQA; веса на HuggingFace и AI Kosh (sarvam.ai)
Sarvam-105B
старший брат: 128K контекст, MoE + Multi-Head Latent Attention (MLA), для сложного reasoning и агентных задач; Apache 2.0 (sarvam.ai)
SkillNet
открытая инфраструктура для создания, оценки и подключения AI-навыков; граф навыков для агентов; +40% к наградам на ALFWorld/WebShop; 668 голосов на HF (Zhejiang University / arxiv…
RealWonder
первая real-time система генерации видео, управляемой физическими действиями: 13.2 FPS при 480×832, код и веса в открытом доступе (arxiv 2603.05449)
Latent Particle World Models
само-supervised модель для объектно-ориентированного моделирования динамики мира; 80 голосов на HF (huggingface.co/papers)
HiFi-Inpaint
высококачественный inpainting от ByteDance для генерации изображений человека с продуктами с сохранением деталей; 78 голосов на HF (ByteDance)
UltraDexGrasp
open-source модель управления двуручными роботами для захвата объектов, обученная на синтетических данных; 64 голоса на HF
AgentVista
фреймворк оценки мультимодальных агентов в сложных реалистичных визуальных сценариях; 48 голосов на HF (HKUST NLP Group)
DreamWorld
единая модель мирового моделирования в генерации видео; 47 голосов на HF
MASQuant
метод квантизации для мультимодальных LLM с модально-зависимым сглаживанием от Alibaba; 39 голосов на HF
On-Policy Self-Distillation
метод сжатия reasoning-цепочек через само-дистилляцию без потери качества; 39 голосов на HF
RoboPocket
система мгновенного улучшения политик робота через смартфон; 35 голосов на HF (Shanghai Jiao Tong University)
MOOSE-Star
метод MiroMind AI для масштабируемого обучения моделей в научных исследованиях (breaking complexity barrier); 22 голоса на HF
Timer-S1
foundation-модель для временных рядов масштаба миллиарда точек с Serial Scaling от ByteDance; 19 голосов на HF
KARL
агенты знаний через Reinforcement Learning от Databricks; 6 голосов на HF (databricks.com)
📅 05.03
2 модели
Helios
14-миллиардная open-weight модель генерации видео в реальном времени от Пекинского университета совместно с ByteDance; поддерживает видео до 60 секунд (~1452 кадра) при скорости 19…
Phi-4-reasoning-vision-15B
open-weight мультимодальная reasoning-модель от Microsoft на 15B параметров; умеет сама решать, когда включать «глубокое размышление» (chain-of-thought), а когда нет; лицензия MIT…
📅 04.03
6 моделей
Qwen3-Coder-Next (технический отчёт)
открытая весовая модель для кодирования от Alibaba/Qwen: 80B параметров всего / 3B активных, контекст 256k, лицензия Apache 2.0; ориентирована на агентские задачи и локальный запус…
Utonia: Toward One Encoder for All Point Clouds
единый энкодер для 3D-облаков точек от Pointcept, 596 upvotes в HF Daily Papers; статья с открытым кодом
Kiwi-Edit
многофункциональная модель редактирования видео по текстовым инструкциям и референс-изображениям, от Show Lab, 248 upvotes
Track4World
модель плотного 3D-трекинга всех пикселей в реальном времени, от ARC Lab / Tencent PCG, 205 upvotes
LangWatch
открытый слой оценки и трассировки для AI-агентов (evaluation framework); не LLM, но open-source инфраструктурный релиз дня
Kling-MotionControl Technical Report
технический отчёт по motion-control для видеогенерации от Kling Team, arXiv 2603.03160
📅 03.03
1 модель
Mamba-3
SSM-архитектура (State Space Model), построенная для эффективного инференса: быстрее Transformer-моделей при декодинге, мощнее Mamba-2; открытый исходный код с первого дня
📅 01.03
1 модель
Qwen 3.5 Small (0.8B / 2B / 4B / 9B)
Alibaba выпустила семейство из четырёх плотных мультимодальных моделей (текст + изображения + видео в одних весах), лицензия Apache 2.0; модель 9B набирает 81.7% на GPQA Diamond, к…
Февраль
2026
📅 20.02
8 моделей
Mobile-Agent-v3.5
мультиплатформенный фундаментальный GUI-агент для автоматизации задач на разных ОС
Arcee Trinity Large
технический отчёт по открытой reasoning-модели от Arcee AI, позиционируемой как конкурент Claude Opus в агентных задачах
Computer-Using World Model
открытая модель, обучающаяся взаимодействию с компьютерным интерфейсом в режиме world model
SpargeAttention2
обучаемый механизм разреженного внимания с гибридным Top-k+Top-p маскированием и дообучением дистилляцией; применим к открытым трансформерам
Unified Latents (UL)
метод обучения латентных представлений для генеративных моделей от Google, опубликован как открытый технический отчёт
NousResearch/hermes-agent
открытый AI-агент «The agent that grows with you», 63 тыс. звёзд на GitHub, +7 450 за день
Kronos
фундаментальная модель для языка финансовых рынков, открытый код на Python, 15 тыс. звёзд, +1 998 за день
OpenBMB/VoxCPM2
многоязычная TTS-модель без токенизатора (Tokenizer-Free), открытый код
📅 18.02
3 модели
GLM-5
крупная мультиагентная языковая модель от Zhipu AI (Z AI, 186 авторов); в статье описан переход от "вайб-кодинга" к агентной инженерии; дебютировала на #1 в открытых рейтингах февр…
jina-embeddings-v5-text
новая open-source эмбеддинг-модель от Jina AI с применением целевой дистилляции для разных типов задач (Task-Targeted Embedding Distillation)
UniT
унифицированная мультимодальная модель от команды из 14 авторов; использует цепочку рассуждений (Chain-of-Thought) с масштабированием на этапе инференса
📅 17.02
6 моделей
Tiny Aya (Cohere Labs)
Мультиязычная open-weight модель на 3.35B параметров, лучшая в своём классе по мультиязычным бенчмаркам; выпущена в 5 вариантах (base, global, fire, water, earth) для разных регион…
Mistral Saba (Mistral AI)
Специализированная модель, натренированная под конкретные географические рынки и клиентские задачи; один из серии «custom-geography» релизов Mistral (mistral.ai/news)
GLM-5 (Z.ai / Zhipu AI)
Open-weight флагман на архитектуре Mixture of Experts: 744B всего / 40B активных параметров, обучена на 28.5T токенов на железе Huawei Ascend; дебютировала на #1 в рейтинге Quality…
Nanbeige4.1-3B (Nanbeige LLM Lab)
Компактная 3B модель общего назначения с встроенными возможностями рассуждения, выравнивания и агентного действия
BitDance / UniWeTok (ByteDance)
Бинарный токенизатор для мультимодальных LLM, масштабирование авторегрессивных генеративных моделей через бинарные токены
LaViDa-R1 (Adobe)
Продвинутое рассуждение для единых мультимодальных диффузионных языковых моделей
📅 16.02
5 моделей
Qwen3.5-397B-A17B
мультимодальная MoE-модель от Alibaba: 397 млрд параметров (17 млрд активных на запрос), контекст 262K токенов, поддержка 210+ языков и диалектов, обработка текста/изображений/виде…
MedXIAOHE
медицинская мультимодальная языковая модель от ByteDance: комплексная система для построения медицинских MLLM с рецептурой обучения и оценочными данными; опубликована как исследова…
OneVision-Encoder
мультимодальный энкодер от LMMs-Lab: реализует кодек-ориентированную разреженность как базовый принцип мультимодального интеллекта; получил 324 лайка на HuggingFace Papers в день в…
Less is Enough (LiE)
метод синтеза разнообразных обучающих данных в пространстве признаков LLM; исследовательская работа с открытым кодом, 120 лайков на HuggingFace Papers (huggingface.co/papers)
SQuTR
открытый бенчмарк устойчивости для систем поиска по голосовым запросам при акустических помехах; авторы предоставляют открытый датасет и код (huggingface.co/papers)
📅 15.02
1 модель
Qwen3.5-397B-A17B
флагманская мультимодальная Mixture-of-Experts модель Alibaba Qwen Team: 397B параметров всего, 17B активных на токен; поддержка изображений и видео, гибридный механизм внимания Ga…
📅 14.02
15 моделей
GigaBrain-0.5M
VLA-модель (Vision-Language-Action), обученная через World Model-Based Reinforcement Learning (RAMP); предназначена для робототехники, веса открыты на GitHub (open-gigaai)
DeepGen 1.0
лёгкая единая мультимодальная модель 5B параметров (3B VLM + 2B DiT) для генерации и редактирования изображений; полностью open-source (веса, код, датасеты) от Shanghai Innovation…
χ₀ (chi-zero)
робот-манипулятор с resource-aware управлением через укрощение дистрибутивных несоответствий; University of Hong Kong
MolmoSpaces
крупномасштабная открытая экосистема для навигации и манипуляции роботов от AI21
MOSS-Audio-Tokenizer
масштабируемый аудио-токенизатор для будущих аудио foundation-моделей от OpenMOSS
Composition-RL
фреймворк составных верифицируемых промптов для обучения с подкреплением LLM от Tencent Hunyuan
ABot-N0
VLA foundation-модель для универсальной воплощённой навигации (embodied navigation), отчёт 44 авторов
DeepSight
универсальный инструментарий безопасности LLM (LM Safety Toolkit) от Shanghai AI Lab
RISE
self-improving политика робота с композициональной World Model от OpenDriveLab
MiniCPM-SALA
гибридная модель с разреженным и линейным вниманием для эффективного моделирования длинного контекста от OpenBMB
LawThinker
агент глубокого юридического поиска и рассуждений в динамических средах от Renmin University of China
Stemphonic
генерация многодорожечной музыки «всё сразу» (all-at-once multi-stem) от MIT
dVoting
ускоренное голосование (fast voting) для диффузионных LLM от National University of Singapore
Composition-RL / Learning beyond Teacher
on-policy дистилляция с экстраполяцией вознаграждения, Tencent Hunyuan
Voxtral Realtime
обновление модели Mistral AI для транскрипции в реальном времени с точной диаризацией (HuggingFace Papers / mistral.ai)
📅 13.02
6 моделей
Nanbeige4.1-3B
компактная 3B-модель, объединяющая сложные рассуждения, выравнивание предпочтений и агентные возможности (первый открытый SLM с поддержкой deep-search и 500+ вызовов инструментов)…
DeepGen 1.0
лёгкая унифицированная мультимодальная модель (5B параметров: 3B VLM + 2B DiT) для генерации и редактирования изображений; превосходит 80B HunyuanImage на 28%; веса и код обучения…
GigaBrain-0.5M
VLA-модель (Vision-Language-Action) для роботизированных манипуляций, обученная через RL на основе мировой модели (RAMP); предобучена на 10 000+ ч. данных управления
MOSS-Audio-Tokenizer
масштабируемый аудио-токенайзер для будущих фундаментальных аудиомоделей; открытая разработка
MiniCPM-SALA
гибридная архитектура sparse + linear attention для эффективной обработки сверхдлинного контекста
ABot-N0
фундаментальная VLA-модель для задач навигации и воплощённого ИИ в разнообразных средах
📅 12.02
3 модели
MiniMax M2.5
Фронтирная модель от китайского стартапа MiniMax: 230B параметров (MoE, 10B активных), 80.2% на SWE-Bench Verified, 76.3% BrowseComp; обучена на 200 000+ реальных RL-сред; специали…
MiniMax M2.5 Lightning
Ускоренный вариант M2.5 от MiniMax, вышедший в тот же день: 100 токенов/сек, $0.30 за 1M входных токенов; близкие к SOTA бенчмарки при цене в 20× ниже Claude Opus 4.6; открытый дос…
DeepSeek V3.2
Крупное обновление от DeepSeek: 685B MoE, контекстное окно расширено до 1M+ токенов (10×), 90.1% MMLU, 92.5% HumanEval; добавлен механизм DeepSeek Sparse Attention; лицензия MIT, в…
📅 11.02
14 моделей
GLM-5
744B параметров (MoE, 40B активных), первая фронтирная модель, обученная целиком на чипах Huawei Ascend без NVIDIA; запущена через API, веса открыты с апреля 2026 под лицензией MIT
UI-Venus-1.5
сквозной GUI-агент от inclusionAI, работающий только на скриншотах; поддерживает web и mobile платформы; код открыт на GitHub; одновременно вышел бенчмарк VenusBench-Mobile
VideoWorld 2
видео-модель мира от ByteDance Seed, обучающая передаваемые знания из реальных видео для задач понимания и генерации
SkillRL
фреймворк от UNC Chapel Hill для обучения агентов через рекурсивную компиляцию навыков + reinforcement learning
SceneSmith
агентная генерация готовых к симуляции интерьерных сцен от Toyota Research Institute
OPUS
метод принципиального отбора данных для предобучения LLM на каждой итерации, от команды Qwen
Agent World Model
генерация бесконечных синтетических сред для агентного RL от Snowflake
Code2World
GUI-модель мира через генерацию рендерируемого кода от AMAP-ML (GD-ML)
SAGE
масштабируемая агентная генерация 3D-сцен для воплощённого ИИ от NVIDIA
Chain of Mindset
метод рассуждений с адаптивными когнитивными режимами от QuantaAlpha
Prism
спектрально-взвешенное блочно-разреженное внимание (block-sparse attention) от OpenMOSS
P1-VL
мультимодальная VLM для задач физических олимпиад от Shanghai AILab
Covo-Audio
аудио-модель с техническим отчётом от Tencent
Fine-T2I
крупномасштабный открытый датасет для дообучения text-to-image моделей от Northeastern University
📅 09.02
9 моделей
Baichuan-M3
открытая медицинская языковая модель от Baichuan Intelligent Technology, имитирует полноценный клинический диалог (опрос анамнеза, диагностика), превосходит GPT-5.2 и врачей-людей…
DreamDojo
открытая мировая модель для роботов от NVIDIA, обученная на 44 711 часах видео от первого лица; варианты 2B и 14B параметров, код и веса полностью открыты; arxiv-препринт появился…
OmniMoE
эффективная MoE-модель от BAAI (Beijing Academy of Artificial Intelligence) с масштабируемой архитектурой атомарных экспертов
AudioSAE
инструмент интерпретируемости аудиомоделей на основе разреженных автоэнкодеров от HUAWEI Noah's Ark Lab
OmniVideo-R1
мультимодальная модель аудио-визуального рассуждения от Tencent с механизмом внимания к намерению запроса и модальности
Pisets
робастная система распознавания речи для лекций и интервью от Новосибирского государственного университета
POINTS-GUI-G
модель для GUI-граундинга (понимание графических интерфейсов) в агентских задачах взаимодействия с ПК
F-GRPO
новый метод обучения политик RL для LLM от T-Tech; акцент на редких примерах
MSign
оптимизатор от Microsoft для предотвращения нестабильности обучения LLM через восстановление стабильного ранга
📅 05.02
4 модели
ERNIE 5.0
технический отчёт Baidu по новому флагманскому LLM, опубликованный 438 соавторами; модель позиционируется как крупный скачок в серии ERNIE
WideSeek-R1
модель RLinf для широкого поиска информации на основе масштабирования по ширине через многоагентное обучение с подкреплением; стала хитом дня с 3 000+ лайками на HF
FASA (Frequency-aware Sparse Attention)
метод разреженного внимания от Alibaba с частотной осведомлённостью, ускоряющий инференс больших моделей; 154 лайка на HF
OmniSIFT
архитектура асимметричного сжатия токенов для эффективных омни-модальных LLM от команды из 15 исследователей
📅 04.02
1 модель
Voxtral Transcribe 2 (Mistral AI)
семейство open-weights моделей распознавания речи нового поколения: Voxtral Mini Transcribe V2 (пакетная транскрипция с диаризацией) и Voxtral Realtime (стриминг с задержкой до 200…
📅 03.02
6 моделей
YOLOE-26
объединяет архитектуру YOLO26 с парадигмой YOLOE для сегментации объектов в реальном времени с открытым словарём; несколько вариантов весов (n/m/l/x) опубликованы на HuggingFace по…
Green-VLA
поэтапная Vision-Language-Action модель для роботов общего назначения; предложена Sber Robotics Center, бумага вышла на arXiv в этот день
UniReason 1.0
единый фреймворк для рассуждений, согласованного с мировыми знаниями, для генерации и редактирования изображений
SWE-Universe
масштабируемая среда для верификации агентов с реальными задачами; опубликована командой Qwen (Alibaba)
RPG-Encoder
универсальный энкодер репозиториев кода через рекурсивное представление; проект мультиавторской команды
Kimi K2.5
мультимодальная агентная MoE-модель Moonshot AI (1T параметров, 32B активных, 256K контекст, Modified MIT); веса опубликованы на HF 29.01.2026, технический отчёт вышел на arXiv 03…
📅 02.02
6 моделей
GLM-4.7-Flash
MoE-модель от Z.AI (zai-org), 30B параметров (3B активных), оптимизирована для рассуждения, кодирования и агентных задач; поддерживает режим «Preserved Thinking» для многошаговых о…
Segment Anything 3 (SAM3)
объединённая open-source модель от Meta (Facebook Research), 0.9B параметров, для сегментации изображений и видео; поддерживает Promptable Concept Segmentation — поиск объектов по…
MiniMax-M2.1
агентная open-weights модель от MiniMax AI, 229B параметров (10B активных), ориентирована на кодирование и разработку полноценных приложений; превосходит Claude Sonnet 4.5 в многоя…
PaperBanana
инструмент от Google для автоматической генерации академических иллюстраций для AI-исследований; статья вышла на HuggingFace Daily Papers 02.02.2026
Golden Goose
метод от NVIDIA для синтеза неограниченного числа RLVR-задач из неверифицированных интернет-текстов, улучшает обучение LLM с подкреплением
Quartet II
разработка IST Austria: улучшенный метод предобучения LLM в формате NVFP4 с беспристрастной оценкой градиентов, повышает эффективность и точность
📅 01.02
9 моделей
Qwen3-ASR (0.6B / 1.7B)
серия открытых ASR-моделей от Alibaba Qwen для распознавания речи на 52 языках, с детекцией языка и предсказанием временных меток; лицензия Apache-2.0
Typhoon-S
суверенная открытая LLM от SCB10X (Таиланд) с минимальным пост-обучением, оптимизированная для тайского языка и локальных условий развёртывания
Llama-3.1-FoundationAI-SecurityLLM-Reasoning-8B
открытая 8B-модель от Cisco Foundation AI на базе Llama 3.1, специализированная для кибербезопасности с цепочечными reasoning-рассуждениями; сопоставима с 70B-моделями на бенчмарка…
DynamicVLA
Vision-Language-Action модель от MMLab@NTU для динамической манипуляции роботизированными объектами
MMFineReason
открытая мультимодальная reasoning-модель от Shanghai Jiao Tong University, закрывающая разрыв между проприетарными и open-source моделями с помощью data-centric подходов
OCRVerse
end-to-end vision-language модель для комплексного OCR, интегрирующая распознавание текста в мультимодальный пайплайн
ConceptMoE
архитектура ByteDance Seed с адаптивным сжатием токенов в концепты для динамического распределения вычислений в MoE-моделях
LegalOne
семейство foundation-моделей для надёжного юридического рассуждения, первые бизнес-дни Feb 2026 (arXiv 2602.00642)
G-MemLLM
LLM с вентильной латентной памятью для усиленного reasoning на длинных контекстах (arXiv 2602.00015)
Январь
2026
📅 30.01
2 модели
Qwen3-ASR (0.6B / 1.7B)
Серия open-source моделей автоматического распознавания речи от Alibaba/Qwen Team; поддерживает 52 языка, лидирует среди open-source ASR, лицензия Apache 2.0 (huggingface.co/papers…
OpenClaw
Open-source AI-агент, официально переименован и запущен 30 января 2026 (ранее Moltbot / Clawdbot); автономный ИИ-агент с интерфейсом через мессенджеры (WhatsApp/Telegram/Discord)…
📅 25.01
7 моделей
Qwen3-TTS
Alibaba's open-source TTS model family (0.6B/1.7B params), 10 languages, 97ms latency, voice cloning from 3s audio. Apache 2.0. Released Jan 22, featured on HF Papers Jan 25
Stable-DiffCoder
ByteDance Seed's diffusion-based code LLM (8B), outperforms autoregressive baselines on code generation/completion/editing. MIT license. Released Jan 25–26
OpenVision 3
UCSC-VLAA's unified visual encoder family for both image understanding and generation, gFID 1.89 on ImageNet. Open weights
EvoCUA
Meituan's computer-use agent (8B/32B), #1 open-source on OSWorld (56.7%), operates Chrome/Excel/VSCode via screenshots. Open weights + code
SAMTok
ByteDance's efficient mask tokenizer, represents any segmentation mask with just two tokens. Open-source
Cosmos Policy
NVIDIA's robot control policy fine-tuned from Cosmos Predict-2, SOTA on LIBERO/RoboCasa. Apache 2.0 code + NVIDIA Open Model License. Released Jan 22, featured Jan 25
ActionMesh
Meta AI's model for animated 3D mesh generation with temporal 3D diffusion
📅 13.01
5 моделей
MHLA
универсальный линейный оператор внимания с открытым кодом и моделями для vision/NLP/видео, ICLR 2026
PaCoRe
8B-модель параллельного рассуждения от StepFun, превосходит GPT-5 на HMMT 2025; открыты веса, данные и пайплайн
X-Coder
модель для соревновательного программирования от Microsoft Research на полностью синтетических данных, Apache 2.0
OS-Symphony
фреймворк для универсальных компьютерных агентов, SOTA на OSWorld/WindowsAgentArena/MacOSArena, открытый код
BabyVision
бенчмарк визуального рассуждения от Alibaba/Tsinghua + генеративный компонент BabyVision-Gen, код открыт
📅 07.01
8 моделей
LTX-2
Первая open-source модель генерации синхронного аудио+видео (14B+5B параметров, 4K/50fps), полные веса и код от Lightricks
Falcon H1R 7B
Гибридная Mamba-Transformer reasoning-модель от TII (7B параметров, 256K контекст), обгоняет модели в 7× крупнее на математике и коде
UniCorn
Self-improving unified multimodal модель (понимание + генерация), Apache 2.0, SOTA на 4 бенчмарках генерации изображений
MiMo-V2-Flash
MoE-модель от Xiaomi (309B total / 15B active), MIT-лицензия, #1 open-source на SWE-bench Verified, 150 tok/s
NitroGen
Open foundation model от NVIDIA для игровых агентов, обучена на 40K часов геймплея в 1000+ играх, +52% к task success rate
MOSS Transcribe Diarize
End-to-end модель транскрипции с диаризацией от OpenMOSS/Fudan, 128K контекст, до 90 минут аудио
InfiniDepth
Модель оценки глубины произвольного разрешения через neural implicit fields от Zhejiang University, CVPR 2026
CogFlow
Фреймворк визуального математического reasoning с датасетом MathCog (120K+ аннотаций), код и данные открыты
📅 05.01
11 моделей
NVIDIA Cosmos Reason 2
открытая reasoning VLM для робототехники и физического AI, лидер бенчмарков (NVIDIA CES 2026)
NVIDIA Cosmos Transfer 2.5
открытая world-модель для генерации синтетического видео из разных сред (NVIDIA CES 2026)
NVIDIA Cosmos Predict 2.5
открытая world-модель для предсказания физических сценариев в видео (NVIDIA CES 2026)
NVIDIA Isaac GR00T N1.6
открытая vision-language-action модель для управления гуманоидными роботами (NVIDIA CES 2026)
NVIDIA Nemotron Speech
набор открытых ASR-моделей для распознавания речи в реальном времени (NVIDIA CES 2026)
NVIDIA Nemotron RAG
открытые embed и rerank VLM для мультиязычного и мультимодального поиска (NVIDIA CES 2026)
NVIDIA Llama Nemotron Content Safety
открытая модель безопасности контента с расширенной языковой поддержкой (NVIDIA CES 2026)
NVIDIA Nemotron PII
открытая модель детекции персональных данных (NVIDIA CES 2026)
NVIDIA Llama Embed Nemotron 8B
открытая embedding-модель, датасет и код обучения (NVIDIA CES 2026)
NVIDIA Alpamayo
семейство открытых моделей для автономного вождения (NVIDIA CES 2026)
NVIDIA Nemotron 3 Nano
компактная открытая модель для agentic AI (NVIDIA CES 2026)
Декабрь
2025
📅 27.12
2 модели
GLM-4.7 (Z.ai)
open-source LLM для production-разработки: 200K контекст, 73.8% SWE-bench Verified, сильный code generation и agent execution (модель вышла 22 дек, пресс-релиз 27 дек) (PRNewswire…
MiniMax M2.1
open-weights MoE-модель с улучшенным мультиязычным кодингом (Rust, Java, Go, C++ и др.) и agentic-возможностями (модель вышла 23–25 дек, в новостном цикле 27 дек)
📅 26.12
2 модели
GLM-4.7
Open-source LLM от Z.ai (Zhipu AI), 358B параметров, заточен под coding и agent-workflows; лидер Code Arena среди open-source моделей (BusinessWire / Laotian Times)
Fun-Audio-Chat
End-to-end голосовая модель от Alibaba Tongyi Lab, двухуровневый дизайн (5/25 Hz), Apache 2.0; понимает эмоции, поддерживает speech function calling
📅 25.12
1 модель
MiniMax M2.1
полный open-source релиз весов MoE-модели (10B активных параметров) для кодинга и агентных задач; превосходит Gemini 3 Pro и Claude 4.5 Sonnet в мультиязычном программировании
📅 24.12
3 модели
GLM-4.7
Z.ai open-sources новое поколение LLM для coding, reasoning и agentic-задач; #1 open model в WebDev (BusinessWire / Yahoo Finance)
Qwen-Image-Edit-2511
Alibaba Qwen выпускает open-source модель редактирования изображений с улучшенной консистентностью персонажей и LoRA-интеграцией, Apache 2.0
NVIDIA Nemotron 3 (paper + Nano weights)
семейство open-source моделей (Nano 30B, Super 100B, Ultra 500B) на гибридной Mamba-Transformer MoE архитектуре, контекст до 1M токенов; arxiv-статья и веса Nano опубликованы 24 де…
📅 23.12
2 модели
MiniMax M2.1
open-source модель для мультиязычного кодинга и агентных workflow; превосходит Claude Sonnet 4.5 и Gemini 3 Pro в ряде бенчмарков; веса на Hugging Face
GLM-4.7 (Z.ai)
open-source MoE-модель (355B параметров, 32B активных) для кодинга и агентных задач; 84.9% LiveCodeBench, 87.4% τ²-Bench; лицензия позволяет бесплатное локальное развёртывание (Bus…
📅 22.12
1 модель
GLM-4.7 (Zhipu AI / Z.ai)
Open-source coding LLM (~400B params, 200K context), лидер среди open-source на SWE-bench Verified (73.8%) и LiveCodeBench (84.9%), поддержка agentic-сценариев и tool use (Business…
📅 21.12
1 модель
IBM CUGA (Configurable Generalist Agent)
enterprise-oriented open-source agent framework released on Hugging Face under Apache 2.0; supports OpenAPI, MCP servers and LangChain for multi-step workflows (InfoQ / IBM Researc…
📅 17.12
4 модели
NVIDIA Nemotron 3 Nano (30B/3B active)
открытая модель для агентного AI с контекстом до 1M токенов, гибридная MoE-архитектура, до 4× быстрее Nemotron 2 Nano (NVIDIA Newsroom, AIwire)
NVIDIA NeMo Gym
открытая библиотека для построения RL-окружений для обучения LLM
NVIDIA NeMo RL
открытый тулкит для масштабируемого reinforcement learning мультимодальных моделей
NVIDIA Open Training Data (3T tokens)
открытые датасеты для pretraining, post-training и RL, выпущены вместе с Nemotron 3
📅 15.12
3 модели
NVIDIA Nemotron 3 Nano
30B hybrid Mamba2-Transformer MoE, unified reasoning/non-reasoning model trained on 25T tokens, 4x throughput of Nemotron 2 Nano
NVIDIA Nemotron 3 Super
mid-size open model in the Nemotron 3 family with hybrid latent MoE architecture for agentic AI
NVIDIA Nemotron 3 Ultra
largest open model in the Nemotron 3 family, optimized for agentic AI workloads
📅 14.12
1 модель
EuroLLM-22B
полностью открытая европейская LLM на 22B параметров, обученная на 4T токенов на суперкомпьютере MareNostrum5; поддерживает все 24 языка ЕС + 11 международных
📅 12.12
1 модель
T-pro 2.0 (T-pro-it-2.0)
33B-parameter Russian hybrid-reasoning model by T-Tech на базе Qwen3-32B, Apache 2.0, веса на HuggingFace (huggingface.co/t-tech/T-pro-it-2.0)
📅 10.12
3 модели
Devstral 2 (123B)
Mistral AI's flagship open-weight coding model for agentic development, 72.2% on SWE-bench Verified, 256K context, modified MIT license
Devstral Small 2 (24B)
Compact open-source coding model by Mistral AI, runs on a single laptop, 68% SWE-bench, Apache 2.0 license
Mistral Vibe CLI
Open-source CLI agent for terminal-based agentic coding workflows, released alongside Devstral 2
📅 09.12
3 модели
Devstral 2
Devstral 2 (123B) — Флагманская open-weights модель Mistral AI для кодинг-агентов, 72.2% SWE-bench Verified, 256K контекст, лицензия Modified MIT (mistral.ai)
Devstral Small 2
Devstral Small 2 (24B) — Компактная версия Devstral 2, 68.0% SWE-bench Verified, работает на потребительском железе, лицензия Apache 2.0 (mistral.ai)
Mistral Vibe CLI
Open-source CLI-агент для кодинга на базе Devstral, Apache 2.0
📅 08.12
4 модели
GLM-4.6V
мультимодальная VLM от Z.ai (Zhipu AI), 106B параметров (MoE), контекст 128K, SOTA в задачах vision+text, поддержка Function Call
GLM-4.6V-Flash
облегчённая версия GLM-4.6V на 9B параметров для локального запуска и low-latency задач
AutoGLM-Phone-9B
open-source 9B мультимодальный агент для автономного управления смартфоном через ADB, понимает экран и выполняет действия
SCAIL-Preview
модель анимации персонажей на основе 3D-консистентных поз, inference-код открыт 8 декабря, веса — 11 декабря
📅 07.12
3 модели
GPT-5.2
2025-12-11 (OpenAI, закрытая модель)
Mistral Large 3
2025-12-15 (Mistral, open-source MoE LLM)
GPT-5.2 Codex
2025-12-18 (OpenAI, закрытая модель)
📅 06.12
3 модели
DeepSeek V3.2
1 декабря 2025
Mistral 3
Mistral 3 (Large 3) — 2 декабря 2025
NVIDIA Nemotron 3
1 декабря 2025
📅 05.12
1 модель
HunyuanVideo-1.5
480p I2V step-distilled (8/12 шагов): генерация видео на RTX 4090 в ~75 сек, качество сопоставимо с оригиналом. Выпущено Tencent на Hugging Face