🚀 Open-Source и платные ИИ-модели

Календарь релизов 2025–2026

Отслеживайте последние релизы ИИ-моделей: от бесплатных open-source до платных облачных решений.

104
Дней отслеживается
104
Дней релизов
637
Моделей
Май
2026
📅 28.05
10 моделей
RightNow-Arabic-0.5B-Turbo
арабоязычная LLM на 518M параметров на базе Qwen2.5-0.5B, полные веса (bf16/int8/GGUF), код и бенчмарки выложены на Hugging Face (arXiv cs.CL)
ТекстOpen-Source (локально)
Liquid AI LFM2.5-8B-A1B
MoE-модель с 8.3B общих и 1.5B активных параметров, оптимизирована для on-device-инференса
ТекстOpen-Source (локально)
Perplexity Unigram Tokenizer
переписанный с нуля open-source токенизатор, снижает латентность реранкеров и CPU-нагрузку в 5–6×
ТекстOpen-Source (локально)
minWM
полностековый open-source фреймворк для интерактивных видео-«world models» в реальном времени
ВидеоOpen-Source (локально)
Qwen-VLA
унифицированная vision-language-action модель от команды Qwen для роботов и разных окружений
МультимодальныеOpen-Source (локально)
MOSS-TTS
открытое семейство моделей для генерации речи и звуков, включая диалоги и звуковые эффекты
АудиоOpen-Source (локально)
Parallax
параметризованное локальное линейное внимание для языкового моделирования от Northwestern University
ТекстOpen-Source (локально)
GenClaw
code-driven агентная генерация изображений от Tencent Hunyuan
ИзображенияOpen-Source (локально)
LiteCoder-Terminal
масштабирование long-horizon terminal-окружений для обучения языковых агентов
ТекстOpen-Source (локально)
PhoneWorld
масштабируемая среда для агентов, использующих смартфон
ТекстOpen-Source (локально)
📅 27.05
15 моделей
DiffusionBlocks
фреймворк блочного обучения от Sakana AI, превращает остаточные сети в независимо обучаемые денойзинг-модули
ИзображенияOpen-Source (локально)
Polar
NVIDIA выпустила token-faithful rollout-фреймворк для GRPO-тренировки поверх Codex, Claude Code и Qwen Code
ТекстOpen-Source (локально)
EAGLE 3.1
алгоритм спекулятивного декодинга, борющийся с attention drift; совместный релиз EAGLE team, vLLM и TorchSpec
ТекстOpen-Source (локально)
Gamma-World
генеративная модель мульти-агентного мира от NVIDIA, выходящая за рамки игр на двух игроков
ТекстOpen-Source (локально)
From Pixels to Words
натив-визуальная модель на масштабе с архитектурой one-vision
МультимодальныеOpen-Source (локально)
Agent Explorative Policy Optimization
NVIDIA, оптимизация политики для мультимодального агентного рассуждения
МультимодальныеOpen-Source (локально)
OSP-Next
эффективная высококачественная модель генерации видео от Peking University
ВидеоOpen-Source (локально)
HRBench
Tencent, бенчмарк стратегий переключения режимов мышления в гибридно-рассуждающих LLM
ТекстOpen-Source (локально)
OmniVerifier-M1
мультимодальный мета-верификатор со структурированной рекалибровкой
МультимодальныеOpen-Source (локально)
ResearchMath-14K
Seoul National University, агентное масштабирование математики исследовательского уровня
ТекстOpen-Source (локально)
Self-Improving LM with Bidirectional Evolutionary Search
Harvard, самоулучшающиеся языковые модели через двунаправленный эволюционный поиск
ТекстOpen-Source (локально)
AutoScientists
Harvard, самоорганизующиеся команды агентов для научных экспериментов
ТекстOpen-Source (локально)
ITBench-AA
IBM × Artificial Analysis, первый бенчмарк для агентных задач корпоративного IT (фронтир-модели набирают <50%)
ТекстOpen-Source (локально)
Reachy Mini goes fully local
open-source стек локального голосового робота от Pollen Robotics / Hugging Face
ТекстOpen-Source (локально)
FLUID
фреймворк адаптации AR-бэкбонов к диффузионным моделям для параллельной генерации текста (arXiv cs.CL)
ТекстOpen-Source (локально)
📅 26.05
10 моделей
OmniVoice Studio
локальная open-source альтернатива ElevenLabs: клонирование голоса, дубляж видео, диктовка и диаризация спикеров, поддержка 646 языков и встроенный MCP-сервер
ВидеоOpen-Source (локально)
Stable Audio 3
семейство быстрых latent-diffusion моделей для генерации и редактирования аудио (Small SFX 459M, Small 459M, Medium 1.4B с открытыми весами); генерация композиций до 6 мин 20 сек
АудиоOpen-Source (локально)
LocateAnything
модель NVIDIA для vision-language grounding с параллельным декодированием bounding-боксов
МультимодальныеOpen-Source (локально)
MobileMoE
оптимизированная on-device Mixture-of-Experts модель от Meta AI для запуска на мобильных устройствах
ТекстOpen-Source (локально)
MUSE-Autoskill
фреймворк самоэволюционирующих агентов ByteDance с автономным созданием навыков, памятью и оценкой
ТекстOpen-Source (локально)
RT-Lynx
диффузионная модель от RTP-LLM с правильной GEMM-разрежённостью для ускорения инференса
ТекстOpen-Source (локально)
MRT (Masked Region Transformer)
трансформер для послойной генерации и редактирования изображений в большом масштабе
ИзображенияOpen-Source (локально)
Soap2Soap
мультиагентная система Show Lab для пересборки длинных кинематографических видео
ВидеоOpen-Source (локально)
Geometry-Aware Representation Denoising
модель KAIST AI для устойчивой multi-view 3D-реконструкции через денойзинг геометрических представлений
ТекстOpen-Source (локально)
Squeezing Capacity from MLLMs
методы Adobe для эффективной subject-driven генерации на базе мультимодальных LLM
МультимодальныеOpen-Source (локально)
📅 25.05
6 моделей
Raon-Speech
9B-параметровая речевая языковая модель для английского и корейского с публичными чекпоинтами и обучающим пайплайном (arxiv cs.CL)
АудиоOpen-Source (локально)
QUEST
семейство открытых моделей 2B–35B в роли универсальных агентов для глубоких исследований; выложены веса, данные и скрипты обучения (arxiv cs.CL)
ТекстOpen-Source (локально)
EchoDistill
open-source фреймворк выравнивания для аудио-LLM, повышающий устойчивость к шуму; код в анонимном репозитории (arxiv cs.CL)
АудиоOpen-Source (локально)
ContextEcho
открытый бенчмарк и харнесс для измерения дрейфа персоны в длинных агентских сессиях кодинга (arxiv cs.CL)
ТекстOpen-Source (локально)
CP-Agent
агент с калиброванным контролем риска для соревновательного программирования; код на GitHub (arxiv cs.CL)
ТекстOpen-Source (локально)
OSCAR
attention-aware система 2-битной квантизации KV-кэша для long-context инференса LLM от Together AI (together.ai)
ТекстOpen-Source (локально)
📅 24.05
2 модели
Gated DeltaNet-2
новый слой линейного внимания от NVIDIA AI, разделяющий «стирание» и «запись» в Delta Rule через отдельные канальные гейты; на 1.3B параметрах и 100B токенах обгоняет конкурентов в…
ТекстOpen-Source (локально)
Webwright
терминальный browser-agent фреймворк от Microsoft Research, заменяющий click-trace веб-автоматизацию переиспользуемыми Playwright-скриптами; 60.1% на Odysseys и 86.7% на Online-Min…
ТекстOpen-Source (локально)
📅 23.05
4 модели
Nemotron-Labs Diffusion
диффузионные языковые модели NVIDIA с генерацией текста «на скорости света»
ИзображенияOpen-Source (локально)
TencentDB Agent Memory
четырёхуровневая локальная система памяти для AI-агентов от Tencent
ТекстOpen-Source (локально)
Contrastive Neuron Attribution (CNA)
метод от Nous Research для управления MLP-цепями без SAE-обучения и модификации весов
ТекстOpen-Source (локально)
Bumblebee
read-only сканер цепочки поставок для разработчиков от Perplexity
ТекстOpen-Source (локально)
📅 22.05
3 модели
Microsoft Fara1.5
семейство open-weight браузерных computer-use агентов (4B/9B/27B на базе дообученной Qwen 3.5); 27B-версия даёт 72% на Online-Mind2Web, опережая OpenAI Operator и Gemini 2.5 Comput…
МультимодальныеOpen-Source (локально)
OpenMythos
открытый фреймворк для построения recurrent-depth трансформеров с поддержкой MLA, GQA, Sparse MoE и loop-scaled reasoning
ТекстOpen-Source (локально)
Models.dev
открытая база спецификаций, цен и возможностей AI-моделей (Hacker News / YC)
ТекстOpen-Source (локально)
📅 17.05
7 моделей
X-OmniClaw (Oppo Multi-X)
открытый Android AI-агент, работающий прямо на устройстве: использует камеру, экран и голос для выполнения задач в реальных приложениях без облачного клона телефона; запоминает цеп…
МультимодальныеOpen-Source (локально)
Solvita
агентный фреймворк непрерывного обучения для соревновательного программирования; 4 специализированных агента (Planner, Solver, Oracle, Hacker) накапливают опыт без изменения весов…
ТекстOpen-Source (локально)
ICRL
фреймворк RL для интернализации самокритики языковой моделью; построен на Qwen3-4B/8B, код открыт (arXiv cs.AI)
ТекстOpen-Source (локально)
SMCEvolve
метод поиска программ на основе Sequential Monte Carlo: задача переформулируется как сэмплирование из reward-tilted распределений; ориентирован на научные открытия, код открыт (arX…
ТекстOpen-Source (локально)
SkillSmith
компилятор и рантайм для упаковки навыков агентов в минимальные исполняемые интерфейсы; исходный код и данные опубликованы на GitHub (arXiv cs.AI)
ТекстOpen-Source (локально)
OP-Mix
алгоритм смешивания данных для тренировки LLM на всём жизненном цикле через low-rank адаптеры, обученные на текущей модели; устраняет необходимость в прокси-моделях (arXiv cs.CL)
ТекстOpen-Source (локально)
Parallel Speculative Decoding (PSD)
фреймворк без дообучения для ускорения инференса диффузионных LLM через адаптивные политики размаскирования (arXiv cs.CL)
ТекстOpen-Source (локально)
📅 15.05
3 модели
Supertonic v3
лёгкая on-device TTS-модель (~99M параметров, ONNX) с поддержкой 31 языка, тегами эмоций (<laugh>, <breath>, <sigh>) и сниженным числом ошибок чтения
АудиоOpen-Source (локально)
ZAYA1-8B-Diffusion-Preview
первая MoE diffusion-модель от Zyphra, сконвертированная из авторегрессионного LLM, с ускорением до 7.7× при генерации
ИзображенияOpen-Source (локально)
VectraYX-Nano
41.95M decoder-only LLM для испаноязычной кибербезопасности с нативной интеграцией MCP; опубликованы корпус, скрипты обучения и GGUF-веса (arXiv cs.CL, 2605.13989)
ТекстOpen-Source (локально)
📅 13.05
7 моделей
GLiGuard
энкодерная safety/guardrail-модель на 300M параметров от Fastino Labs (детекция джейлбрейков, классификация вреда и отказы за один проход), лицензия Apache 2.0, опубликована на Hug…
ТекстOpen-Source (локально)
Voxtral TTS
мультиязычная TTS-модель на 4B параметров от Mistral, архитектура Autoregressive + Flow-Matching, синтез 24 kHz (WAV/MP3/FLAC), лицензия CC BY-NC 4.0
АудиоOpen-Source (локально)
Qwen-Image-VAE-2.0
технический отчёт от команды Qwen (Alibaba) о новой архитектуре image VAE, сопровождается публикацией модели
ИзображенияOpen-Source (локально)
AnyFlow
any-step видео-диффузионная модель от NVIDIA с on-policy flow map distillation
ВидеоOpen-Source (локально)
PresentAgent-2
мультимодальный агент общего назначения для генерации презентаций от Peking University
МультимодальныеOpen-Source (локально)
DavidAU/Marco-Nano-Thinking-8B-A0.6B
компактная reasoning-модель на 8B параметров
ТекстOpen-Source (локально)
OpenHuman
Rust-проект персонального приватного AI-суперинтеллекта, +1696 звёзд за день
ТекстOpen-Source (локально)
📅 09.05
2 модели
NVIDIA Star Elastic
единый чекпойнт, содержащий вложенные ризонинг-модели на 30B/23B/12B с zero-shot «нарезкой» размера без дообучения; вариант 23B→30B даёт до +16% точности и 1.9× меньшую задержку
ТекстOpen-Source (локально)
OncoAgent
open-source двухуровневый мульти-агентный фреймворк для приватного клинического принятия решений в онкологии
ТекстOpen-Source (локально)
📅 08.05
2 модели
EMO (Allen AI)
MoE-модель с эмерджентной модульностью, 1B активных / 14B общих параметров, 128 экспертов, обучена на 1T токенов; веса, код и статья открыты
ТекстOpen-Source (локально)
CyberSecQwen-4B
специализированная 4B-модель на базе Qwen3-4B-Instruct для оборонительной кибербезопасности (CWE/CVE-классификация, threat intel), Apache 2.0, запускается на 12 ГБ GPU
ТекстOpen-Source (локально)
📅 07.05
6 моделей
TokenSpeed
открытый инференс-движок для LLM от LightSeek Foundation, нацелен на агентские нагрузки и сопоставимую с TensorRT-LLM производительность
ТекстOpen-Source (локально)
NeuralBench / NeuralBench-EEG v1.0
открытый бенчмарк-фреймворк Meta AI для NeuroAI: 36 задач, 94 датасета, 14 архитектур, крупнейший открытый EEG-бенчмарк
ТекстOpen-Source (локально)
Hunyuan3D-2.1
открытая модель Image-to-3D (Tencent), новая публикация на Hugging Face
ИзображенияOpen-Source (локально)
gemma-4-E4B-it
instruct-вариант Gemma 4 E4B (~8B, Any-to-Any), опубликован на Hugging Face
ТекстOpen-Source (локально)
Negentropy-claude-opus-4.7-9B (8bit / bf16)
открытые 9B-веса для генерации текста, выложены на Hugging Face
ТекстПлатные (облако)
modern_DNABERT
обновлённая открытая BERT-модель для геномных последовательностей
ТекстOpen-Source (локально)
📅 06.05
6 моделей
Voxtral TTS
TTS-модель Mistral (4B параметров) с авторегрессивно-flow-matching архитектурой и выходом 24 кГц
АудиоOpen-Source (локально)
Gemma 4 MTP Drafters
вспомогательные модели Google для спекулятивного декодинга Gemma 4, ускорение до 3× без потери качества, Apache 2.0 на HF и Kaggle
ТекстOpen-Source (локально)
HunyuanOCR Q8_0 GGUF
квантизованная (Q8_0) сборка HunyuanOCR (0.5B) для image-text-to-text задач, формат GGUF
ИзображенияOpen-Source (локально)
TabPFN
обновление foundation-модели для табличных данных, в топе GitHub Trending за день
ТекстOpen-Source (локально)
Kronos
open-source foundation-модель для анализа финансовых рынков и языка торговли
ТекстOpen-Source (локально)
vLLM V0→V1
апдейт open-source инференс-движка с фокусом на корректность RL-режимов
ТекстOpen-Source (локально)
📅 05.05
7 моделей
Voxtral TTS
TTS-модель Mistral, 4B параметров, гибрид авторегрессии и flow-matching, 24 кГц, многоязычное клонирование голоса, лицензия CC BY-NC 4.0 (marktechpost.com)
АудиоOpen-Source (локально)
Kimi K2.6
открытая модель Moonshot, конкурирует с GPT-5.4 и Claude Opus 4.6 за счёт агентных «роёв» (the-decoder.com)
ТекстOpen-Source (локально)
GLM-5V-Turbo
нативная мультимодальная foundation-модель для агентов от Zhipu, статья и веса на arXiv (news.ycombinator.com)
МультимодальныеOpen-Source (локально)
isetnefret/gemma-4-E2B-it-mlx-fp16
порт Gemma 4 E2B-it под Apple MLX в fp16, ~5B параметров, any-to-any (huggingface.co)
ТекстOpen-Source (локально)
ThakiCloud/SkillRet-Embedding-8B
модель эмбеддингов на 8B для поиска по навыкам/sentence-similarity (huggingface.co)
ТекстOpen-Source (локально)
core12345/codev-r1-9b-atgrpo
9B reasoning-модель для кода, дообученная методом AT-GRPO (huggingface.co)
ТекстOpen-Source (локально)
NLP-Final-Project/mistral-7b-base-dpo
DPO-файнтюн Mistral-7B-base, открытые веса (huggingface.co)
ТекстOpen-Source (локально)
📅 01.05
7 моделей
Nemotron 3 Nano Omni
открытая мультимодальная модель от NVIDIA, ориентированная на эффективность и агентные сценарии
МультимодальныеOpen-Source (локально)
MiniCPM-o 4.5
омни-модальная модель на 9B параметров с full-duplex real-time обработкой зрения, аудио и речи для edge-устройств (arxiv cs.CL)
АудиоOpen-Source (локально)
Qwen-Scope
открытая SAE-сьюита от Qwen AI, превращающая внутренние признаки LLM в практические инструменты разработки
ТекстOpen-Source (локально)
JaiTTS-v1.0
открытая TTS-модель клонирования голоса для тайского языка с SOTA-показателем CER (arxiv cs.CL)
АудиоOpen-Source (локально)
Length Value Model (LenVM)
открытый token-level фреймворк для предсказания оставшейся длины генерации в LLM и VLM (arxiv cs.CL)
МультимодальныеOpen-Source (локально)
NeuralSet
open-source Python-пакет от Meta FAIR для нейро-AI задач: fMRI, M/EEG, спайк-записи и эмбеддинги Hugging Face
ТекстOpen-Source (локально)
Meta Autodata
открытый агентный фреймворк, превращающий AI-модели в автономных «дата-сайентистов» для генерации качественных обучающих данных
ТекстOpen-Source (локально)
Апрель
2026
📅 30.04
14 моделей
GLM-5V-Turbo
нативная мультимодальная foundation-модель для построения агентных систем
МультимодальныеOpen-Source (локально)
MiniCPM-o 4.5
9B омни-модальная модель с полнодуплексным real-time взаимодействием, требует <12 ГБ ОЗУ (arXiv cs.CL)
ТекстOpen-Source (локально)
Tencent Hy-MT1.5-1.8B-1.25bit
440 МБ офлайн-модель перевода на 33 языка прямо на смартфоне (The Decoder)
ТекстOpen-Source (локально)
Granite Speech 4.1 2B (IBM)
пара компактных речевых моделей: авторегрессионный ASR с переводом + неавторегрессионное редактирование
АудиоOpen-Source (локально)
FlashKDA (Moonshot AI)
open-source CUTLASS-ядра для Kimi Delta Attention с поддержкой переменной длины батча на H20
ТекстOpen-Source (локально)
Turning the TIDE (Пекинский ун-т)
кросс-архитектурная дистилляция для диффузионных LLM с открытым кодом
ТекстOpen-Source (локально)
Diffusion Templates
единый plugin-фреймворк для управляемой генерации в диффузионных моделях
ИзображенияOpen-Source (локально)
Praxy Voice (Praxel)
TTS commercial-класса для индийских языков с восстановлением голос-промптом
АудиоOpen-Source (локально)
VachaSpeech-0.6B-GGUF
компактная 0.6B речевая модель в формате GGUF
АудиоOpen-Source (локально)
Geodesic-Phantom-12B-GGUF
12B языковая модель в формате GGUF для локального запуска
ТекстOpen-Source (локально)
Qwen2.5-VL-7B-Instruct-OmniQuant-w8a8
W8A8 OmniQuant-квантизация vision-language модели Qwen2.5-VL-7B
МультимодальныеOpen-Source (локально)
Whisper Ghanaian ASR
модель распознавания речи, дообученная на ганских языках
АудиоOpen-Source (локально)
ClawGym
масштабируемый open-source фреймворк для обучения агентов-манипуляторов
ТекстOpen-Source (локально)
Large Language Models Explore by Latent Distilling (ShanghaiTech)
метод исследования LLM через дистилляцию в латентном пространстве с открытым релизом
ТекстOpen-Source (локально)
📅 29.04
7 моделей
Granite 4.1 (IBM)
семейство dense decoder-only LLM (3B / 8B / 30B), Apache 2.0, обучены на ~15T токенов, контекст до 512K
ТекстOpen-Source (локально)
Nemotron 3 Nano Omni (NVIDIA)
открытая мультимодальная модель, рассуждает по тексту, изображениям, видео и аудио, под агентные нагрузки
ВидеоOpen-Source (локально)
Step-Audio-R1.5 (StepFun)
технический отчёт о новой версии аудио-модели с reasoning, топ дня по апвоутам на HF Papers
АудиоOpen-Source (локально)
VibeVoice (Microsoft)
open-source frontier voice AI, в трендах GitHub за день
АудиоOpen-Source (локально)
FlashQLA
высокопроизводительная библиотека ядер линейного внимания, ускорение до 3× на NVIDIA Hopper
ТекстOpen-Source (локально)
smol-audio
набор Colab-ноутбуков для дообучения речевых и аудио-моделей
АудиоOpen-Source (локально)
NeuralSet
Python-пакет для neuro-AI с поддержкой fMRI, M/EEG, спайков и эмбеддингов HuggingFace
ТекстOpen-Source (локально)
📅 28.04
9 моделей
LittleLamb 0.3B
ультракомпактная модель общего назначения от Multiverse Computing, 50%-сжатая версия Qwen3-0.6B с двуязычным рассуждением
ТекстOpen-Source (локально)
LittleLamb 0.3B Tool-Calling
вариант LittleLamb, оптимизированный под вызов инструментов и агентные сценарии
ТекстOpen-Source (локально)
LittleLamb 0.3B Mobile
деплой-ориентированный вариант LittleLamb для on-device и мобильных применений
ТекстOpen-Source (локально)
NVIDIA Nemotron 3 Nano Omni
мультимодальная модель с длинным контекстом для документов, аудио и видео-агентов
ВидеоOpen-Source (локально)
Marco-MoE
открытое семейство многоязычных Mixture-of-Experts моделей (~5% активных параметров) с полностью открытыми весами, датасетами и рецептом обучения (arXiv 2604.25578)
ТекстOpen-Source (локально)
VibeVoice
open-source фронтирная голосовая AI-модель от Microsoft
АудиоOpen-Source (локально)
OpenAI Privacy Filter
открытая модель на 1.5B параметров (50M активных) для редактирования PII и приватности данных
ТекстOpen-Source (локально)
MING-MOE-14B
открытая Mixture-of-Experts модель на 14B параметров, опубликованная на Hugging Face
ТекстOpen-Source (локально)
Fiber-Qwen2.5-7B
открытая модель генерации текста на базе Qwen2.5-7B от LayerEight
ТекстOpen-Source (локально)
📅 27.04
2 модели
Talkie-1930
открытая 13B LLM, обученная исключительно на англоязычных текстах до 1931 года; для исследований исторического рассуждения и обобщения
ТекстOpen-Source (локально)
MOSS-Audio
открытая мультимодальная аудио-foundation-модель: речь, окружающие звуки, музыка и темпоральное рассуждение в единой архитектуре, обходит более крупные проприетарные альтернативы н…
АудиоOpen-Source (локально)
📅 26.04
10 моделей
Qwen3.6-27B
плотная 27B модель Alibaba, обходит более крупного MoE-предшественника на бенчмарках кодинга, проще в развёртывании (the-decoder.com)
ТекстOpen-Source (локально)
Ghost-V6-Deep-Thinker
вариант Ghost-V6 с акцентом на цепочки рассуждений
ТекстOpen-Source (локально)
Ghost-V6-Ultra-Reasoning
8B модель генерации текста с расширенными возможностями reasoning
ТекстOpen-Source (локально)
helenk/gemma-4-finetune
мультимодальный image-text-to-text файнтюн на базе Gemma 4
МультимодальныеOpen-Source (локально)
BAR-7B-GGUF
7B модель в формате GGUF для локального инференса
ТекстOpen-Source (локально)
Eve-4b-FP16-i1-GGUF
4B модель Eve в FP16 с GGUF-квантизацией
ТекстOpen-Source (локально)
bluey-8B_GGUF
8B модель в GGUF
ТекстOpen-Source (локально)
symfony_ai_maker-V0.5-Qwen3-0.6B
лёгкий ассистент для Symfony на основе Qwen3-0.6B, версии 16bit и LoRA
ТекстOpen-Source (локально)
pcd-llama31-8b-singlelayer-72m-norm
экспериментальный вариант Llama 3.1 8B с однослойной архитектурой
ТекстOpen-Source (локально)
HOIGen1M_hands_mask
модель генерации масок рук для задач Human-Object Interaction
ТекстOpen-Source (локально)
📅 24.04
10 моделей
DeepSeek-V4-Pro
флагманская MoE-модель на 1.6T параметров с контекстом 1M токенов и архитектурой Hybrid Attention; топ среди open-моделей по коду и математике
ТекстOpen-Source (локально)
DeepSeek-V4-Flash
облегчённая версия V4 на 284B параметров с тем же 1M-контекстом, рассчитанная на дешёвый инференс
ТекстOpen-Source (локально)
AgenticQwen
серия малых агентных LLM, обученных через RL; чекпоинты и часть синтетических данных открыты
ТекстOpen-Source (локально)
AFRILANGTUTOR
дообученные Llama-3-8B-IT и Gemma-3-12B-IT под 10 африканских языков, прирост 1.8–15.5% через SFT+DPO
ТекстOpen-Source (локально)
VLAA-GUI
модульный open-source фреймворк GUI-автоматизации, 77.5% на OSWorld (arXiv 2604.21375 / UCSC-VLAA)
ТекстOpen-Source (локально)
Decoupled DiLoCo
открытый метод устойчивого распределённого предобучения больших моделей (arXiv 2604.21428)
ТекстOpen-Source (локально)
Huihui4-8B-A4B-GGUF
8B-модель в формате GGUF для локального инференса
ТекстOpen-Source (локально)
Llama-3.2-3B_mathv1_grpo
версия Llama 3.2 3B, дообученная GRPO под математические задачи
ТекстOpen-Source (локально)
ReasonAssessor
модель оценки качества рассуждений LLM
ТекстOpen-Source (локально)
isabert-v2-stage2
ALBERT-вариант второй стадии обучения
ТекстOpen-Source (локально)
📅 23.04
2 модели
DeepSeek-V4 (Pro и Flash)
открытые веса, гибридное внимание (CSA+HCA), контекст до 1 млн токенов, доступны на Hugging Face
ТекстOpen-Source (локально)
OpenMythos
открытая PyTorch-реализация, достигающая глубокого рассуждения через итеративные вычисления вместо роста числа параметров
ТекстOpen-Source (локально)
📅 21.04
3 модели
Kimi K2.6
open-weight модель от Moonshot AI, конкурирует с GPT-5.4 и Claude Opus 4.6 на задачах кодинга, поддерживает «рои» до 300 параллельных агентов; модифицированная MIT-лицензия (artifi…
ТекстOpen-Source (локально)
ml-intern
open-source автономный ML-инженер от Hugging Face, читает статьи, обучает модели и автоматизирует post-training-пайплайн LLM (github.com/huggingface, marktechpost.com)
ТекстOpen-Source (локально)
QIMMA قِمّة
open-source Arabic LLM Leaderboard от TIIUAE с 52 000+ примеров по 7 доменам и качественной валидацией бенчмарков (huggingface.co/blog)
ТекстOpen-Source (локально)
📅 20.04
1 модель
Kimi K2.6 (Moonshot AI)
open-source модель для «long-horizon coding» с агентной архитектурой до 300 под-агентов и 4 000 скоординированных шагов
ТекстOpen-Source (локально)
📅 18.04
4 модели
SAGE Celer 2.6 (5B / 10B / 27B)
многоязычная мультимодальная модель общего назначения с нативной поддержкой южноазиатских языков (деванагари, хинди, непали); три размера весов (arXiv cs.CL, новинки 18 апр.)
МультимодальныеOpen-Source (локально)
RAD-2
масштабируемая система обучения с подкреплением в схеме «генератор–дискриминатор»; авторы утверждают улучшение на задачах рассуждения по сравнению с GRPO
ТекстOpen-Source (локально)
HY-World 2.0
мультимодальная world-модель для реконструкции, генерации и симуляции 3D-миров; поддерживает видео и изображения
ВидеоOpen-Source (локально)
Gemini Robotics-ER 1.6
модель Google DeepMind для воплощённого рассуждения в робототехнике; статья о релизе опубликована 18 апр. на The Decoder (статус открытых весов не подтверждён)
ТекстПлатные (облако)
📅 17.04
9 моделей
NVIDIA Nemotron OCR v2
быстрая мультиязычная OCR-модель с гибридной архитектурой (детектор + распознаватель + реляционная модель); 6 языков, 34 страницы/сек на A100; лицензия NVIDIA Open Model License (h…
DocumentOpen-Source (локально)
HY-World 2.0
мультимодальная world model для реконструкции, генерации и симуляции 3D-миров; 45 авторов
МультимодальныеOpen-Source (локально)
RAD-2
модель масштабирования RL в фреймворке генератор-дискриминатор; Huazhong University of Science and Technology
ТекстOpen-Source (локально)
HiVLA
иерархическая воплощённая манипуляционная система с визуальной привязкой; 11 авторов
ТекстOpen-Source (локально)
GlobalSplat
эффективный feed-forward 3D Gaussian Splatting через глобальные токены сцены; Hebrew University of Jerusalem
ТекстOpen-Source (локально)
MM-WebAgent
иерархический мультимодальный веб-агент для генерации веб-страниц; Microsoft Research
МультимодальныеOpen-Source (локально)
SAGE Celer 2.6
модель общего назначения 5B–27B параметров с мультимодальными возможностями и оптимизацией для южноазиатских языков (arXiv cs.CL, 17.04.2026)
МультимодальныеOpen-Source (локально)
APEX-MEM
разговорная система памяти на основе граф свойств с темпоральным рассуждением для долгосрочных взаимодействий (arXiv cs.CL, 17.04.2026)
ТекстOpen-Source (локально)
HUOZIIME
on-device LLM-расширенный метод ввода для мобильных устройств с иерархическим механизмом памяти (arXiv cs.CL, 17.04.2026)
ТекстOpen-Source (локально)
📅 16.04
8 моделей
Qwen3.6-35B-A3B (Alibaba)
открытая MoE-модель на 35B параметров (3B активных), можно запустить локально на ноутбуке; по неформальным тестам обходит Claude Opus 4.7 в ряде задач
ТекстOpen-Source (локально)
Gemma 4 (Google DeepMind)
открытая мультимодальная модель для агентного AI с локальным запуском на мобильных устройствах, данные не покидают устройство
МультимодальныеOpen-Source (локально)
Parcae (UCSD + Together AI Research)
новая архитектура «зацикленных» языковых моделей, которая достигает качества трансформера вдвое большего размера при меньшем числе параметров
ТекстOpen-Source (локально)
SAGE Celer 2.6 (SAGEA Research Team)
семейство открытых моделей 5B/10B/27B с нативной мультимодальностью и усиленной поддержкой южноазиатских языков (хинди, непали, деванагари)
МультимодальныеOpen-Source (локально)
HY-World 2.0 (Tencent)
мультимодальная мировая модель для реконструкции, генерации и симуляции 3D-миров
МультимодальныеOpen-Source (локально)
RAD-2
масштабируемая система обучения с подкреплением в рамках генератор-дискриминатор; улучшает качество рассуждений LLM
ТекстOpen-Source (локально)
LeapAlign (ByteDance Seed)
метод пост-тренинга flow matching моделей на любом шаге генерации, значительно ускоряет обучение
ТекстOpen-Source (локально)
Cross-Tokenizer LLM Distillation
открытый метод дистилляции LLM через байтовый интерфейс, не зависящий от токенизатора модели-учителя
ТекстOpen-Source (локально)
📅 15.04
15 моделей
NVIDIA Ising
первые в мире открытые AI-модели для ускорения пути к полезным квантовым вычислениям: 2.5× прирост производительности и 3× рост точности по сравнению с существующими open-source ст…
ТекстOpen-Source (локально)
VAKRA (IBM Research)
агентная система с анализом рассуждений, использования инструментов и режимов отказа у AI-агентов
ТекстOpen-Source (локально)
Seedance 2.0 (ByteDance Seed)
продвинутая модель видеогенерации для моделирования сложного мира
ВидеоOpen-Source (локально)
EVE 24B
первая специализированная LLM-система для наук о Земле и спутникового наблюдения, 24B параметров
ТекстOpen-Source (локально)
PersonaVLM
мультимодальная LLM с долгосрочной персонализацией: запоминание, рассуждение и адаптация к предпочтениям пользователя (arXiv)
МультимодальныеOpen-Source (локально)
MM-Doc-R1
агентная vision-система для сложных запросов по длинным документам с итеративным поиском информации (arXiv)
МультимодальныеOpen-Source (локально)
TREX
автоматизация fine-tuning LLM через исследование дерева решений агентами
ТекстOpen-Source (локально)
UI-Copilot
система автоматизации GUI на длинных горизонтах с tool-integrated оптимизацией
ТекстOpen-Source (локально)
GameWorld
стандартизированный фреймворк оценки мультимодальных игровых агентов (NUS)
МультимодальныеOpen-Source (локально)
SpatialEvo
саморазвивающийся пространственный интеллект через детерминированные геометрические среды
ТекстOpen-Source (локально)
RationalRewards
масштабирование визуальной генерации через рассуждения о наградах
ТекстOpen-Source (локально)
MERRIN
бенчмарк для мультимодального поиска и рассуждений в зашумлённой веб-среде
МультимодальныеOpen-Source (локально)
UI-Zoomer
адаптивное масштабирование с учётом неопределённости для точной привязки элементов GUI
ТекстOpen-Source (локально)
TIP
метод дистилляции on-policy с учётом важности токенов (Princeton University)
ТекстOpen-Source (локально)
ROSE
улучшение сегментации изображений, ориентированное на задачи поиска
ИзображенияOpen-Source (локально)
📅 14.04
6 моделей
GLM-5.1
открытая модель от Z.ai под лицензией MIT, превосходит GPT-5.4 и Opus 4.6 на задачах кодирования (SWE-Bench), поддерживает локальный запуск и файнтюнинг (scitech.whatfinger.com)
ТекстOpen-Source (локально)
Nemotron 3 Super
открытая гибридная MoE-модель NVIDIA на архитектуре Mamba-Transformer для агентных рассуждений
ТекстOpen-Source (локально)
Audio Flamingo Next (AF-Next)
открытая аудио-языковая модель нового поколения от NVIDIA и Университета Мэриленда для речи, звука и музыки (marktechpost.com + Hugging Face Papers)
АудиоOpen-Source (локально)
ClawGUI
открытый фреймворк Чжэцзянского университета для обучения, оценки и развёртывания GUI-агентов; самая популярная статья дня (307 голосов)
ТекстOpen-Source (локально)
Bielik v3 7B / 11B
открытые польскоязычные языковые модели от SpeakLeash с оптимизированной токенизацией
ТекстOpen-Source (локально)
TorchUMM
открытая унифицированная мультимодальная кодовая база от Университета Карнеги–Меллон для оценки, анализа и пост-тренировки мультимодальных моделей
МультимодальныеOpen-Source (локально)
📅 13.04
12 моделей
HY-Embodied-0.5 (Tencent Hunyuan)
фундаментальные модели для воплощённых агентов на архитектуре Mixture-of-Transformers с улучшенным визуальным восприятием и рассуждением в реальном мире
ТекстOpen-Source (локально)
Audio Flamingo Next (NVIDIA)
следующее поколение открытых аудио-языковых моделей для речи, звука и музыки
АудиоOpen-Source (локально)
WildDet3D (AI2 / Allen Institute)
унифицированный фреймворк 3D-обнаружения объектов в открытом мире с поддержкой множества типов подсказок
ТекстOpen-Source (локально)
VOID (Netflix)
модель удаления объектов из видео с использованием VLM и диффузионных моделей для генерации физически правдоподобных сцен
ВидеоOpen-Source (локально)
LPM 1.0
мультимодальная модель большого масштаба для генерации персонажей в реальном времени с бесконечной длиной видео
ВидеоOpen-Source (локально)
RefineAnything (Zhejiang University)
диффузионная мультимодальная модель для регионально-специфичного уточнения изображений с сохранением фона
МультимодальныеOpen-Source (локально)
MegaTrain
метод полноточного обучения моделей 100B+ параметров на одном GPU через хранение в памяти хоста
ТекстOpen-Source (локально)
Kronos (shiyu-coder)
фундаментальная модель для языка финансовых рынков
ТекстOpen-Source (локально)
NousResearch/hermes-agent
агентный ИИ-фреймворк нового поколения на базе открытых весов
ТекстOpen-Source (локально)
ClawGUI
унифицированный фреймворк для обучения, оценки и развёртывания GUI-агентов
ТекстOpen-Source (локально)
CodeTracer
система трассировки состояний агентов при написании кода
ТекстOpen-Source (локально)
OmniShow (ByteDance)
модель генерации видео взаимодействий человека и объектов с мультимодальными условиями
ВидеоOpen-Source (локально)
📅 12.04
6 моделей
MiniMax M2.7
языковая модель от MiniMax с контекстным окном 205K токенов, стала доступна через API Fireworks и Together AI одновременно (pricepertoken.com)
ТекстOpen-Source (локально)
llama.cpp b8766
плановый релиз инференс-движка llama.cpp: бинарные сборки для Windows (CUDA 12.4 / 13.1), macOS (arm64/x64) и openEuler (aarch64/x86); исходный код выпущен в 12:15 UTC
ТекстOpen-Source (локально)
Arcee AI Trinity-Large-Thinking
открытая модель рассуждений на 400 миллиардов параметров от стартапа Arcee AI, позиционируется как конкурент Claude Opus в агентских задачах; компания вложила около половины всех в…
ТекстOpen-Source (локально)
NousResearch/hermes-agent
открытый агентский фреймворк «агент, который растёт вместе с тобой»; вышел в топ GitHub Trending с 7 400+ звёздами за сутки
ТекстOpen-Source (локально)
shiyu-coder/Kronos
фундаментальная модель для языка финансовых рынков, 1 985 новых звёзд за день на GitHub
ТекстOpen-Source (локально)
OpenBMB/VoxCPM
многоязычная TTS-система с клонированием голоса от OpenBMB, появилась в GitHub Trending
АудиоOpen-Source (локально)
📅 11.04
9 моделей
LFM2.5-VL-450M (Liquid AI)
компактная 450M-параметровая vision-language модель для edge-устройств: предсказание ограничивающих рамок (RefCOCO-M: 81.28), многоязычность, вызов функций, инференс < 250 мс на Sn…
МультимодальныеOpen-Source (локально)
Waypoint-1.5 (Overworld)
обновлённая модель генерации интерактивных 3D-миров в реальном времени; обучена на объёме данных в ~100× больше предыдущей версии; поддерживает Mac и Windows, 60 fps при 720p на мо…
ТекстOpen-Source (локально)
HY-Embodied-0.5 (Tencent Hunyuan)
фундаментальная модель для воплощённых агентов реального мира, выложена на HuggingFace; вошла в топ по просмотрам Daily Papers (427 просмотров)
ТекстOpen-Source (локально)
OpenVLThinkerV2 (UCLA NLP)
мультимодальная reasoning-модель общего назначения для задач из нескольких визуальных доменов, open weights
МультимодальныеOpen-Source (локально)
MolmoWeb
открытый визуальный веб-агент с открытыми данными для работы в браузере; построен на базе Molmo
ТекстOpen-Source (локально)
SkillClaw
open-source агентная система коллективной эволюции навыков; агенты обмениваются и улучшают умения автономно
ТекстOpen-Source (локально)
NousResearch/hermes-agent
MIT-лицензированный самообучающийся AI-агент с персистентной памятью; в день 11.04 набрал +7 450 GitHub-звёзд (66k итого); поддержка Telegram, Discord, Slack, WhatsApp, CLI
ТекстOpen-Source (локально)
OpenBMB/VoxCPM
TTS-модель без токенизатора для многоязычного синтеза речи, open source
АудиоOpen-Source (локально)
shiyu-coder/Kronos
фундаментальная модель «языка финансовых рынков», open source, +1 998 звёзд за день
ТекстOpen-Source (локально)
📅 10.04
10 моделей
HY-Embodied-0.5
воплощённые фундаментальные модели Tencent Hunyuan для управления реальными роботизированными агентами
ТекстOpen-Source (локально)
MemReader-0.6B / MemReader-4B
компактные модели для извлечения долгосрочной памяти LLM-агентов из неструктурированного текста (arXiv cs.CL 2604.07877)
ТекстOpen-Source (локально)
Kathleen
сверхлёгкая архитектура классификации текста (733K параметров) на байтовых входах без токенизатора (arXiv cs.CL 2604.07969)
ТекстOpen-Source (локально)
VoxCPM2 (OpenBMB/VoxCPM)
многоязычная TTS-модель без токенизатора, поддерживает генерацию речи в реальном времени
АудиоOpen-Source (локально)
Kronos (shiyu-coder/Kronos)
фундаментальная модель для моделирования языка финансовых рынков
ТекстOpen-Source (локально)
NousResearch/hermes-agent
открытый агентский фреймворк «агент, который растёт вместе с вами»
ТекстOpen-Source (локально)
SkillClaw
система коллективной эволюции навыков для многопользовательских LLM-агентов
ТекстOpen-Source (локально)
MegaStyle
Tencent: масштабируемая генерация стилистических датасетов через согласованное text-to-image отображение
ИзображенияOpen-Source (локально)
Wan 2.7
набор из четырёх open-source моделей генерации видео: создание, продолжение, редактирование, reference-driven workflows
ВидеоOpen-Source (локально)
RhymeTagger
языконезависимый инструмент-модель для распознавания рифм на 7 языках (arXiv cs.CL 2604.08156)
ТекстOpen-Source (локально)
📅 09.04
10 моделей
Waypoint-1.5
real-time видеомодель для генерации интерактивных виртуальных миров от Overworld; работает на потребительском железе (RTX 3090–5090), 720p при 60 FPS; доступна как Waypoint-1.5-1B…
ВидеоOpen-Source (локально)
Sentence Transformers v5.4
обновление open-source библиотеки с поддержкой мультимодальных embedding- и reranker-моделей (текст, изображения, аудио, видео); поддерживает Qwen3-VL-Embedding, NVIDIA Llama Nemot…
ВидеоOpen-Source (локально)
RAGEN-2 (2604.06268)
фреймворк/исследование MLL Lab о коллапсе рассуждений в агентном обучении с подкреплением; 2.6k лайков на HF Papers
ТекстOpen-Source (локально)
INSPATIO-WORLD (2604.07209)
real-time 4D симулятор мира на основе пространственно-временного авторегрессионного моделирования, 23 автора; 785 лайков
ТекстOpen-Source (локально)
MARS (2604.07023)
метод для многотокенной генерации в авторегрессионных моделях от Nanyang Technological University
ТекстOpen-Source (локально)
Think in Strokes, Not Pixels (2604.04746)
генерация изображений через пошаговое рассуждение (process-driven), AI at Meta
ИзображенияOpen-Source (локально)
SkillClaw
система коллективной эволюции навыков с помощью агентного эволюционера, NAIL-Group
ТекстOpen-Source (локально)
ClawBench
бенчмарк для оценки способности AI-агентов выполнять повседневные онлайн-задачи, NAIL-Group
ТекстOpen-Source (локально)
SEVerA (2603.25111)
верифицированный синтез самоэволюционирующих агентов
ТекстOpen-Source (локально)
Combee (2604.04247)
масштабирование обучения промптам для самосовершенствующихся LLM-агентов, UC Berkeley
ТекстOpen-Source (локально)
📅 08.04
4 модели
GLM-5.1
открытая модель от Z.AI (Zhipu AI), 754B параметров (архитектура MoE), лицензия MIT; способна автономно работать до 8 часов, превосходит Claude Opus 4.6 на SWE-Bench Pro; веса дост…
ТекстOpen-Source (локально)
MedGemma 1.5
медицинская мультимодальная модель Google на базе Gemma, технический отчёт опубликован на Hugging Face Daily Papers 8 апреля; ориентирована на клинические и биомедицинские задачи
МультимодальныеOpen-Source (локально)
Paper Circle
open-source мульти-агентный фреймворк для поиска и анализа научных публикаций, от Mohamed Bin Zayed University of AI; опубликован на Hugging Face Papers 8 апреля
ТекстOpen-Source (локально)
--
--
ТекстOpen-Source (локально)
📅 07.04
6 моделей
GLM-5.1
флагманская модель Z.ai (бывш. Zhipu AI), 744B параметров (MoE, 40B активных), лицензия MIT, контекст 200K токенов; заняла #1 на SWE-Bench Pro (58.4 балла), обогнав GPT-5.4 и Claud…
ТекстOpen-Source (локально)
MinerU2.5-Pro
модель для масштабного парсинга документов от OpenDataLab, ориентированная на высококачественное извлечение структурированных данных; бумага опубликована на HuggingFace Daily Paper…
ТекстOpen-Source (локально)
TriAttention
метод/модуль от NVIDIA для эффективного длинного рассуждения с тригонометрическим сжатием KV-кэша; снижает вычислительную нагрузку при длинных контекстах; бумага опубликована на Hu…
ТекстOpen-Source (локально)
BidirLM
архитектура преобразования каузальных LLM в двунаправленные энкодеры («Decoder To Encoder»); позволяет создавать мощные эмбеддинг-модели из decoder-only основ; бумага опубликована…
ТекстOpen-Source (локально)
Vero
открытый RL-рецепт для общего визуального рассуждения (General Visual Reasoning); бумага опубликована на HuggingFace Daily Papers 07.04 (huggingface.co/papers)
ТекстOpen-Source (локально)
OpenWorldLib
единая кодовая база и формализация продвинутых World Models от Пекинского университета; опубликована на HuggingFace Daily Papers 07.04 (huggingface.co/papers)
ТекстOpen-Source (локально)
📅 06.04
8 моделей
InCoder-32B-Thinking
Промышленная кодовая «world model» с возможностями рассуждения (thinking), 32B параметров, 25+ авторов; 226 голосов на HuggingFace (huggingface.co/papers)
ТекстOpen-Source (локально)
GrandCode
Агентная система на основе RL, достигающая уровня гроссмейстера в соревновательном программировании; 349 голосов на HuggingFace (huggingface.co/papers, DeepReinforce)
ТекстOpen-Source (локально)
Self-Distilled RLVR
Метод обучения с подкреплением через самодистилляцию для языковых моделей; 155 голосов на HuggingFace (huggingface.co/papers)
ТекстOpen-Source (локально)
VoxCPM2 (OpenBMB)
TTS-модель без токенизатора для многоязычной генерации речи, клонирования голоса и творческого синтеза; +1 276 звёзд за день (github.com/trending)
АудиоOpen-Source (локально)
Kronos (shiyu-coder)
Фундаментальная модель для языка финансовых рынков; +1 998 звёзд за день (github.com/trending)
ТекстOpen-Source (локально)
hermes-agent (NousResearch)
Открытая агентная AI-система «растущая вместе с пользователем»; +7 450 звёзд за день (github.com/trending)
ТекстOpen-Source (локально)
A Simple Baseline for Streaming Video Understanding (LMMs-Lab)
Базовый подход для понимания потокового видео в реальном времени; 72 голоса на HuggingFace (huggingface.co/papers)
ВидеоOpen-Source (локально)
Agentic-MME
Бенчмарк для оценки вклада агентных возможностей в мультимодальный интеллект; 36 голосов на HuggingFace (huggingface.co/papers)
МультимодальныеOpen-Source (локально)
📅 05.04
8 моделей
Generative World Renderer
генеративная модель рендеринга мира (Shanda AI Research Tokyo), 554 лайка (huggingface.co/papers)
ТекстOpen-Source (локально)
VOID: Video Object and Interaction Deletion
модель удаления объектов и взаимодействий из видео (Netflix Research), 1490 лайков (huggingface.co/papers)
ВидеоOpen-Source (локально)
CORAL: Towards Autonomous Multi-Agent Evolution for Open-Ended Discovery
фреймворк автономной эволюции мультиагентных систем (MIT), 440 лайков (huggingface.co/papers)
ТекстOpen-Source (локально)
SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization
метод обучения с подкреплением для интернализации навыков агентов, 184 лайка (huggingface.co/papers)
ТекстOpen-Source (локально)
DataFlex: A Unified Framework for Data-Centric Dynamic Training of LLMs
унифицированный фреймворк динамического обучения LLM (Peking University), 198 лайков (huggingface.co/papers)
ТекстOpen-Source (локально)
The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook
масштабный обзорный труд о пространстве скрытых представлений в нейросетях, 680 лайков (huggingface.co/papers)
ТекстOpen-Source (локально)
Steerable Visual Representations
управляемые визуальные представления (UTN / Fundamental AI Lab), 65 лайков (huggingface.co/papers)
ТекстOpen-Source (локально)
EgoSim: Egocentric World Simulator for Embodied Interaction Generation
симулятор эгоцентрического мира для воплощённых агентов, 34 лайка (huggingface.co/papers)
ТекстOpen-Source (локально)
📅 04.04
15 моделей
Wan 2.7
набор из четырёх видеомоделей (генерация, продолжение, reference-driven и редактирование), стал доступен на Together AI
ВидеоOpen-Source (локально)
Deepgram STT & TTS
производственные модели распознавания и синтеза речи от Deepgram, добавлены в Together AI Dedicated Model Inference
АудиоOpen-Source (локально)
T5Gemma-TTS
TTS-модель на основе архитектур T5 и Gemma, технический отчёт опубликован на HuggingFace (huggingface.co/papers)
АудиоOpen-Source (локально)
DataFlex
единый фреймворк для динамического обучения LLM с данно-центричным подходом, Пекинский университет (huggingface.co/papers)
ТекстOpen-Source (локально)
Generative World Renderer
генеративная модель рендеринга трёхмерных миров, Shanda AI Research Tokyo (huggingface.co/papers)
ТекстOpen-Source (локально)
SKILL0
фреймворк интернализации навыков через агентное обучение с подкреплением в контексте (huggingface.co/papers)
ТекстOpen-Source (локально)
CORAL
система автономной мультиагентной эволюции для открытых научных открытий, MIT (huggingface.co/papers)
ТекстOpen-Source (локально)
Nemotron-Cascade-2-30B-A3B
NVIDIA, каскадная MoE-архитектура для эффективного инференса агентных систем (huggingface.co/models, trending 2026-04-04)
ТекстOpen-Source (локально)
LFM2.5-350M
ультра-компактная 350M-параметровая liquid foundation model для edge-устройств, LiquidAI (huggingface.co/models, trending 2026-04-04)
ТекстOpen-Source (локально)
context-1
первая генеративная модель ChromaDB, оптимизированная для retrieval-augmented задач (huggingface.co/models, trending 2026-04-04)
ИзображенияOpen-Source (локально)
harrier-oss-v1-0.6b
600M embedding-модель Microsoft на базе Qwen3, протестирована на MTEB (huggingface.co/models, trending 2026-04-04)
ТекстOpen-Source (локально)
NousResearch/hermes-agent
открытый агентный фреймворк «растущий вместе с пользователем», 7 450 звёзд за день (github.com/trending)
ТекстOpen-Source (локально)
Kronos
foundation model для языка финансовых рынков, shiyu-coder (github.com/trending)
ТекстOpen-Source (локально)
VoxCPM
многоязычная TTS-модель без токенизатора, OpenBMB (github.com/trending)
АудиоOpen-Source (локально)
sam3.1
Meta Segment Anything 3.1 с нативной сегментацией видео (huggingface.co/models, trending 2026-04-04)
ВидеоOpen-Source (локально)
📅 03.04
11 моделей
Woosh
фундаментальная модель для генерации звуковых эффектов от Sony; опубликована на HuggingFace Papers (huggingface.co/papers/date/2026-04-03)
АудиоOpen-Source (локально)
Apriel-Reasoner
модель ServiceNow с RL-постобучением для универсального и эффективного рассуждения (huggingface.co/papers/date/2026-04-03)
ТекстOpen-Source (локально)
T5Gemma-TTS
технический отчёт и модель синтеза речи от Google на базе архитектур T5 и Gemma (huggingface.co/papers/date/2026-04-03)
АудиоOpen-Source (локально)
Generative World Renderer
генеративная модель рендеринга виртуальных миров от Shanda AI Research Tokyo (huggingface.co/papers/date/2026-04-03)
ТекстOpen-Source (локально)
UniDriveVLA
vision-language-action модель для автономного вождения от Huazhong University of Science and Technology (huggingface.co/papers/date/2026-04-03)
МультимодальныеOpen-Source (локально)
Kronos
фундаментальная модель для языка финансовых рынков
ТекстOpen-Source (локально)
VoxCPM2 (OpenBMB)
TTS-модель без токенизатора для многоязычной генерации речи, клонирования голоса и творческого дизайна звука
АудиоOpen-Source (локально)
NousResearch/hermes-agent
открытый агентный фреймворк «модель, которая растёт вместе с тобой»
ТекстOpen-Source (локально)
CORAL (MIT)
фреймворк для эволюции мультиагентных систем в целях открытых научных открытий (huggingface.co/papers/date/2026-04-03)
ТекстOpen-Source (локально)
EgoSim
эгоцентрический симулятор мира для генерации воплощённых взаимодействий (huggingface.co/papers/date/2026-04-03)
ТекстOpen-Source (локально)
ASI-Evolve (SII-GAIR)
фреймворк «ИИ ускоряет ИИ» для самоулучшения систем (huggingface.co/papers/date/2026-04-03)
ТекстOpen-Source (локально)
📅 02.04
10 моделей
Gemma 4 E2B
Эффективная модель Google на ~2B параметров, мультимодальная (текст, изображения, аудио), оптимизирована для работы прямо на устройстве, лицензия Apache 2.0
АудиоOpen-Source (локально)
Gemma 4 E4B
Эффективная модель Google на ~4B параметров, мультимодальная, edge-ориентированная, контекст до 256K токенов, 140+ языков, лицензия Apache 2.0
МультимодальныеOpen-Source (локально)
Gemma 4 26B MoE
Модель Google на 26B параметров, архитектура Mixture-of-Experts, занимает #6 в открытом рейтинге Arena AI, лицензия Apache 2.0
ТекстOpen-Source (локально)
Gemma 4 31B Dense
Флагманская плотная модель Google на 31B параметров, #3 в открытом рейтинге Arena AI среди открытых моделей, лицензия Apache 2.0
ТекстOpen-Source (локально)
Wan 2.7
Набор из четырёх открытых моделей для генерации видео: text-to-video, продолжение видео, reference-driven генерация и редактирование, доступен через Together AI
ВидеоOpen-Source (локально)
ClawKeeper
Фреймворк комплексной защиты безопасности для агентов OpenClaw через навыки, плагины и наблюдателей, код открыт
ТекстOpen-Source (локально)
Terminal Agents Suffice for Enterprise Automation
Модель/фреймворк от ServiceNow AI для автоматизации корпоративных задач через терминальных агентов
ТекстOpen-Source (локально)
MiroEval
Открытый бенчмарк от MiroMind AI для оценки мультимодальных агентов глубокого исследования, включает эталонные модели
МультимодальныеOpen-Source (локально)
ViGoR-Bench
Открытый бенчмарк от Meituan для оценки визуальных генеративных моделей как zero-shot визуальных рассуждателей
ТекстOpen-Source (локально)
Vision2Web
Открытый иерархический бенчмарк от Z.ai для разработки веб-сайтов с помощью визуальных агентов
ТекстOpen-Source (локально)
📅 01.04
3 модели
Holo3-35B-A3B
агентная модель для управления компьютером от H Company (35B параметров, 10B активных), лицензия Apache 2.0; достигла 78.85% на бенчмарке OSWorld-Verified — новый SOTA для desktop…
ТекстOpen-Source (локально)
Falcon Perception
открытая vision-модель от Technology Innovation Institute (TII, ОАЭ), 0.6B параметров; early-fusion трансформер для open-vocabulary grounding и сегментации по текстовым промптам; т…
МультимодальныеOpen-Source (локально)
TRL v1.0
Hugging Face выпустил стабильную версию библиотеки пост-обучения: унифицированный стек для SFT, Reward Modeling, DPO и GRPO с единым CLI и API; ориентирован на продакшн-использован…
ТекстOpen-Source (локально)
Март
2026
📅 31.03
4 модели
Granite 4.0 3B Vision
компактная мультимодальная модель IBM Granite для обработки корпоративных документов; поддерживает текст и изображения в едином небольшом пакете
МультимодальныеOpen-Source (локально)
TRL v1.0
крупный релиз библиотеки пост-обучения языковых моделей от Hugging Face; версия 1.0 знаменует стабилизацию API и полную поддержку современных методов RLHF/DPO/PPO
ТекстOpen-Source (локально)
mRNA Language Models (OpenMed)
мультивидовые языковые модели для мРНК, обученные на 25 биологических видах за $165; исследовательский релиз с открытыми весами
ТекстOpen-Source (локально)
Mamba-3
open-source SSM-архитектура от Together AI; быстрее трансформеров при декодировании, превосходит Mamba-2 по качеству, открытая с первого дня релиза
ТекстOpen-Source (локально)
📅 30.03
12 моделей
Mr. Chatterbox
языковая модель, обученная на 28 000+ текстах викторианской эпохи из British Library; предназначена для локального запуска на обычных ПК, доступна на Hugging Face (simonwillison.ne…
ТекстOpen-Source (локально)
ShotStream
модель потоковой мультикадровой генерации видео для интерактивного сторителлинга; 116 голосов сообщества
ВидеоOpen-Source (локально)
PackForcing (Shanda AI Research Tokyo)
показывает, что короткое видеообучение достаточно для долгосрочного семплирования и длинного контекстного инференса; 233 голоса
ВидеоOpen-Source (локально)
Out of Sight but Not Out of Mind (H-EmbodVis)
гибридная память для динамических видео-world-моделей; 221 голос
ВидеоOpen-Source (локально)
Know3D (Peking University)
3D-генерация с использованием знаний из vision-language моделей; 89 голосов
МультимодальныеOpen-Source (локально)
Sommelier (KAIST AI)
масштабируемая аудиопредобработка для full-duplex речевых языковых моделей; 40 голосов
АудиоOpen-Source (локально)
RealChart2Code (Qwen)
улучшенная генерация кода из диаграмм на реальных данных с многозадачной оценкой; 47 голосов
ТекстOpen-Source (локально)
Trace2Skill
метод дистилляции навыков агентов из локальных траекторий для повторного использования в новых задачах
ТекстOpen-Source (локально)
Diffutron (Diffutron org)
маскированная диффузионная языковая модель, специализированная для турецкого языка
ТекстOpen-Source (локально)
Composer 2
технический отчёт новой версии крупной языковой модели, 55 авторов; вероятно Databricks/MosaicML
ТекстOpen-Source (локально)
GenMask
адаптация Diffusion Transformer (DiT) для задач сегментации через прямые маски
ИзображенияOpen-Source (локально)
MedOpenClaw (TU Munich)
аудируемая агентная система рассуждений для медицинского анализа изображений на неструктурированных данных
ИзображенияOpen-Source (локально)
📅 27.03
5 моделей
Intern-S1-Pro
первая мультимодальная научная фундаментальная модель с 1 триллионом параметров от InternLM; охватывает химию, материаловедение, науки о жизни и Earth Sciences; открытые веса на Hu…
МультимодальныеOpen-Source (локально)
Voxtral TTS
выразительная многоязычная TTS-модель от Mistral AI; клонирует голос всего из 3 секунд референсного аудио; win rate 68.4% против ElevenLabs Flash v2.5; веса опубликованы под лиценз…
АудиоOpen-Source (локально)
PixelSmile
модель для тонкого редактирования мимики лица от Fudan University; позволяет управлять выражениями лица с высокой точностью
ТекстOpen-Source (локально)
Calibri
метод parameter-efficient калибровки диффузионных трансформеров от группы Visual Generative AI; повышает качество генерации без полного дообучения
ТекстOpen-Source (локально)
RealRestorer
обобщённая модель восстановления реальных изображений от SUSTech; использует крупномасштабные модели редактирования изображений
ИзображенияOpen-Source (локально)
📅 26.03
1 модель
Voxtral-4B-TTS-2603
открытая TTS-модель от Mistral AI на 4B параметров для синтеза речи: поддерживает 9 языков (английский, французский, немецкий, испанский, нидерландский, португальский, итальянский…
АудиоOpen-Source (локально)
📅 25.03
15 моделей
MinerU-Diffusion
переосмысление OCR документов как задачи обратного рендеринга через диффузионное декодирование
DocumentOpen-Source (локально)
WildWorld
крупномасштабный датасет для динамического моделирования мира с действиями и явными состояниями для генеративных ARPG
ТекстOpen-Source (локально)
ABot-PhysWorld
интерактивная world foundation model для роботизированных манипуляций с выравниванием физики
ТекстOpen-Source (локально)
Attend Before Attention
эффективное и масштабируемое понимание видео через авторегрессионный механизм взгляда
ВидеоOpen-Source (локально)
SpecEyes
ускорение агентных мультимодальных LLM через спекулятивное восприятие и планирование
МультимодальныеOpen-Source (локально)
PEARL
персонализированная модель для понимания потокового видео в реальном времени
ВидеоOpen-Source (локально)
SIMART
декомпозиция монолитных мешей в готовые к симуляции шарнирные объекты через MLLM
ТекстOpen-Source (локально)
UniGRPO
унифицированная оптимизация политики для визуальной генерации с рассуждением
ТекстOpen-Source (локально)
RealMaster
перенос отрендеренных сцен в фотореалистичное видео
ВидеоOpen-Source (локально)
2Xplat
исследование: два специализированных эксперта лучше, чем один генералист
ТекстOpen-Source (локально)
Ego2Web
бенчмарк для веб-агентов на основе эгоцентрических видеозаписей
ВидеоOpen-Source (локально)
CanViT
foundation model для задач активного зрения
ТекстOpen-Source (локально)
ThinkJEPA
усиление латентных world models через большую vision-language модель рассуждения
МультимодальныеOpen-Source (локально)
VP-VLA
визуальное промптирование как интерфейс для vision-language-action моделей
МультимодальныеOpen-Source (локально)
AgentSLR
автоматизация систематических литературных обзоров в эпидемиологии с помощью агентного ИИ
ТекстOpen-Source (локально)
📅 24.03
15 моделей
Speed by Simplicity
одностримовая архитектура для быстрой аудио-видео генеративной фундаментальной модели
ВидеоOpen-Source (локально)
OpenResearcher
полностью открытый пайплайн для синтеза траекторий глубокого исследования с длинным горизонтом; TIGER-Lab
ТекстOpen-Source (локально)
Repurposing Geometric Foundation Models
переиспользование геометрических фундаментальных моделей для многоракурсной диффузии; KAIST AI
ТекстOpen-Source (локально)
Omni-WorldBench
комплексный бенчмарк для оценки world-моделей с фокусом на интерактивности; Alibaba Inc
МультимодальныеOpen-Source (локально)
Manifold-Aware Exploration
обучение с подкреплением для видеогенерации на основе исследования многообразий; Tencent Hunyuan
ВидеоOpen-Source (локально)
Look Where It Matters
высокоэффективное извлечение высокоразрешённых кропов для ускорения VLM; IBM Research
МультимодальныеOpen-Source (локально)
LongCat-Flash-Prover
нативное формальное рассуждение через агентное обучение с подкреплением с интеграцией инструментов; LongCat / Meituan
ТекстOpen-Source (локально)
VideoDetective
поиск улик в длинных видео через внешние запросы и внутреннюю релевантность; Nanjing University
ВидеоOpen-Source (локально)
SpatialBoost
улучшение визуального представления через языковое пространственное рассуждение; KAIST AI
ТекстOpen-Source (локально)
mSFT
гетерогенная борьба с переобучением на смесях датасетов при многозадачном SFT
ТекстOpen-Source (локально)
F4Splat
предиктивное уплотнение feed-forward 3D Gaussian Splatting
ТекстOpen-Source (локально)
BubbleRAG
RAG на основе доказательств для чёрно-ящичных графов знаний
ТекстOpen-Source (локально)
PivotRL
агентный пост-трейнинг с высокой точностью при низких вычислительных затратах; NVIDIA
ТекстOpen-Source (локально)
EVA (Evaluating Voice Agents)
новый фреймворк оценки голосовых агентов; ServiceNow-AI
АудиоOpen-Source (локально)
AdditiveLLM2
мультимодальная LLM для аддитивного производства (3D-печать); Carnegie Mellon University
МультимодальныеOpen-Source (локально)
📅 23.03
7 моделей
Voxtral-4B-TTS-2603
текстово-речевая (TTS) модель от Mistral AI с открытыми весами, 4B параметров, поддерживает 9 языков (EN/FR/DE/ES/IT/PT/NL/AR/HI), 20 встроенных голосов, задержка ~90 мс, лицензия…
АудиоOpen-Source (локально)
Hyperagents
исследовательская работа об архитектуре мультиагентных систем на основе LLM, набрала 2.23k лайков на HuggingFace Daily Papers в день публикации (huggingface.co/papers)
ТекстOpen-Source (локально)
The Y-Combinator for LLMs
метод решения проблемы деградации длинного контекста в языковых моделях с применением λ-исчисления (huggingface.co/papers)
ТекстOpen-Source (локально)
Astrolabe
подход к управлению обучением с подкреплением для дистиллированных авторегрессионных видеогенераторов (huggingface.co/papers)
ВидеоOpen-Source (локально)
TerraScope
мультимодальная модель для попиксельных визуальных рассуждений при анализе спутниковых снимков Земли (huggingface.co/papers)
МультимодальныеOpen-Source (локально)
HopChain
фреймворк синтеза многошаговых данных для улучшения reasoning в vision-language моделях, от команды Qwen/Alibaba (huggingface.co/papers)
МультимодальныеOpen-Source (локально)
ProactiveBench
бенчмарк для оценки проактивности мультимодальных больших языковых моделей (huggingface.co/papers)
МультимодальныеOpen-Source (локально)
📅 20.03
6 моделей
Nemotron-Cascade 2 (NVIDIA)
открытая 30B MoE-модель с 3B активных параметров; превосходит модели втрое большего размера на задачах математики и кода; получила золотые медали IMO, IOI и ICPC; веса опубликованы…
ТекстOpen-Source (локально)
Generation Models Know Space (arxiv 2603.19235, H-EmbodVis)
исследование и модель, использующие неявные 3D-приоры генеративных моделей для понимания сцен и окружающей среды
ТекстOpen-Source (локально)
SAMA (arxiv 2603.19228, Baidu)
модель редактирования видео по инструкциям, основана на факторизованной семантической привязке и выравнивании движения
ВидеоOpen-Source (локально)
3DreamBooth (arxiv 2603.18524, Yonsei University)
модель генерации высококачественного 3D-видео, ориентированного на конкретный субъект (subject-driven)
ВидеоOpen-Source (локально)
FASTER (arxiv 2603.19199, HKU)
переосмысление подхода к обучению роботов в реальном времени (Real-Time Flow VLAs)
ТекстOpen-Source (локально)
Llama Nemotron VL RAG (NVIDIA)
мультимодальные RAG-модели на базе Llama Nemotron для понимания PDF и визуальных документов в 1B-варианте
МультимодальныеOpen-Source (локально)
📅 18.03
7 моделей
MiniMax M2.7
облегчённая языковая модель от MiniMax с лицензией MIT, поддерживает генерацию текста (llm-stats.com)
ТекстOpen-Source (локально)
InCoder-32B
32B кодовая модель-основа для промышленных сценариев от Beihang University
ТекстOpen-Source (локально)
MiroThinker-1.7 & H1
тяжёлые исследовательские агенты с верификацией от MiroMind AI
ТекстOpen-Source (локально)
Qianfan-OCR
унифицированная сквозная модель для распознавания документов и интеллектуальной обработки от Baidu
DocumentOpen-Source (локально)
Kinema4D
кинематическое 4D-моделирование мира для пространственно-временной симуляции воплощённых агентов от MMLab@NTU
ТекстOpen-Source (локально)
WorldCam
интерактивная авторегрессивная модель 3D-игровых миров с унифицированным геометрическим представлением от Adobe Research
ТекстOpen-Source (локально)
OpenBMB/VoxCPM
безтокенизаторная TTS-модель для многоязычной генерации речи и клонирования голоса
АудиоOpen-Source (локально)
📅 17.03
1 модель
Mistral Small 4
открытая модель весом 119 млрд параметров (MoE, 4 активных эксперта из 128), лицензия Apache 2.0; ускоряет выполнение запросов до 40%, требует минимум 4× Nvidia HGX H100
ТекстOpen-Source (локально)
📅 16.03
8 моделей
Mistral Small 4
MoE-модель 119B параметров (6B активных), мультимодальная (текст + изображения), контекст 256k, встроенный reasoning и агентный кодинг, лицензия Apache 2.0 (mistral.ai/news)
МультимодальныеOpen-Source (локально)
Nemotron-Cascade 2
открытая 30B MoE-модель NVIDIA (3B активных параметров), достигла уровня золотых медалей на IMO/IOI/ICPC, пайплайн постобучения Cascade RL опубликован в репозитории NeMo-RL (resear…
ТекстOpen-Source (локально)
Isaac GR00T N1.7
открытая рассуждающая VLA-модель NVIDIA для гуманоидных роботов, готова к коммерческому развёртыванию (nvidianews.nvidia.com)
МультимодальныеOpen-Source (локально)
Alpamayo 1.5
рассуждающая VLA-модель NVIDIA для автономных транспортных средств, поддерживает несколько камер и навигационные подсказки (nvidianews.nvidia.com)
МультимодальныеOpen-Source (локально)
Cosmos 3
открытая физическая AI-модель NVIDIA для роботов и беспилотного транспорта (nvidianews.nvidia.com)
ТекстOpen-Source (локально)
Proteina-Complexa
открытая модель NVIDIA (BioNeMo) для ускорения открытия белковых препаратов, создана совместно с Google DeepMind, EMBL-EBI и SNU (nvidianews.nvidia.com)
ТекстOpen-Source (локально)
OmniForcing
модель совместной генерации аудио и видео в реальном времени
ВидеоOpen-Source (локально)
Cheers
унифицированная мультимодальная модель, разделяющая детали патчей от семантических представлений для понимания и генерации
МультимодальныеOpen-Source (локально)
📅 14.03
10 моделей
FireRedASR2S
промышленная all-in-one система распознавания речи (ASR + VAD + LID + пунктуация) от FireRed Team; поддерживает китайский мандаринский, 20+ диалектов, английский и пение; открытый…
АудиоOpen-Source (локально)
DVD (Deterministic Video Depth Estimation)
первый фреймворк для детерминированной оценки глубины видео на основе предобученных диффузионных моделей; однопроходный инференс, SOTA-качество на 163× меньших данных; код открыт н…
ВидеоOpen-Source (локально)
Neural Thickets / RandOpt
исследование MIT: окрестность предобученных весов уже содержит специализированных «экспертов»; метод RandOpt (случайная выборка + голосование) сравним с PPO/GRPO; код открыт
ТекстOpen-Source (локально)
Mobile-GS
система Gaussian Splatting в реальном времени для мобильных устройств; 228 апвоутов на HuggingFace
ТекстOpen-Source (локально)
XSkill
модель для непрерывного обучения мультимодальных агентов через накопление опыта и навыков; 166 апвоутов
МультимодальныеOpen-Source (локально)
Spatial-TTT
модель Tencent Hunyuan для потоковой пространственной визуальной аналитики с test-time training; 91 апвоут
ТекстOpen-Source (локально)
IndexCache
метод Z.ai для ускорения разреженного внимания через повторное использование индексов между слоями; 53 апвоута
ТекстOpen-Source (локально)
ShotVerse
модель Tencent для кинематографического управления камерой в text-to-video генерации нескольких планов; 34 апвоута
ВидеоOpen-Source (локально)
DreamVideo-Omni
модель Alibaba TongyiLab для кастомизации видео с несколькими субъектами и полным управлением движением через Latent Identity RL; 31 апвоут
ВидеоOpen-Source (локально)
Tiny Aya (Cohere Labs)
компактная мультиязычная языковая модель на 3.35B параметров, поддерживает 70+ языков, работает локально; бумага появилась 14 марта (основной релиз модели — февраль 2026)
ТекстOpen-Source (локально)
📅 13.03
15 моделей
Neural Thickets
MIT: метод создания разнообразных специализированных экспертов вокруг предобученных весов без переобучения
ТекстOpen-Source (локально)
FireRedASR2S
промышленная система распознавания речи «всё-в-одном», state-of-the-art на нескольких бенчмарках
ТекстOpen-Source (локально)
DVD: Deterministic Video Depth Estimation
детерминированная оценка глубины на видео с использованием генеративных приоров
ВидеоOpen-Source (локально)
Mobile-GS
real-time Gaussian Splatting для мобильных устройств: рендеринг 3D-сцен прямо на смартфоне
ТекстOpen-Source (локально)
Spatial-TTT
Tencent Hunyuan/Tsinghua: потоковый анализ пространственного видео с адаптацией весов в реальном времени (Test-Time Training)
ВидеоOpen-Source (локально)
XSkill
непрерывное обучение мультимодальных агентов на основе накопленного опыта и навыков
МультимодальныеOpen-Source (локально)
ShotVerse
Tencent: управление кинематографической камерой при текстово-управляемой многокадровой генерации видео
ВидеоOpen-Source (локально)
IndexCache
Z.ai: ускорение разреженного внимания в LLM за счёт переиспользования индексов между слоями
ТекстOpen-Source (локально)
OmniStream
единая модель для непрерывного восприятия, реконструкции и управления действиями в потоковом режиме
МультимодальныеOpen-Source (локально)
Training LMs via Neural Cellular Automata
обучение языковых моделей с помощью нейронных клеточных автоматов: новая парадигма архитектуры
ТекстOpen-Source (локально)
EVATok
HKU: адаптивная токенизация видео переменной длины для эффективной авторегрессионной генерации
ВидеоOpen-Source (локально)
One Model, Many Budgets
Snapchat Inc.: гибкие латентные интерфейсы для диффузионных трансформеров с поддержкой нескольких бюджетов вычислений
ТекстOpen-Source (локально)
DreamVideo-Omni
Alibaba TongyiLab: настройка мультисубъектного видео с полным управлением движением и латентным усилением идентичности
ВидеоOpen-Source (локально)
Tiny Aya
Cohere Labs: многоязычная малая языковая модель, перекидывающая мост между масштабом и глубиной охвата языков
ТекстOpen-Source (локально)
EndoCoT
Intern Large Models: масштабирование эндогенной цепочки рассуждений в диффузионных моделях
ТекстOpen-Source (локально)
📅 12.03
6 моделей
Mamba-3
SSM-архитектура, созданная совместно Together AI, CMU и Princeton; быстрее трансформеров на стадии декодирования, превосходит Mamba-2, open-source с первого дня
ТекстOpen-Source (локально)
OpenClaw-RL
фреймворк Princeton AI Lab для обучения агентов через диалог на естественном языке без ручного программирования наград; 4.83k upvotes на HF Papers (huggingface.co/papers)
ТекстOpen-Source (локально)
Flash-KMeans
алгоритм точной кластеризации K-Means от UC Berkeley с резко сниженным потреблением памяти и ускоренным вычислением; 531 upvote на HF Papers (huggingface.co/papers)
ТекстOpen-Source (локально)
LLM2Vec-Gen
метод получения генеративных эмбеддингов из LLM без дополнительного энкодера, McGill NLP Group (huggingface.co/papers)
ТекстOpen-Source (локально)
In-Context RL for Tool Use
метод In-Context Reinforcement Learning для обучения LLM использованию инструментов без fine-tuning, National University of Singapore (huggingface.co/papers)
ТекстOpen-Source (локально)
Flood Forecasting Open Model
открытая модель Google Research для прогнозирования внезапных наводнений в городах в реальном времени, помечена тегом "Open Source Models & Datasets"
ТекстOpen-Source (локально)
📅 11.03
2 модели
NVIDIA Nemotron 3 Super
гибридная MoE-модель (Mamba-Transformer), 120B параметров всего / 12B активных, контекст 1M токенов; оптимизирована для многошаговых агентных задач, в 5× быстрее предыдущего Nemotr…
ТекстOpen-Source (локально)
Hunter Alpha
стелс-релиз на OpenRouter без официального анонса: 1 триллион параметров, контекст 1M токенов, мультимодальный ввод (текст + изображения); позже установлено, что это ранняя тестова…
МультимодальныеПлатные (облако)
📅 10.03
1 модель
Canopy Height Maps v2 (CHMv2)
открытая модель от Meta и World Resources Institute для высокоточного картографирования лесного полога в глобальном масштабе; предназначена для экологического мониторинга и охраны…
ТекстOpen-Source (локально)
📅 09.03
10 моделей
Penguin-VL-2B / Penguin-VL-8B (Tencent)
мультимодальная VLM, где визуальный энкодер инициализирован из текстового LLM (Qwen3-0.6B) вместо CLIP/SigLIP; модели выложены на Hugging Face и GitHub (huggingface.co/papers + git…
МультимодальныеOpen-Source (локально)
Physical Simulator In-the-Loop Video Generation (Max Planck Institute for Inform
метод генерации видео с интеграцией физического симулятора в процесс генерации; 108 голосов на HF Papers (huggingface.co/papers/date/2026-03-09)
ВидеоOpen-Source (локально)
WildActor
модель генерации видео с неограниченным сохранением идентичности персонажей; 84 голоса на HF Papers (huggingface.co/papers/date/2026-03-09)
ВидеоOpen-Source (локально)
BandPO (OpenMOSS)
новый метод оптимизации политики для обучения LLM с подкреплением, объединяющий trust region и ratio clipping; 49 голосов на HF Papers (huggingface.co/papers/date/2026-03-09)
ТекстOpen-Source (локально)
Planning in 8 Tokens
компактный дискретный токенизатор для латентных мировых моделей, сжимающий планирование до 8 токенов; 48 голосов на HF Papers (huggingface.co/papers/date/2026-03-09)
ТекстOpen-Source (локально)
FlashPrefill
техника сверхбыстрого prefill для длинного контекста через мгновенное обнаружение паттернов и пороговую обрезку; 43 голоса на HF Papers (huggingface.co/papers/date/2026-03-09)
ТекстOpen-Source (локально)
EffectMaker
система объединения рассуждений и генерации для создания кастомных визуальных эффектов; 39 голосов на HF Papers (huggingface.co/papers/date/2026-03-09)
ТекстOpen-Source (локально)
PixARMesh (mlpc-ucsd)
авторегрессионная реконструкция 3D-сцены по одному изображению на основе меш-нативного подхода; 52 голоса на HF Papers (huggingface.co/papers/date/2026-03-09)
ИзображенияOpen-Source (локально)
nabla-Reasoner
метод улучшения рассуждений LLM через градиентный спуск в латентном пространстве во время инференса; 25 голосов на HF Papers (huggingface.co/papers/date/2026-03-09)
ТекстOpen-Source (локально)
Dynamic Chunking Diffusion Transformer (AMD)
оптимизация диффузионных трансформеров через динамическую чанкинговую стратегию; 15 голосов на HF Papers (huggingface.co/papers/date/2026-03-09)
ИзображенияOpen-Source (локально)
📅 08.03
6 моделей
Reasoning Models Struggle to Control their Chains of Thought (arXiv:2603.05706)
исследование OpenAI о том, как модели-рассуждатели теряют контроль над цепочками мыслей (huggingface.co/papers)
ТекстOpen-Source (локально)
RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies (
бенчмарк памяти для роботизированных агентов общего назначения, University of Michigan (huggingface.co/papers)
ТекстOpen-Source (локально)
Dynamic Chunking Diffusion Transformer (arXiv:2603.06351)
новая диффузионная трансформер-архитектура от AMD (huggingface.co/papers)
ИзображенияOpen-Source (локально)
Physical Simulator In-the-Loop Video Generation (arXiv:2603.06408)
генерация видео с физическим симулятором в петле, Max Planck Institute for Informatics (huggingface.co/papers)
ВидеоOpen-Source (локально)
FlashPrefill (arXiv:2603.06199)
метод мгновенного обнаружения паттернов для ультрабыстрого prefilling длинного контекста у LLM (huggingface.co/papers)
ТекстOpen-Source (локально)
PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction (arXiv:26
авторегрессионная 3D-реконструкция сцен из одного изображения, mlpc-ucsd (huggingface.co/papers)
ИзображенияOpen-Source (локально)
📅 06.03
15 моделей
Sarvam-30B
открытая reasoning-модель (Apache 2.0), обучена полностью в Индии, 32K контекст, архитектура MoE+GQA; веса на HuggingFace и AI Kosh (sarvam.ai)
ТекстOpen-Source (локально)
Sarvam-105B
старший брат: 128K контекст, MoE + Multi-Head Latent Attention (MLA), для сложного reasoning и агентных задач; Apache 2.0 (sarvam.ai)
ТекстOpen-Source (локально)
SkillNet
открытая инфраструктура для создания, оценки и подключения AI-навыков; граф навыков для агентов; +40% к наградам на ALFWorld/WebShop; 668 голосов на HF (Zhejiang University / arxiv…
ТекстOpen-Source (локально)
RealWonder
первая real-time система генерации видео, управляемой физическими действиями: 13.2 FPS при 480×832, код и веса в открытом доступе (arxiv 2603.05449)
ВидеоOpen-Source (локально)
Latent Particle World Models
само-supervised модель для объектно-ориентированного моделирования динамики мира; 80 голосов на HF (huggingface.co/papers)
ТекстOpen-Source (локально)
HiFi-Inpaint
высококачественный inpainting от ByteDance для генерации изображений человека с продуктами с сохранением деталей; 78 голосов на HF (ByteDance)
ИзображенияOpen-Source (локально)
UltraDexGrasp
open-source модель управления двуручными роботами для захвата объектов, обученная на синтетических данных; 64 голоса на HF
ТекстOpen-Source (локально)
AgentVista
фреймворк оценки мультимодальных агентов в сложных реалистичных визуальных сценариях; 48 голосов на HF (HKUST NLP Group)
МультимодальныеOpen-Source (локально)
DreamWorld
единая модель мирового моделирования в генерации видео; 47 голосов на HF
ВидеоOpen-Source (локально)
MASQuant
метод квантизации для мультимодальных LLM с модально-зависимым сглаживанием от Alibaba; 39 голосов на HF
МультимодальныеOpen-Source (локально)
On-Policy Self-Distillation
метод сжатия reasoning-цепочек через само-дистилляцию без потери качества; 39 голосов на HF
ТекстOpen-Source (локально)
RoboPocket
система мгновенного улучшения политик робота через смартфон; 35 голосов на HF (Shanghai Jiao Tong University)
ТекстOpen-Source (локально)
MOOSE-Star
метод MiroMind AI для масштабируемого обучения моделей в научных исследованиях (breaking complexity barrier); 22 голоса на HF
ТекстOpen-Source (локально)
Timer-S1
foundation-модель для временных рядов масштаба миллиарда точек с Serial Scaling от ByteDance; 19 голосов на HF
ТекстOpen-Source (локально)
KARL
агенты знаний через Reinforcement Learning от Databricks; 6 голосов на HF (databricks.com)
ТекстOpen-Source (локально)
📅 05.03
2 модели
Helios
14-миллиардная open-weight модель генерации видео в реальном времени от Пекинского университета совместно с ByteDance; поддерживает видео до 60 секунд (~1452 кадра) при скорости 19…
ВидеоOpen-Source (локально)
Phi-4-reasoning-vision-15B
open-weight мультимодальная reasoning-модель от Microsoft на 15B параметров; умеет сама решать, когда включать «глубокое размышление» (chain-of-thought), а когда нет; лицензия MIT…
МультимодальныеOpen-Source (локально)
📅 04.03
6 моделей
Qwen3-Coder-Next (технический отчёт)
открытая весовая модель для кодирования от Alibaba/Qwen: 80B параметров всего / 3B активных, контекст 256k, лицензия Apache 2.0; ориентирована на агентские задачи и локальный запус…
ТекстOpen-Source (локально)
Utonia: Toward One Encoder for All Point Clouds
единый энкодер для 3D-облаков точек от Pointcept, 596 upvotes в HF Daily Papers; статья с открытым кодом
ТекстOpen-Source (локально)
Kiwi-Edit
многофункциональная модель редактирования видео по текстовым инструкциям и референс-изображениям, от Show Lab, 248 upvotes
ВидеоOpen-Source (локально)
Track4World
модель плотного 3D-трекинга всех пикселей в реальном времени, от ARC Lab / Tencent PCG, 205 upvotes
ТекстOpen-Source (локально)
LangWatch
открытый слой оценки и трассировки для AI-агентов (evaluation framework); не LLM, но open-source инфраструктурный релиз дня
ТекстOpen-Source (локально)
Kling-MotionControl Technical Report
технический отчёт по motion-control для видеогенерации от Kling Team, arXiv 2603.03160
ВидеоOpen-Source (локально)
📅 03.03
1 модель
Mamba-3
SSM-архитектура (State Space Model), построенная для эффективного инференса: быстрее Transformer-моделей при декодинге, мощнее Mamba-2; открытый исходный код с первого дня
ТекстOpen-Source (локально)
📅 01.03
1 модель
Qwen 3.5 Small (0.8B / 2B / 4B / 9B)
Alibaba выпустила семейство из четырёх плотных мультимодальных моделей (текст + изображения + видео в одних весах), лицензия Apache 2.0; модель 9B набирает 81.7% на GPQA Diamond, к…
ВидеоOpen-Source (локально)
Февраль
2026
📅 20.02
8 моделей
Mobile-Agent-v3.5
мультиплатформенный фундаментальный GUI-агент для автоматизации задач на разных ОС
ТекстOpen-Source (локально)
Arcee Trinity Large
технический отчёт по открытой reasoning-модели от Arcee AI, позиционируемой как конкурент Claude Opus в агентных задачах
ТекстOpen-Source (локально)
Computer-Using World Model
открытая модель, обучающаяся взаимодействию с компьютерным интерфейсом в режиме world model
ТекстOpen-Source (локально)
SpargeAttention2
обучаемый механизм разреженного внимания с гибридным Top-k+Top-p маскированием и дообучением дистилляцией; применим к открытым трансформерам
ТекстOpen-Source (локально)
Unified Latents (UL)
метод обучения латентных представлений для генеративных моделей от Google, опубликован как открытый технический отчёт
ТекстOpen-Source (локально)
NousResearch/hermes-agent
открытый AI-агент «The agent that grows with you», 63 тыс. звёзд на GitHub, +7 450 за день
ТекстOpen-Source (локально)
Kronos
фундаментальная модель для языка финансовых рынков, открытый код на Python, 15 тыс. звёзд, +1 998 за день
ТекстOpen-Source (локально)
OpenBMB/VoxCPM2
многоязычная TTS-модель без токенизатора (Tokenizer-Free), открытый код
АудиоOpen-Source (локально)
📅 18.02
3 модели
GLM-5
крупная мультиагентная языковая модель от Zhipu AI (Z AI, 186 авторов); в статье описан переход от "вайб-кодинга" к агентной инженерии; дебютировала на #1 в открытых рейтингах февр…
ТекстOpen-Source (локально)
jina-embeddings-v5-text
новая open-source эмбеддинг-модель от Jina AI с применением целевой дистилляции для разных типов задач (Task-Targeted Embedding Distillation)
ТекстOpen-Source (локально)
UniT
унифицированная мультимодальная модель от команды из 14 авторов; использует цепочку рассуждений (Chain-of-Thought) с масштабированием на этапе инференса
МультимодальныеOpen-Source (локально)
📅 17.02
6 моделей
Tiny Aya (Cohere Labs)
Мультиязычная open-weight модель на 3.35B параметров, лучшая в своём классе по мультиязычным бенчмаркам; выпущена в 5 вариантах (base, global, fire, water, earth) для разных регион…
ТекстOpen-Source (локально)
Mistral Saba (Mistral AI)
Специализированная модель, натренированная под конкретные географические рынки и клиентские задачи; один из серии «custom-geography» релизов Mistral (mistral.ai/news)
ТекстOpen-Source (локально)
GLM-5 (Z.ai / Zhipu AI)
Open-weight флагман на архитектуре Mixture of Experts: 744B всего / 40B активных параметров, обучена на 28.5T токенов на железе Huawei Ascend; дебютировала на #1 в рейтинге Quality…
ТекстOpen-Source (локально)
Nanbeige4.1-3B (Nanbeige LLM Lab)
Компактная 3B модель общего назначения с встроенными возможностями рассуждения, выравнивания и агентного действия
ТекстOpen-Source (локально)
BitDance / UniWeTok (ByteDance)
Бинарный токенизатор для мультимодальных LLM, масштабирование авторегрессивных генеративных моделей через бинарные токены
МультимодальныеOpen-Source (локально)
LaViDa-R1 (Adobe)
Продвинутое рассуждение для единых мультимодальных диффузионных языковых моделей
МультимодальныеOpen-Source (локально)
📅 16.02
5 моделей
Qwen3.5-397B-A17B
мультимодальная MoE-модель от Alibaba: 397 млрд параметров (17 млрд активных на запрос), контекст 262K токенов, поддержка 210+ языков и диалектов, обработка текста/изображений/виде…
ВидеоOpen-Source (локально)
MedXIAOHE
медицинская мультимодальная языковая модель от ByteDance: комплексная система для построения медицинских MLLM с рецептурой обучения и оценочными данными; опубликована как исследова…
МультимодальныеOpen-Source (локально)
OneVision-Encoder
мультимодальный энкодер от LMMs-Lab: реализует кодек-ориентированную разреженность как базовый принцип мультимодального интеллекта; получил 324 лайка на HuggingFace Papers в день в…
МультимодальныеOpen-Source (локально)
Less is Enough (LiE)
метод синтеза разнообразных обучающих данных в пространстве признаков LLM; исследовательская работа с открытым кодом, 120 лайков на HuggingFace Papers (huggingface.co/papers)
ТекстOpen-Source (локально)
SQuTR
открытый бенчмарк устойчивости для систем поиска по голосовым запросам при акустических помехах; авторы предоставляют открытый датасет и код (huggingface.co/papers)
ТекстOpen-Source (локально)
📅 15.02
1 модель
Qwen3.5-397B-A17B
флагманская мультимодальная Mixture-of-Experts модель Alibaba Qwen Team: 397B параметров всего, 17B активных на токен; поддержка изображений и видео, гибридный механизм внимания Ga…
ВидеоOpen-Source (локально)
📅 14.02
15 моделей
GigaBrain-0.5M
VLA-модель (Vision-Language-Action), обученная через World Model-Based Reinforcement Learning (RAMP); предназначена для робототехники, веса открыты на GitHub (open-gigaai)
МультимодальныеOpen-Source (локально)
DeepGen 1.0
лёгкая единая мультимодальная модель 5B параметров (3B VLM + 2B DiT) для генерации и редактирования изображений; полностью open-source (веса, код, датасеты) от Shanghai Innovation…
МультимодальныеOpen-Source (локально)
χ₀ (chi-zero)
робот-манипулятор с resource-aware управлением через укрощение дистрибутивных несоответствий; University of Hong Kong
ТекстOpen-Source (локально)
MolmoSpaces
крупномасштабная открытая экосистема для навигации и манипуляции роботов от AI21
ТекстOpen-Source (локально)
MOSS-Audio-Tokenizer
масштабируемый аудио-токенизатор для будущих аудио foundation-моделей от OpenMOSS
АудиоOpen-Source (локально)
Composition-RL
фреймворк составных верифицируемых промптов для обучения с подкреплением LLM от Tencent Hunyuan
ТекстOpen-Source (локально)
ABot-N0
VLA foundation-модель для универсальной воплощённой навигации (embodied navigation), отчёт 44 авторов
МультимодальныеOpen-Source (локально)
DeepSight
универсальный инструментарий безопасности LLM (LM Safety Toolkit) от Shanghai AI Lab
ТекстOpen-Source (локально)
RISE
self-improving политика робота с композициональной World Model от OpenDriveLab
ТекстOpen-Source (локально)
MiniCPM-SALA
гибридная модель с разреженным и линейным вниманием для эффективного моделирования длинного контекста от OpenBMB
ТекстOpen-Source (локально)
LawThinker
агент глубокого юридического поиска и рассуждений в динамических средах от Renmin University of China
ТекстOpen-Source (локально)
Stemphonic
генерация многодорожечной музыки «всё сразу» (all-at-once multi-stem) от MIT
ТекстOpen-Source (локально)
dVoting
ускоренное голосование (fast voting) для диффузионных LLM от National University of Singapore
ТекстOpen-Source (локально)
Composition-RL / Learning beyond Teacher
on-policy дистилляция с экстраполяцией вознаграждения, Tencent Hunyuan
ТекстOpen-Source (локально)
Voxtral Realtime
обновление модели Mistral AI для транскрипции в реальном времени с точной диаризацией (HuggingFace Papers / mistral.ai)
ТекстOpen-Source (локально)
📅 13.02
6 моделей
Nanbeige4.1-3B
компактная 3B-модель, объединяющая сложные рассуждения, выравнивание предпочтений и агентные возможности (первый открытый SLM с поддержкой deep-search и 500+ вызовов инструментов)…
ТекстOpen-Source (локально)
DeepGen 1.0
лёгкая унифицированная мультимодальная модель (5B параметров: 3B VLM + 2B DiT) для генерации и редактирования изображений; превосходит 80B HunyuanImage на 28%; веса и код обучения…
МультимодальныеOpen-Source (локально)
GigaBrain-0.5M
VLA-модель (Vision-Language-Action) для роботизированных манипуляций, обученная через RL на основе мировой модели (RAMP); предобучена на 10 000+ ч. данных управления
МультимодальныеOpen-Source (локально)
MOSS-Audio-Tokenizer
масштабируемый аудио-токенайзер для будущих фундаментальных аудиомоделей; открытая разработка
АудиоOpen-Source (локально)
MiniCPM-SALA
гибридная архитектура sparse + linear attention для эффективной обработки сверхдлинного контекста
ТекстOpen-Source (локально)
ABot-N0
фундаментальная VLA-модель для задач навигации и воплощённого ИИ в разнообразных средах
МультимодальныеOpen-Source (локально)
📅 12.02
3 модели
MiniMax M2.5
Фронтирная модель от китайского стартапа MiniMax: 230B параметров (MoE, 10B активных), 80.2% на SWE-Bench Verified, 76.3% BrowseComp; обучена на 200 000+ реальных RL-сред; специали…
ТекстOpen-Source (локально)
MiniMax M2.5 Lightning
Ускоренный вариант M2.5 от MiniMax, вышедший в тот же день: 100 токенов/сек, $0.30 за 1M входных токенов; близкие к SOTA бенчмарки при цене в 20× ниже Claude Opus 4.6; открытый дос…
ТекстOpen-Source (локально)
DeepSeek V3.2
Крупное обновление от DeepSeek: 685B MoE, контекстное окно расширено до 1M+ токенов (10×), 90.1% MMLU, 92.5% HumanEval; добавлен механизм DeepSeek Sparse Attention; лицензия MIT, в…
ТекстOpen-Source (локально)
📅 11.02
14 моделей
GLM-5
744B параметров (MoE, 40B активных), первая фронтирная модель, обученная целиком на чипах Huawei Ascend без NVIDIA; запущена через API, веса открыты с апреля 2026 под лицензией MIT
ТекстOpen-Source (локально)
UI-Venus-1.5
сквозной GUI-агент от inclusionAI, работающий только на скриншотах; поддерживает web и mobile платформы; код открыт на GitHub; одновременно вышел бенчмарк VenusBench-Mobile
ТекстOpen-Source (локально)
VideoWorld 2
видео-модель мира от ByteDance Seed, обучающая передаваемые знания из реальных видео для задач понимания и генерации
ВидеоOpen-Source (локально)
SkillRL
фреймворк от UNC Chapel Hill для обучения агентов через рекурсивную компиляцию навыков + reinforcement learning
ТекстOpen-Source (локально)
SceneSmith
агентная генерация готовых к симуляции интерьерных сцен от Toyota Research Institute
ТекстOpen-Source (локально)
OPUS
метод принципиального отбора данных для предобучения LLM на каждой итерации, от команды Qwen
ТекстПлатные (облако)
Agent World Model
генерация бесконечных синтетических сред для агентного RL от Snowflake
ТекстOpen-Source (локально)
Code2World
GUI-модель мира через генерацию рендерируемого кода от AMAP-ML (GD-ML)
ТекстOpen-Source (локально)
SAGE
масштабируемая агентная генерация 3D-сцен для воплощённого ИИ от NVIDIA
ТекстOpen-Source (локально)
Chain of Mindset
метод рассуждений с адаптивными когнитивными режимами от QuantaAlpha
ТекстOpen-Source (локально)
Prism
спектрально-взвешенное блочно-разреженное внимание (block-sparse attention) от OpenMOSS
ТекстOpen-Source (локально)
P1-VL
мультимодальная VLM для задач физических олимпиад от Shanghai AILab
МультимодальныеOpen-Source (локально)
Covo-Audio
аудио-модель с техническим отчётом от Tencent
АудиоOpen-Source (локально)
Fine-T2I
крупномасштабный открытый датасет для дообучения text-to-image моделей от Northeastern University
ИзображенияOpen-Source (локально)
📅 09.02
9 моделей
Baichuan-M3
открытая медицинская языковая модель от Baichuan Intelligent Technology, имитирует полноценный клинический диалог (опрос анамнеза, диагностика), превосходит GPT-5.2 и врачей-людей…
ТекстOpen-Source (локально)
DreamDojo
открытая мировая модель для роботов от NVIDIA, обученная на 44 711 часах видео от первого лица; варианты 2B и 14B параметров, код и веса полностью открыты; arxiv-препринт появился…
ВидеоOpen-Source (локально)
OmniMoE
эффективная MoE-модель от BAAI (Beijing Academy of Artificial Intelligence) с масштабируемой архитектурой атомарных экспертов
МультимодальныеOpen-Source (локально)
AudioSAE
инструмент интерпретируемости аудиомоделей на основе разреженных автоэнкодеров от HUAWEI Noah's Ark Lab
АудиоOpen-Source (локально)
OmniVideo-R1
мультимодальная модель аудио-визуального рассуждения от Tencent с механизмом внимания к намерению запроса и модальности
АудиоOpen-Source (локально)
Pisets
робастная система распознавания речи для лекций и интервью от Новосибирского государственного университета
ТекстOpen-Source (локально)
POINTS-GUI-G
модель для GUI-граундинга (понимание графических интерфейсов) в агентских задачах взаимодействия с ПК
ТекстOpen-Source (локально)
F-GRPO
новый метод обучения политик RL для LLM от T-Tech; акцент на редких примерах
ТекстOpen-Source (локально)
MSign
оптимизатор от Microsoft для предотвращения нестабильности обучения LLM через восстановление стабильного ранга
ТекстOpen-Source (локально)
📅 05.02
4 модели
ERNIE 5.0
технический отчёт Baidu по новому флагманскому LLM, опубликованный 438 соавторами; модель позиционируется как крупный скачок в серии ERNIE
ТекстOpen-Source (локально)
WideSeek-R1
модель RLinf для широкого поиска информации на основе масштабирования по ширине через многоагентное обучение с подкреплением; стала хитом дня с 3 000+ лайками на HF
ТекстOpen-Source (локально)
FASA (Frequency-aware Sparse Attention)
метод разреженного внимания от Alibaba с частотной осведомлённостью, ускоряющий инференс больших моделей; 154 лайка на HF
ТекстOpen-Source (локально)
OmniSIFT
архитектура асимметричного сжатия токенов для эффективных омни-модальных LLM от команды из 15 исследователей
МультимодальныеOpen-Source (локально)
📅 04.02
1 модель
Voxtral Transcribe 2 (Mistral AI)
семейство open-weights моделей распознавания речи нового поколения: Voxtral Mini Transcribe V2 (пакетная транскрипция с диаризацией) и Voxtral Realtime (стриминг с задержкой до 200…
ТекстOpen-Source (локально)
📅 03.02
6 моделей
YOLOE-26
объединяет архитектуру YOLO26 с парадигмой YOLOE для сегментации объектов в реальном времени с открытым словарём; несколько вариантов весов (n/m/l/x) опубликованы на HuggingFace по…
ТекстOpen-Source (локально)
Green-VLA
поэтапная Vision-Language-Action модель для роботов общего назначения; предложена Sber Robotics Center, бумага вышла на arXiv в этот день
МультимодальныеOpen-Source (локально)
UniReason 1.0
единый фреймворк для рассуждений, согласованного с мировыми знаниями, для генерации и редактирования изображений
ИзображенияOpen-Source (локально)
SWE-Universe
масштабируемая среда для верификации агентов с реальными задачами; опубликована командой Qwen (Alibaba)
ТекстOpen-Source (локально)
RPG-Encoder
универсальный энкодер репозиториев кода через рекурсивное представление; проект мультиавторской команды
ТекстOpen-Source (локально)
Kimi K2.5
мультимодальная агентная MoE-модель Moonshot AI (1T параметров, 32B активных, 256K контекст, Modified MIT); веса опубликованы на HF 29.01.2026, технический отчёт вышел на arXiv 03…
МультимодальныеOpen-Source (локально)
📅 02.02
6 моделей
GLM-4.7-Flash
MoE-модель от Z.AI (zai-org), 30B параметров (3B активных), оптимизирована для рассуждения, кодирования и агентных задач; поддерживает режим «Preserved Thinking» для многошаговых о…
ТекстOpen-Source (локально)
Segment Anything 3 (SAM3)
объединённая open-source модель от Meta (Facebook Research), 0.9B параметров, для сегментации изображений и видео; поддерживает Promptable Concept Segmentation — поиск объектов по…
ВидеоOpen-Source (локально)
MiniMax-M2.1
агентная open-weights модель от MiniMax AI, 229B параметров (10B активных), ориентирована на кодирование и разработку полноценных приложений; превосходит Claude Sonnet 4.5 в многоя…
ТекстOpen-Source (локально)
PaperBanana
инструмент от Google для автоматической генерации академических иллюстраций для AI-исследований; статья вышла на HuggingFace Daily Papers 02.02.2026
ТекстOpen-Source (локально)
Golden Goose
метод от NVIDIA для синтеза неограниченного числа RLVR-задач из неверифицированных интернет-текстов, улучшает обучение LLM с подкреплением
ТекстOpen-Source (локально)
Quartet II
разработка IST Austria: улучшенный метод предобучения LLM в формате NVFP4 с беспристрастной оценкой градиентов, повышает эффективность и точность
ТекстOpen-Source (локально)
📅 01.02
9 моделей
Qwen3-ASR (0.6B / 1.7B)
серия открытых ASR-моделей от Alibaba Qwen для распознавания речи на 52 языках, с детекцией языка и предсказанием временных меток; лицензия Apache-2.0
АудиоOpen-Source (локально)
Typhoon-S
суверенная открытая LLM от SCB10X (Таиланд) с минимальным пост-обучением, оптимизированная для тайского языка и локальных условий развёртывания
ТекстOpen-Source (локально)
Llama-3.1-FoundationAI-SecurityLLM-Reasoning-8B
открытая 8B-модель от Cisco Foundation AI на базе Llama 3.1, специализированная для кибербезопасности с цепочечными reasoning-рассуждениями; сопоставима с 70B-моделями на бенчмарка…
ТекстOpen-Source (локально)
DynamicVLA
Vision-Language-Action модель от MMLab@NTU для динамической манипуляции роботизированными объектами
МультимодальныеOpen-Source (локально)
MMFineReason
открытая мультимодальная reasoning-модель от Shanghai Jiao Tong University, закрывающая разрыв между проприетарными и open-source моделями с помощью data-centric подходов
МультимодальныеOpen-Source (локально)
OCRVerse
end-to-end vision-language модель для комплексного OCR, интегрирующая распознавание текста в мультимодальный пайплайн
МультимодальныеOpen-Source (локально)
ConceptMoE
архитектура ByteDance Seed с адаптивным сжатием токенов в концепты для динамического распределения вычислений в MoE-моделях
ТекстOpen-Source (локально)
LegalOne
семейство foundation-моделей для надёжного юридического рассуждения, первые бизнес-дни Feb 2026 (arXiv 2602.00642)
ТекстOpen-Source (локально)
G-MemLLM
LLM с вентильной латентной памятью для усиленного reasoning на длинных контекстах (arXiv 2602.00015)
ТекстOpen-Source (локально)
Январь
2026
📅 30.01
2 модели
Qwen3-ASR (0.6B / 1.7B)
Серия open-source моделей автоматического распознавания речи от Alibaba/Qwen Team; поддерживает 52 языка, лидирует среди open-source ASR, лицензия Apache 2.0 (huggingface.co/papers…
АудиоOpen-Source (локально)
OpenClaw
Open-source AI-агент, официально переименован и запущен 30 января 2026 (ранее Moltbot / Clawdbot); автономный ИИ-агент с интерфейсом через мессенджеры (WhatsApp/Telegram/Discord)…
ТекстOpen-Source (локально)
📅 25.01
7 моделей
Qwen3-TTS
Alibaba's open-source TTS model family (0.6B/1.7B params), 10 languages, 97ms latency, voice cloning from 3s audio. Apache 2.0. Released Jan 22, featured on HF Papers Jan 25
АудиоOpen-Source (локально)
Stable-DiffCoder
ByteDance Seed's diffusion-based code LLM (8B), outperforms autoregressive baselines on code generation/completion/editing. MIT license. Released Jan 25–26
ИзображенияOpen-Source (локально)
OpenVision 3
UCSC-VLAA's unified visual encoder family for both image understanding and generation, gFID 1.89 on ImageNet. Open weights
ИзображенияOpen-Source (локально)
EvoCUA
Meituan's computer-use agent (8B/32B), #1 open-source on OSWorld (56.7%), operates Chrome/Excel/VSCode via screenshots. Open weights + code
DocumentOpen-Source (локально)
SAMTok
ByteDance's efficient mask tokenizer, represents any segmentation mask with just two tokens. Open-source
ТекстOpen-Source (локально)
Cosmos Policy
NVIDIA's robot control policy fine-tuned from Cosmos Predict-2, SOTA on LIBERO/RoboCasa. Apache 2.0 code + NVIDIA Open Model License. Released Jan 22, featured Jan 25
ТекстOpen-Source (локально)
ActionMesh
Meta AI's model for animated 3D mesh generation with temporal 3D diffusion
ИзображенияOpen-Source (локально)
📅 13.01
5 моделей
MHLA
универсальный линейный оператор внимания с открытым кодом и моделями для vision/NLP/видео, ICLR 2026
ВидеоOpen-Source (локально)
PaCoRe
8B-модель параллельного рассуждения от StepFun, превосходит GPT-5 на HMMT 2025; открыты веса, данные и пайплайн
ТекстOpen-Source (локально)
X-Coder
модель для соревновательного программирования от Microsoft Research на полностью синтетических данных, Apache 2.0
ТекстOpen-Source (локально)
OS-Symphony
фреймворк для универсальных компьютерных агентов, SOTA на OSWorld/WindowsAgentArena/MacOSArena, открытый код
ТекстOpen-Source (локально)
BabyVision
бенчмарк визуального рассуждения от Alibaba/Tsinghua + генеративный компонент BabyVision-Gen, код открыт
ТекстOpen-Source (локально)
📅 07.01
8 моделей
LTX-2
Первая open-source модель генерации синхронного аудио+видео (14B+5B параметров, 4K/50fps), полные веса и код от Lightricks
ВидеоOpen-Source (локально)
Falcon H1R 7B
Гибридная Mamba-Transformer reasoning-модель от TII (7B параметров, 256K контекст), обгоняет модели в 7× крупнее на математике и коде
ТекстOpen-Source (локально)
UniCorn
Self-improving unified multimodal модель (понимание + генерация), Apache 2.0, SOTA на 4 бенчмарках генерации изображений
МультимодальныеOpen-Source (локально)
MiMo-V2-Flash
MoE-модель от Xiaomi (309B total / 15B active), MIT-лицензия, #1 open-source на SWE-bench Verified, 150 tok/s
ТекстOpen-Source (локально)
NitroGen
Open foundation model от NVIDIA для игровых агентов, обучена на 40K часов геймплея в 1000+ играх, +52% к task success rate
ТекстOpen-Source (локально)
MOSS Transcribe Diarize
End-to-end модель транскрипции с диаризацией от OpenMOSS/Fudan, 128K контекст, до 90 минут аудио
АудиоOpen-Source (локально)
InfiniDepth
Модель оценки глубины произвольного разрешения через neural implicit fields от Zhejiang University, CVPR 2026
ТекстOpen-Source (локально)
CogFlow
Фреймворк визуального математического reasoning с датасетом MathCog (120K+ аннотаций), код и данные открыты
ТекстOpen-Source (локально)
📅 05.01
11 моделей
NVIDIA Cosmos Reason 2
открытая reasoning VLM для робототехники и физического AI, лидер бенчмарков (NVIDIA CES 2026)
МультимодальныеOpen-Source (локально)
NVIDIA Cosmos Transfer 2.5
открытая world-модель для генерации синтетического видео из разных сред (NVIDIA CES 2026)
ВидеоOpen-Source (локально)
NVIDIA Cosmos Predict 2.5
открытая world-модель для предсказания физических сценариев в видео (NVIDIA CES 2026)
ВидеоOpen-Source (локально)
NVIDIA Isaac GR00T N1.6
открытая vision-language-action модель для управления гуманоидными роботами (NVIDIA CES 2026)
МультимодальныеOpen-Source (локально)
NVIDIA Nemotron Speech
набор открытых ASR-моделей для распознавания речи в реальном времени (NVIDIA CES 2026)
АудиоOpen-Source (локально)
NVIDIA Nemotron RAG
открытые embed и rerank VLM для мультиязычного и мультимодального поиска (NVIDIA CES 2026)
МультимодальныеOpen-Source (локально)
NVIDIA Llama Nemotron Content Safety
открытая модель безопасности контента с расширенной языковой поддержкой (NVIDIA CES 2026)
ТекстOpen-Source (локально)
NVIDIA Nemotron PII
открытая модель детекции персональных данных (NVIDIA CES 2026)
ТекстOpen-Source (локально)
NVIDIA Llama Embed Nemotron 8B
открытая embedding-модель, датасет и код обучения (NVIDIA CES 2026)
ТекстOpen-Source (локально)
NVIDIA Alpamayo
семейство открытых моделей для автономного вождения (NVIDIA CES 2026)
ТекстOpen-Source (локально)
NVIDIA Nemotron 3 Nano
компактная открытая модель для agentic AI (NVIDIA CES 2026)
ТекстOpen-Source (локально)
Декабрь
2025
📅 27.12
2 модели
GLM-4.7 (Z.ai)
open-source LLM для production-разработки: 200K контекст, 73.8% SWE-bench Verified, сильный code generation и agent execution (модель вышла 22 дек, пресс-релиз 27 дек) (PRNewswire…
ТекстOpen-Source (локально)
MiniMax M2.1
open-weights MoE-модель с улучшенным мультиязычным кодингом (Rust, Java, Go, C++ и др.) и agentic-возможностями (модель вышла 23–25 дек, в новостном цикле 27 дек)
ТекстOpen-Source (локально)
📅 26.12
2 модели
GLM-4.7
Open-source LLM от Z.ai (Zhipu AI), 358B параметров, заточен под coding и agent-workflows; лидер Code Arena среди open-source моделей (BusinessWire / Laotian Times)
ТекстOpen-Source (локально)
Fun-Audio-Chat
End-to-end голосовая модель от Alibaba Tongyi Lab, двухуровневый дизайн (5/25 Hz), Apache 2.0; понимает эмоции, поддерживает speech function calling
АудиоOpen-Source (локально)
📅 25.12
1 модель
MiniMax M2.1
полный open-source релиз весов MoE-модели (10B активных параметров) для кодинга и агентных задач; превосходит Gemini 3 Pro и Claude 4.5 Sonnet в мультиязычном программировании
ТекстOpen-Source (локально)
📅 24.12
3 модели
GLM-4.7
Z.ai open-sources новое поколение LLM для coding, reasoning и agentic-задач; #1 open model в WebDev (BusinessWire / Yahoo Finance)
ТекстOpen-Source (локально)
Qwen-Image-Edit-2511
Alibaba Qwen выпускает open-source модель редактирования изображений с улучшенной консистентностью персонажей и LoRA-интеграцией, Apache 2.0
ИзображенияOpen-Source (локально)
NVIDIA Nemotron 3 (paper + Nano weights)
семейство open-source моделей (Nano 30B, Super 100B, Ultra 500B) на гибридной Mamba-Transformer MoE архитектуре, контекст до 1M токенов; arxiv-статья и веса Nano опубликованы 24 де…
ТекстOpen-Source (локально)
📅 23.12
2 модели
MiniMax M2.1
open-source модель для мультиязычного кодинга и агентных workflow; превосходит Claude Sonnet 4.5 и Gemini 3 Pro в ряде бенчмарков; веса на Hugging Face
ТекстOpen-Source (локально)
GLM-4.7 (Z.ai)
open-source MoE-модель (355B параметров, 32B активных) для кодинга и агентных задач; 84.9% LiveCodeBench, 87.4% τ²-Bench; лицензия позволяет бесплатное локальное развёртывание (Bus…
ТекстOpen-Source (локально)
📅 22.12
1 модель
GLM-4.7 (Zhipu AI / Z.ai)
Open-source coding LLM (~400B params, 200K context), лидер среди open-source на SWE-bench Verified (73.8%) и LiveCodeBench (84.9%), поддержка agentic-сценариев и tool use (Business…
ТекстOpen-Source (локально)
📅 21.12
1 модель
IBM CUGA (Configurable Generalist Agent)
enterprise-oriented open-source agent framework released on Hugging Face under Apache 2.0; supports OpenAPI, MCP servers and LangChain for multi-step workflows (InfoQ / IBM Researc…
ТекстOpen-Source (локально)
📅 17.12
4 модели
NVIDIA Nemotron 3 Nano (30B/3B active)
открытая модель для агентного AI с контекстом до 1M токенов, гибридная MoE-архитектура, до 4× быстрее Nemotron 2 Nano (NVIDIA Newsroom, AIwire)
ТекстOpen-Source (локально)
NVIDIA NeMo Gym
открытая библиотека для построения RL-окружений для обучения LLM
ТекстOpen-Source (локально)
NVIDIA NeMo RL
открытый тулкит для масштабируемого reinforcement learning мультимодальных моделей
МультимодальныеOpen-Source (локально)
NVIDIA Open Training Data (3T tokens)
открытые датасеты для pretraining, post-training и RL, выпущены вместе с Nemotron 3
ТекстOpen-Source (локально)
📅 15.12
3 модели
NVIDIA Nemotron 3 Nano
30B hybrid Mamba2-Transformer MoE, unified reasoning/non-reasoning model trained on 25T tokens, 4x throughput of Nemotron 2 Nano
ТекстOpen-Source (локально)
NVIDIA Nemotron 3 Super
mid-size open model in the Nemotron 3 family with hybrid latent MoE architecture for agentic AI
ТекстOpen-Source (локально)
NVIDIA Nemotron 3 Ultra
largest open model in the Nemotron 3 family, optimized for agentic AI workloads
ТекстOpen-Source (локально)
📅 14.12
1 модель
EuroLLM-22B
полностью открытая европейская LLM на 22B параметров, обученная на 4T токенов на суперкомпьютере MareNostrum5; поддерживает все 24 языка ЕС + 11 международных
ТекстOpen-Source (локально)
📅 12.12
1 модель
T-pro 2.0 (T-pro-it-2.0)
33B-parameter Russian hybrid-reasoning model by T-Tech на базе Qwen3-32B, Apache 2.0, веса на HuggingFace (huggingface.co/t-tech/T-pro-it-2.0)
ТекстOpen-Source (локально)
📅 10.12
3 модели
Devstral 2 (123B)
Mistral AI's flagship open-weight coding model for agentic development, 72.2% on SWE-bench Verified, 256K context, modified MIT license
ТекстOpen-Source (локально)
Devstral Small 2 (24B)
Compact open-source coding model by Mistral AI, runs on a single laptop, 68% SWE-bench, Apache 2.0 license
ТекстOpen-Source (локально)
Mistral Vibe CLI
Open-source CLI agent for terminal-based agentic coding workflows, released alongside Devstral 2
ТекстOpen-Source (локально)
📅 09.12
3 модели
Devstral 2
Devstral 2 (123B) — Флагманская open-weights модель Mistral AI для кодинг-агентов, 72.2% SWE-bench Verified, 256K контекст, лицензия Modified MIT (mistral.ai)
ТекстOpen-Source (локально)
Devstral Small 2
Devstral Small 2 (24B) — Компактная версия Devstral 2, 68.0% SWE-bench Verified, работает на потребительском железе, лицензия Apache 2.0 (mistral.ai)
ТекстOpen-Source (локально)
Mistral Vibe CLI
Open-source CLI-агент для кодинга на базе Devstral, Apache 2.0
ТекстOpen-Source (локально)
📅 08.12
4 модели
GLM-4.6V
мультимодальная VLM от Z.ai (Zhipu AI), 106B параметров (MoE), контекст 128K, SOTA в задачах vision+text, поддержка Function Call
МультимодальныеOpen-Source (локально)
GLM-4.6V-Flash
облегчённая версия GLM-4.6V на 9B параметров для локального запуска и low-latency задач
ТекстOpen-Source (локально)
AutoGLM-Phone-9B
open-source 9B мультимодальный агент для автономного управления смартфоном через ADB, понимает экран и выполняет действия
МультимодальныеOpen-Source (локально)
SCAIL-Preview
модель анимации персонажей на основе 3D-консистентных поз, inference-код открыт 8 декабря, веса — 11 декабря
ТекстOpen-Source (локально)
📅 07.12
3 модели
GPT-5.2
2025-12-11 (OpenAI, закрытая модель)
ТекстПлатные (облако)
Mistral Large 3
2025-12-15 (Mistral, open-source MoE LLM)
ТекстOpen-Source (локально)
GPT-5.2 Codex
2025-12-18 (OpenAI, закрытая модель)
ТекстПлатные (облако)
📅 06.12
3 модели
DeepSeek V3.2
1 декабря 2025
ТекстOpen-Source (локально)
Mistral 3
Mistral 3 (Large 3) — 2 декабря 2025
ТекстOpen-Source (локально)
NVIDIA Nemotron 3
1 декабря 2025
ТекстOpen-Source (локально)
📅 05.12
1 модель
HunyuanVideo-1.5
480p I2V step-distilled (8/12 шагов): генерация видео на RTX 4090 в ~75 сек, качество сопоставимо с оригиналом. Выпущено Tencent на Hugging Face
ВидеоOpen-Source (локально)