Claude Sonnet 4.5 — лучшая модель для программирования
Anthropic выпустил Claude Sonnet 4.5: топ на SWE-bench, рост точности на OSWorld до 61%, новые функции для кода и Agent SDK; доступна в API.
Anthropic выпустил Claude Sonnet 4.5: топ на SWE-bench, рост точности на OSWorld до 61%, новые функции для кода и Agent SDK; доступна в API.
Cowork от Anthropic даёт Claude доступ к файловой системе — чтение, правка и создание файлов; есть коннекторы, skills и параллельные задачи. Отмечены риски: удаление файлов и prompt injection.
Z.ai выпустили GLM-4.7 с фокусом на агентные сценарии и interleaved thinking; заметный прирост в SWE-bench и Terminal Bench, веса на Hugging Face.
JetBrains выпустила Air — ADE для гибридной работы «разработчик + ИИ‑агенты», сейчас в превью на macOS и работает с Claude Agent (подписка Anthropic).
Утечка карточки Gemini 3 Pro — документ на pixeldrain/Wayback указывает, что модель опережает GPT‑5.1 и Claude Sonnet 4.5; намёки на релиз в Cursor/AI Studio.
OpenRouter тестирует Sherlock Dash Alpha и Sherlock Think Alpha с контекстом 1,84 млн токенов; вероятно это обновлённый Grok 4, релиз — конец ноября–начало декабря.
Обзор Microsoft RedCodeAgent — автоматический агент для red‑teaming кодовых агентов; выявил 82 уникальные уязвимости в OpenCodeInterpreter.
Обновление Gemini CLI добавило PTY‑оболочку: интерактивный терминал с поддержкой vim, top, git rebase и корректными цветами терминала.
Google запустил Gemini CLI Extensions — фреймворк для подключения внешних инструментов к Gemini CLI; интеграции с Dynatrace, Figma, Cloud Run и публичный каталог.
Краткий обзор OpenAI DevDay 2025: Apps SDK, AgentKit, обновлённый Codex, и анонс GPT-5 Pro и Sora-2 в API.
Анонс GPT-5-Codex — модель для агентного программирования: пишет проекты с нуля, делает код‑ревью, находит баги и выполняет масштабные рефакторинги. Ссылка на Хабр.
Anthropic добавили нативную поддержку LSP в Claude Code — доступ к семантике кода, переходам, типам и символам для агентных сценариев.
Anthropic представили Claude Code с доступом к браузеру — чтение DOM, отслеживание ошибок в консоли и проверка фич прямо в браузере.
Краткий обзор: Gemini 3 Pro, агентная IDE Antigravity от Google, сбой Cloudflare из‑за прав доступа и релиз xAI Grok 4.1.
OpenAI запустил DevDay 2025 в Fort Mason (Сан‑Франциско); ключевое выступление Сам Альтмана идёт в прямом эфире на YouTube.
Обновление Cursor 1.7: автокомплит для Agent, Hooks (beta), Team Rules, песочница для терминалов и поддержка изображений. Источник: cursor.com.
16 экземпляров Claude Opus 4.6 за две недели сгенерировали ~100 000 строк и довели Rust‑компилятор до сборки Linux 6.9 на x86, ARM и RISC‑V.
В логах Vertex AI найден id claude-sonnet-5@20260203; инсайдеры прогнозируют SWE-Bench 82.1%, прежние цены и контекст в 1 млн токенов.
GPT-5.1‑Codex‑Max выходит в лидеры на SWE‑Lancer и SWE‑Bench Verified; компактность позволяет оперировать миллионами токенов, доступ в Codex уже открыт.
Opus 4.5 лидирует в SWE‑bench, опережая Sonnet 4.5 в большинстве языков; улучшены reasoning, зрение и защита от prompt‑injection; введён параметр effort.