Prompt Caching: токены LLM в 10 раз дешевле
Перевод статьи на Хабр про кэширование промптов: как провайдеры ускоряют и удешевляют запросы к LLM с примерами и визуализациями.
Перевод статьи на Хабр про кэширование промптов: как провайдеры ускоряют и удешевляют запросы к LLM с примерами и визуализациями.
Краткий обзор Gemini 3 Flash: GPQA 90.4%, MMMU Pro 81.2%, почти на уровне Gemini 3 Pro; экономия токенов ~30% за счёт управляемого thinking.
Короткий обзор исследования JetBrains: маскирование vs суммирование в памяти LLM‑агентов — маскирование оказалось точнее, дешевле и стабильнее.
Ключевые выводы OpenRouter по 100 трлн токенов: OSS ≈30%, рост medium‑моделей (15–70B), программирование >50%, Азия резко догоняет.
Antigravity (Google) позволяет Gemini открывать страницы с скрытыми prompt-инъекциями, собирать креды и отправлять их на webhook.site — риск утечки данных.
Anthropic заявляет о первой крупной кибератаке, почти выполненной ИИ; в публичном отчёте пока мало проверяемых фактов.
Краткий обзор двух исследований по AI‑безопасности: «Rule of Two» от Meta и масштабные атаки на защиты prompt injection (успешность >90%).
Анализ: Anthropic потратил $2.66 млрд на AWS за 9 мес. 2025 при выручке $2.55 млрд; повышение тарифов, запуск Claude Code и Claude Web.
Обзор новой волны конкуренции в ИИ: ChatGPT Apps, Gemini CLI Extensions и Claude Code Plugins — плагины, субагенты и маркетплейсы.
Разбор исследований открытых весов GPT-oss: обнаружение «глитч‑токенов», следы данных с GitHub и упоминания в MIT Technology Review.
Краткий обзор Granite-4.0: micro/tiny/small модели IBM с Mamba‑архитектурой, 128K контекстом и впечатляющими RAG/IF‑Eval бенчмарками.
Ollama запустила встроенный web-search через REST API с интеграцией в Python/JS SDK и MCP; есть generous free tier, детали в блоге и документации.
Сэм Альтман о подходе OpenAI к приватности, возрастной проверке и детскому режиму — баланс безопасности подростков и свободы пользователей.
Краткий обзор Groq LPU — специализированного процессора для снижения задержек в ИИ; вопросы о больших контекстах, конкуренции с Cerebras/GPU и бизнес‑модели.
Французский стартап Mistral AI закрыл Series C на €1,7 млрд при пост‑оценке €11,7 млрд; инвесторы — ASML, NVIDIA и ведущие венчурные фонды; фокус на open source.
Краткое объяснение, что такое AI coding agents, как они работают с LLM и пример — агент Junie от JetBrains.
Линейка Mistral 3: три лёгкие модели и Mistral Large 3 с разреженной MoE-архитектурой на 675 млрд параметров, открытой под Apache 2.0.
Anthropic открыл Agent Skills — стандарт для переносимых агентных workflows; в каталоге на claude.com есть навыки от Notion, Canva, Figma и др.
Habr-расследование: популярные VPN‑расширения (Urban VPN Proxy и другие) перехватывали и продавали диалоги пользователей с ChatGPT, Claude и Gemini.
Разбор Opus 4.5: Tool Search Tool, Programmatic Tool Calling и Tool Use Examples — уменьшение токенов и рост точности вызовов агентов.