← Архив · 27 March 2026 · 50 источников

Дайджест по безопасности ИИ (13 марта 2026)

🔥 Безопасность при решении математических задач в LLMs

Недостатки LLMs в области безопасности при решении математических задач выходят на первый план в преддверии их использования в образовательных системах. Выявлено, что LLMs могут генерировать вредоносные и предвзятые выходы из-за манипуляций входными данными, что особо важно учитывать в контексте обучения детей. Исследование SafeMath предлагает подход к безопасности, который позволяет снизить количество таких выходов и даже улучшить математическую точность. Это подчеркивает актуальность разработки систем безопасного взаимодействия LLMs со школьными и образовательными программами, минимизирующих риски отрицательного воздействия технологий на обучающийся контингент.

Industry

🟡 EU AI Act и санкции усиливают давление на российские IT-компании
Совет ЕС согласовал правила Digital Omnibus on AI, вводящие новые обязательства для российских IT-компаний, экспортирующих AI-продукты в Европу. Это усложняет бизнес в условиях санкционного режима и экстерриториального регулирования.
Habr AI

Research

🟡 Важность безопасности при решении математических задач в обучении детей
Представлен SafeMath, метод безопасности для LLMs, снижающий вредные выходы при решении математических задач, что особенно актуально в образовательных контекстах, где существует риск воздействия на детей.
ArXiv cs.CL
🟡 Ограниченные метакогнитивные способности у LLMs
Исследование демонстрирует, что LLMs обладаем ограниченной способностью к метакогнитивным процессам, что важно для оценки их безопасности и применения в политике.
ArXiv cs.AI

Opinion

🟡 Как бороться с многократным джейлбрейкингом
Исследование изучает методы уменьшения уязвимостей многократного джейлбрейкинга LLMs, предложив комбинацию дообучения и санитарной обработки ввода, что позволяет сохранить производительность при выполнении безопасных задач.
ArXiv cs.AI

Governance

⚪ Важные шаги в стандартизации оценки многоцелевого поиска
Представлен новый набор стандартов для оценки алгоритмов многоцелевого поиска, направленный на улучшение воспроизводимости и структурной комплексности исследований в этой области.
ArXiv cs.AI