Ринки вчора накрила хвиля розпродажів на тлі того, що китайський ШІ-стартап DeepSeek виклав у відкритий доступ свою LLM-модель R1, яка за ефективністю працює на рівні Google та OpenAI.
DeepSeek R1 — це вже третя версія моделі. Попередні дві вважаються менш вдалими, оскільки, як і більшість моделей, потребували значних обчислювальних ресурсів. У поточній версії розробники пішли на хитрість: замість використання 671 млрд параметрів, які, звісно, потребують потужностей, вони дозволили відключати значну частину параметрів для виконання конкретних задач. Наприклад, залишати лише 20 млрд. Навіщо? Більшість задач не настільки складні, щоб вимагати такої кількості параметрів, і простішої відповіді може бути достатньо.
Основна мета DeepSeek полягала в тому, щоб створити модель, яку малий бізнес зможе запускати у себе в офісі на потужному комп’ютері або ноутбуці. З новим підходом до LLM компанії це вдалося. Але це не є революцією, адже подібні моделі вже існують. Ми звикли чути лише про популярні моделі, але й інші компанії мають рішення, які є простішими та орієнтованими на різні ніші.