Grok Илона Маска возглавил рейтинг точности Relum, оставив ChatGPT и Gemini в аутсайдерах

Искусственный интеллект Grok от Илона Маска признан одним из наиболее надежных инструментов для корпоративного сектора. В ходе сравнительного тестирования десяти ведущих моделей этот чат-бот продемонстрировал впечатляющую точность: доля недостоверных ответов составила всего 8%, что является лучшим результатом в группе.

Для сравнения, признанный лидер рынка ChatGPT показал крайне высокую склонность к ошибкам — 35%. Хуже справился только Gemini от Google, у которого показатель ложных срабатываний достиг 38%.

В декабрьском отчете компании Relum эффективность нейросетей анализировалась по нескольким критериям: частоте возникновения «галлюцинаций», отзывам пользователей, стабильности работы и проценту времени простоя. На основе этих данных каждой модели присваивался индекс риска надежности от 0 до 99 — чем выше балл, тем менее предсказуемым считается инструмент.

Grok Илона Маска возглавил рейтинг точности Relum, оставив ChatGPT и Gemini в аутсайдерах
Визуализация создана нейросетью Midjourney

Grok завершил испытания с показателем галлюцинаций 8%, клиентским рейтингом 4,5 и коэффициентом стабильности 3,5 при минимальном простое в 0,07%. Его итоговый индекс риска составил всего 6 баллов. DeepSeek занял вторую позицию: несмотря на 14% ложных ответов, полное отсутствие сбоев позволило ему получить рейтинг риска 4. В то же время ChatGPT из-за частых технических проблем и ошибок набрал критические 99 баллов. Claude и Meta AI также продемонстрировали невысокую надежность с показателями 75 и 70 баллов соответственно.

Разван-Лучиан Хайдук, директор по продуктам Relum, отметил важность полученных данных: «Сегодня ИИ-сервисы интегрированы в рабочие процессы 65% американских компаний, при этом 45% сотрудников признаются в передаче ботам конфиденциальной корпоративной информации. Это наглядно подтверждает значимость инструментов ИИ в бизнесе. Поскольку зависимость от них будет только расти, организациям следует выбирать помощников, исходя из их реальной стабильности и соответствия конкретным задачам. Самый популярный на рынке продукт не обязательно является самым точным или подходящим для вашей индустрии».

 

Источник: iXBT

Читайте также