Главная страница Новости Битва нейросетей: LinkedIn запустил сервис для слепого тестирования ИИ-моделей
Битва нейросетей: LinkedIn запустил сервис для слепого тестирования ИИ-моделей

Битва нейросетей: LinkedIn запустил сервис для слепого тестирования ИИ-моделей

Какая нейросеть лучше пишет письма, а какая — код? LinkedIn решил выяснить это эмпирически.

Содержание статьи

Новая функция Crosscheck предлагает пользователям ввести запрос и оценить два анонимных ответа от разных ИИ-моделей. Результаты собираются в публичные рейтинги.

Как работает слепой тест

Механика Crosscheck напоминает популярный проект LMSYS Chatbot Arena, но интегрирована непосредственно в профессиональную социальную сеть:

  • Пользователь вводит любой текстовый запрос (промпт)
  • Система выбирает две разные нейросети из пула доступных провайдеров (OpenAI, Anthropic, Google, Microsoft и другие)
  • На экран выводятся два сгенерированных ответа без указания, какая именно модель их создала
  • Пользователь оценивает качество ответов и голосует за лучший вариант

На основе этих голосований LinkedIn формирует отраслевые рейтинги (лидерборды) лучших инструментов искусственного интеллекта для конкретных вертикалей и типов профессиональных запросов. Кроме того, платформа будет передавать обезличенные диалоги и оценки разработчикам нейросетей для улучшения их продуктов.

Нюансы корпоративных связей

Журналисты отмечают потенциальный конфликт интересов: материнская компания LinkedIn — корпорация Microsoft — инвестировала миллиарды долларов в OpenAI и активно внедряет их технологии в свою экосистему. При этом сама Microsoft также разрабатывает собственные модели. Теоретически это может дать инструментам OpenAI определенное преимущество в оценках, однако текущие рейтинги Crosscheck показывают разнообразие и присутствие широкого спектра конкурентов.

Реальность против ожиданий

Запуск Crosscheck ложится в стратегию LinkedIn по продвижению навыков работы с искусственным интеллектом среди профессионалов. Однако агрессивное внедрение технологий пока не коррелирует с реальными бизнес-результатами: согласно недавнему исследованию Национального бюро экономических исследований США (NBER), 89% из 6000 опрошенных руководителей в США, Великобритании, Германии и Австралии заявили, что за последние три года не увидели практически никаких изменений в производительности труда, несмотря на повсеместное внедрение ИИ-инструментов.

Awesome image

Если раньше выбор между платными подписками на ChatGPT, Claude или Gemini базировался на субъективных ощущениях и техно-блогах, то теперь LinkedIn обещает дать агрегированные данные о том, какая нейросеть лучше всего пишет холодные письма (cold outreach) или коммерческие предложения именно по оценкам других сейлз-менеджеров. Появление отраслевых рейтингов нейросетей — еще один шаг к стандартизации рабочих процессов в эпоху генеративного контента.

Чо, как вам статья?

Материалы по теме

Конец бесконечного скроллинга: YouTube разрешил пользователям полностью отключать Shorts
Устали заходить на YouTube за полезным часовым подкастом и внезапно обнаруживать себя смотрящим сороковое видео про капибар? Платформа наконец-то сдалась: теперь Shorts можно полностью отключить в настройках, убрав их с главной страницы.
Неизвестная группа получила доступ к Claude Mythos от Anthropic — самой опасной ИИ-модели
Самая мощная модель искусственного интеллекта, которую компания прятала из-за ее хакерских способностей, утекла в сеть. Группа энтузиастов подобрала URL-адрес и получила к ней доступ через стороннего подрядчика.
Биткоин за $100 000: Михаэль ван де Поппе назвал ключевой уровень для рывка криптовалюты
Исторический рекорд или глубокое падение? Пока одни эксперты пугают откатом биткоина до 10 тысяч долларов, основатель MN Fund Михаэль ван де Поппе уверен: главная криптовалюта может пробить психологическую отметку в 100 тысяч.

Вставить свои 5 копеек:

Awesome image
Awesome image
Awesome image Awesome image Awesome image Awesome image