Битва нейросетей: LinkedIn запустил сервис для слепого тестирования ИИ-моделей
Какая нейросеть лучше пишет письма, а какая — код? LinkedIn решил выяснить это эмпирически.
Новая функция Crosscheck предлагает пользователям ввести запрос и оценить два анонимных ответа от разных ИИ-моделей. Результаты собираются в публичные рейтинги.
Как работает слепой тест
Механика Crosscheck напоминает популярный проект LMSYS Chatbot Arena, но интегрирована непосредственно в профессиональную социальную сеть:
- Пользователь вводит любой текстовый запрос (промпт)
- Система выбирает две разные нейросети из пула доступных провайдеров (OpenAI, Anthropic, Google, Microsoft и другие)
- На экран выводятся два сгенерированных ответа без указания, какая именно модель их создала
- Пользователь оценивает качество ответов и голосует за лучший вариант
На основе этих голосований LinkedIn формирует отраслевые рейтинги (лидерборды) лучших инструментов искусственного интеллекта для конкретных вертикалей и типов профессиональных запросов. Кроме того, платформа будет передавать обезличенные диалоги и оценки разработчикам нейросетей для улучшения их продуктов.
Нюансы корпоративных связей
Журналисты отмечают потенциальный конфликт интересов: материнская компания LinkedIn — корпорация Microsoft — инвестировала миллиарды долларов в OpenAI и активно внедряет их технологии в свою экосистему. При этом сама Microsoft также разрабатывает собственные модели. Теоретически это может дать инструментам OpenAI определенное преимущество в оценках, однако текущие рейтинги Crosscheck показывают разнообразие и присутствие широкого спектра конкурентов.
Реальность против ожиданий
Запуск Crosscheck ложится в стратегию LinkedIn по продвижению навыков работы с искусственным интеллектом среди профессионалов. Однако агрессивное внедрение технологий пока не коррелирует с реальными бизнес-результатами: согласно недавнему исследованию Национального бюро экономических исследований США (NBER), 89% из 6000 опрошенных руководителей в США, Великобритании, Германии и Австралии заявили, что за последние три года не увидели практически никаких изменений в производительности труда, несмотря на повсеместное внедрение ИИ-инструментов.
Если раньше выбор между платными подписками на ChatGPT, Claude или Gemini базировался на субъективных ощущениях и техно-блогах, то теперь LinkedIn обещает дать агрегированные данные о том, какая нейросеть лучше всего пишет холодные письма (cold outreach) или коммерческие предложения именно по оценкам других сейлз-менеджеров. Появление отраслевых рейтингов нейросетей — еще один шаг к стандартизации рабочих процессов в эпоху генеративного контента.
Материалы по теме
Вставить свои 5 копеек: