Чатботи зі штучним інтелектом перевірили на правдивість: у кого найменше фейків

Чатботи зі штучним інтелектом перевірили на правдивість: у кого найменше фейків Різне

Чатботам було запропоновано сім завдань, кожне з яких мало визначити головні похибки, які допускає ШІ.

Популярним чатботам зі штучним інтелектом Claude, ChatGPT та Gemini влаштували перевірку на правдивість. Для випробування було обрано тему війни в Ірані, де ситуація швидко змінюється.

🔗 Джерело: https://bbcccnn.org/chatboty-zi-shtuchnym-intelektom-pereviryly-na-pravdyvist-u-koho-naymenshe-feykiv/
© Сила Слова

Про результати тестування повідомляє Tom’s Guide.

Чатботам було запропоновано сім завдань, кожне з яких мало визначити головні похибки, які допускає ШІ: «галюцинації», вигадки, перетин етичних меж та схильність заповнити фактичні прогалини правдоподібними вигадками.

В одному із завдань чат-боти повинні були підсумувати події останніх 48 годин після повідомлення про смерть верховного лідера Ірану Алі Хаменеї. Їм запропонували назвати джерела, які підтверджують це, і описати офіційну реакцію іранських державних ЗМІ станом на конкретний час.

ChatGPT загалом пропонував правильну структуру, але помилявся, заповнюючи прогалини неперевіреними припущеннями.

Gemini давав найбільш впевнені та детальні відповіді, але вигадував найбільше фейків, включно з датами, іменами та цифрами.

Найкращі результати продемонстрував Claude, який чітко розмежував підтверджені факти від спекуляцій та надав джерела для кожного суттєвого твердження.

Окрім того, як наголосили у виданні, цей чатбот виявив «розуміння того, коли питання переходило з публічного аналізу на операційну територію, якої відповідальна журналістика не повинна торкатися».

Нагадаємо, раніше дослідження виявило, що популярні чатботи із штучним інтелектом після тривалого спілкування з людьми починають робити більше помилок, ніби «тупішають» у процесі віртуальної розмови

Рейтинг статті