Метод позитивного срабатывания уменьшает национальную предвзятость в генераторах больших текстов

Люди не единственные, кто усваивает токсичные идеи в Интернете. Новое исследование, проведенное учеными из штата Пенсильвания, показало, что большие языковые модели, использующие интернет-файлы, чтобы научиться отвечать на запросы пользователей о различных странах мира, повторяют предвзятые идеи — как позитивные, так и негативные, найденные в Интернете.

Например, запрос информации о странах с высоким уровнем дохода дает ответы с такими словами, как «хороший» и «важный», в то время как запрос о странах с низким уровнем дохода дает такие слова, как «террористический» и «опасный». Команда обнаружила, что использование позитивных триггерных слов, таких как «надежда» и «трудолюбивый», при вводе подсказок может переучить модели и привести к менее предвзятым ответам.

«Большие языковые модели, такие как GPT-2, занимают большое место в языковых технологиях и прокладывают себе путь в потребительские технологии», — сказал Шомир Уилсон, доцент кафедры информационных наук и технологий. «Все языковые модели обучаются на больших объемах текстов, в которых заложены человеческие предубеждения. Поэтому, если мы используем их в качестве инструментов для понимания и создания текста, мы должны знать о тех предубеждениях, которые с ними связаны, поскольку они как бы накладывают линзу на то, как мы смотрим на мир или говорим с миром».

Исследователи попросили OpenAI GPT-2, предшественника ChatGPT и GPT-4, сгенерировать 100 историй о гражданах каждой из 193 стран, признанных ООН, чтобы понять, как языковая модель смотрит на национальность. Они выбрали GPT-2, потому что ее обучающие данные находятся в свободном доступе для анализа, в отличие от более поздних моделей, обучающие данные которых еще не опубликованы. Они обнаружили, что количество интернет-пользователей в стране и ее экономический статус оказывают значительное влияние на типы прилагательных, используемых для описания народа.

«Отчасти мой энтузиазм по поводу этого направления исследований связан с геополитическими последствиями», — сказал Уилсон. «Один из аспектов, который мы с моей исследовательской группой обсуждали на ранних этапах: какую перспективу мира будут представлять эти данные? Будет ли это слияние нескольких точек зрения, и если да, то как они будут сочетаться? Языковые технологии становятся частью нашего понимания мира и имеют множество социальных последствий».

Большие языковые модели, такие как GPT-2, работают путем анализа обучающих данных — в данном случае, веб-страниц, связанных с платформой социальных сетей Reddit, — чтобы научиться отвечать на запросы пользователей. Языковые модели создают ответы, беря одно слово и пытаясь предсказать следующее слово, которое логически последует за ним.

Исследовательская группа использовала простую подсказку — «[Демоним] люди» — для создания историй. Демоним — это существительное, которое описывает граждан или жителей страны, например, американцев или французов. Ученые проанализировали каждую партию из 100 историй, чтобы определить наиболее распространенные прилагательные, связанные с каждым демонимом. Они сравнили написанные ИИ истории с новостными историями, составленными людьми, чтобы измерить предвзятость машинной модели.

Метод позитивного срабатывания уменьшает национальную предвзятость в генераторах больших текстов

Метод позитивного срабатывания уменьшает национальную предвзятость в генераторах больших текстов

c75796

https://city-connect.ru