Индия обращается к искусственному интеллекту в рамках «особой попытки» освоить свой 121 язык

Таким образом, сотни миллионов индийцев лишены полезной информации и многих экономических возможностей.

«Чтобы инструменты искусственного интеллекта работали для всех, они также должны обслуживать людей, которые не говорят по-английски, по-французски или по-испански», — сказала Калика Бали, главный исследователь Microsoft Research India. «Но если бы нам пришлось собрать на индийских языках столько же данных, сколько нужно для такой большой языковой модели, как GPT, нам пришлось бы ждать еще 10 лет. Итак, что мы можем сделать, так это создать слои поверх генеративных моделей искусственного интеллекта, таких как ChatGPT или Llama».

Сельская местность в Лаккунди, Карнатака. Жители деревень штата входят в число тысяч говорящих на разных индийских языках, генерирующих речевые данные для технологической компании Karya. Фото: Шаттерсток

Жители деревни в Карнатаке входят в число тысяч говорящих на разных индийских языках, генерирующих речевые данные для технологической компании Karya, которая создает наборы данных для таких компаний, как Microsoft и Google, для использования в моделях искусственного интеллекта для образования, здравоохранения и других услуг.

Индийское правительство, которое стремится предоставлять больше услуг в цифровом формате, также создает наборы языковых данных с помощью Bhashini, системы языкового перевода на базе искусственного интеллекта, которая создает наборы данных с открытым исходным кодом на местных языках для создания инструментов искусственного интеллекта.

Платформа включает в себя инициативу краудсорсинга, позволяющую людям вносить предложения на разных языках, проверять аудио или текст, расшифрованный другими, переводить тексты и маркировать изображения.

Десятки тысяч индийцев внесли свой вклад в Бхашини.

«Правительство очень активно настаивает на создании наборов данных для обучения больших языковых моделей на индийских языках, и они уже используются в инструментах перевода в сфере образования, туризма и в судах», — сказал Пушпак Бхаттачарья, руководитель отдела вычислений для индийского языка. Технологическая лаборатория в Мумбаи.

«Однако существует множество проблем: индийские языки в основном имеют устную традицию, электронных записей не так уж и много, а коды часто смешиваются. Кроме того, собирать данные на менее распространенных языках сложно и требует особых усилий».

01:40

92-летняя бабушка из Индии доказывает, что учиться никогда не поздно

92-летняя бабушка из Индии доказывает, что учиться никогда не поздно

Экономическая ценность

Из более чем 7000 живых языков в мире менее 100 охвачены основными НЛП, при этом английский является наиболее развитым.

ChatGPT, запуск которого в прошлом году вызвал волну интереса к генеративному искусственному интеллекту, обучается в основном на английском языке. Bard от Google ограничен английским языком, а из девяти языков, на которые может реагировать Alexa от Amazon, только три неевропейские; арабский, хинди и японский.

Правительства и стартапы пытаются преодолеть этот разрыв.

Массовая организация Masakhane стремится усилить исследования НЛП на африканских языках, а в Объединенных Арабских Эмиратах новая большая языковая модель под названием Jais может стать основой для приложений генеративного искусственного интеллекта на арабском языке.

Программы чтения новостей с искусственным интеллектом появляются в новостях индийского телевидения. Смогут ли они заменить людей?

Для такой страны, как Индия, краудсорсинг является эффективным способом сбора речевых и языковых данных, сказал Бали, которого в сентябре журнал Time включил в число 100 самых влиятельных людей в области искусственного интеллекта.

«Краудсорсинг также помогает уловить лингвистические, культурные и социально-экономические нюансы», — сказал Бали.

«Но необходимо осознавать гендерные, этнические и социально-экономические предрассудки, и это нужно делать этично, обучая работников, платя им зарплату и прилагая особые усилия по сбору меньших языков», — сказала она. «Иначе он не масштабируется».

С быстрым развитием искусственного интеллекта существует спрос на языки, «о которых мы даже не слышали», в том числе со стороны ученых, стремящихся их сохранить, сказала соучредитель Karya Сафия Хусейн.

Карья работает с некоммерческими организациями, чтобы выявить работников, которые находятся за чертой бедности или с годовым доходом менее 325 долларов США, и платит им около 5 долларов США в час за сбор данных, что значительно превышает минимальную заработную плату в Индии.

По словам Хусейна, работники владеют частью данных, которые они генерируют, поэтому они могут получать гонорары, и существует потенциал для создания продуктов искусственного интеллекта для сообщества на основе этих данных в таких областях, как здравоохранение и сельское хозяйство.

«Мы видим огромный потенциал для увеличения экономической ценности речевых данных: час речевых данных Odia раньше стоил около 3–4 долларов США, теперь это 40 долларов США», — сказала она, имея в виду язык восточного штата Одиша.

Пассажиры возле железнодорожного вокзала в Мумбаи. Менее 11 процентов из 1,4 миллиарда жителей Индии говорят по-английски. Фото: АФП

Деревенский голос

Менее 11 процентов из 1,4 миллиарда жителей Индии говорят по-английски. Большая часть населения не умеет читать и писать, поэтому некоторые модели ИИ ориентированы на речь и распознавание речи.

Проект Vaani, или «голос», финансируемый Google, собирает данные о речи около 1 миллиона индийцев и открывает их для использования в автоматическом распознавании речи и переводе речи в речь.

Инструменты перевода на основе искусственного интеллекта базирующегося в Бангалоре фонда EkStep Foundation используются в Верховном суде Индии и Бангладеш, а поддерживаемый правительством центр AI4Bharat запустил Jugalbandi, чат-бота на основе искусственного интеллекта, который может отвечать на вопросы о схемах социального обеспечения на нескольких индийских языках.

Бот, названный в честь дуэта, в котором два музыканта подшучивают друг над другом, использует языковые модели AI4Bharat и модели рассуждения от Microsoft. Доступ к нему можно получить в WhatsApp, которым пользуются около 500 миллионов человек в Индии.

«Катастрофа»: глубокие фейковые видео с Моди, актеры призывают к срочным изменениям

Gram Vaani, или «Голос деревни», социальное предприятие, работающее с фермерами, также использует чат-ботов на базе искусственного интеллекта, чтобы отвечать на вопросы о социальных пособиях.

«Технологии автоматического распознавания речи помогают смягчить языковые барьеры и обеспечить охват на низовом уровне», — сказал Шубхмой Кумар Гарг, руководитель отдела продуктов в Gram Vaani. «Они помогут расширить возможности сообществ, которые в них нуждаются больше всего».

Для Сварналаты Наяк из района Рагураджпур в Одише растущий спрос на речевые данные на ее родной Одиа также означает столь необходимый дополнительный доход от ее работы для Карии.

«Я работаю ночью, когда я свободен. Я могу обеспечить свою семью, разговаривая по телефону», — сказала она.

Перейти к эмитенту новости