Говорящих на кипрском греческом скоро смогут понять голосовые системы благодаря прорывной модели ИИ для преобразования речи в текст, разработанной небольшой командой. Эта инновация направлена на решение проблем носителей уникального диалекта острова, которые долгое время сталкивались с недостатком признания в технологиях.
Игорь Акимов, менеджер по продуктам ИИ, сотрудничал со стажёрами Хуссейном Хадра и Никитой Марковым из Университета Никосии и UCLan соответственно, чтобы создать систему автоматического распознавания речи, специально разработанную для кипрского греческого. Система преобразует устную речь в письменный текст, что делает её применимой для различных целей, включая голосовых агентов на базе ИИ, сервисы перевода и автоматизированную поддержку клиентов.
Эта технология выгодна не только для повседневных пользователей; она обладает значительным потенциалом во многих сферах. Например, в здравоохранении она может транскрибировать речь пациентов непосредственно в медицинские системы, облегчая взаимодействие, особенно для пожилых людей. В бизнесе она открывает путь для автоматизированных голосовых агентов, способных естественно общаться с кипрскими клиентами. Кроме того, технология может сыграть важную роль в образовании, помогая сохранять кипрский диалект и оцифровывать местные аудиархивы.
Одной из ключевых целей проекта было разработать методологию работы с языками и диалектами, для которых недостаточно данных. Акимов отметил сложность задачи: «Это было непросто. Думаю, мы все недооценили, насколько всё будет сложно. Определённо на этом пути были взлёты и падения.»
Поначалу команда сталкивалась с серьёзными трудностями в поиске качественных данных. Несмотря на обращения к разным исследователям, им часто приходилось сталкиваться с потерянными данными, высокой стоимостью доступа или прямыми отказами. С ограниченными ресурсами они обратились к различным медиа, собирая кипрские аудиоматериалы из телепередач, радиостанций, подкастов и книг. Это привело к созданию крупнейшей в истории коллекции речи на кипрском греческом.
Обучение ИИ прошло в несколько этапов. На первом этапе система знакомилась с неформальной речью кипрского греческого, чтобы уловить уникальные звуки и ритмы. Затем вводилась более чёткая профессиональная речь из новостных выпусков и радиопередач для уточнения понимания и минимизации ошибок. Инструмент помощника чтения KenLM был интегрирован для повышения точности распознавания путем предложения наиболее вероятных слов.
По мере продвижения проекта команда сосредоточилась на постоянном улучшении. Они разработали платформу, где носители могли исправлять транскрипты ИИ, возвращая эти исправления в процесс обучения. Такой итеративный подход направлен на повышение точности системы и её соответствия кипрскому диалекту со временем.
Впечатляет, что весь проект был выполнен при скромном бюджете всего в 150 долларов, используя инновационные методы и доступные облачные технологии. Однако Акимов подчеркнул, что работа ещё продолжается: «С несколькими часами качественно расшифрованной аудио мы не смогли создать лучшую модель в мире — но это абсолютно достижимо.»
В настоящее время команда собрала около 300 часов кипрской речи и активно ищет добровольцев для помощи. Заинтересованные могут потратить всего 15 минут, проверяя транскрипты на сайте проекта voiceofcyprus.org. Это небольшое усилие может существенно повысить качество модели ИИ для распознавания кипрской речи и потенциально привести к созданию системы преобразования текста в речь, которая аутентично отражает диалект.
Акимов выразил важность этой инициативы для кипрского сообщества, заявив: «Это очень поможет нам — и Кипру. Даже 10–15 минут имеют значение. Мы хотим, чтобы каждый киприот мог говорить на своём диалекте и при этом быть понятым технологиями.»
