Справочный Корпус Манинка

Поиск в корпусе

Инструкция по поиску в корпусе (PDF)

Справочный корпус манинка представляет собой аннотированный массив текстов на языке манинка (группа манден, семья манде, макросемья нигер-конго; ISO 639-3: emk), который является родным для примерно 4 миллионов человек в Гвинее, Мали, Сьерра-Леоне, Либерии (Западная Африка), им также владеют как вторым языком многие представители других этнических групп Гвинеи. Этот корпус состоит из двух частей:

  • Справочный корпус НКО (cormani_nko), включающий в себя тексты, исходно записанные письменностью нко. Необходимо иметь в виду, что эта письменность получила широкое распространение и за пределами этнической зоны манинка; таким образом, литературный язык манинка Гвинеи (манинка-мори), записанный на нко, массово используется носителями других идиомов манден (в первую очередь бамана, но также и дьюла Кот д’Ивуара и Буркины Фасо), что имеет своим результатом различные субстратные явления во многих текстах на нко. В целом такие тексты отличаются достаточно высокой степенью языковой нормализации, в них последовательно обозначаются (на каждом слоге) поверхностные реализации тонов; обозначается и тоновый артикль.
  • Справочный корпус манинка (cormani_lat), значительно уступающий по объёму Корпусу нко, содержит тексты, записанные в первой латинской орфографии на гвинейском манинка в период Первой Республики (1958—1984) и тексты в новой латинской орфографии, введённой в 1988 году. Публикации в старой орфографии часто характеризуются большой нестабильностью орфографии и многочисленными опечатками (в текстах, введённых в Корпус, сохраняется и оригинальная запись, со всеми ошибками, и исправленная), при этом никогда не обозначаются тоны. В современной Гвинее латинская орфография для манинка используется ограниченно.

В Корпус включаются письменные тексты различных жанров, как опубликованные (газеты, журналы, художественная литература и фольклор, учебники, практические пособия, религиозная литература…), так и неопубликованные, созданные в разное время выходцами из разных диалектных зон манинка, а также авторами, для которых манинка не является родным языком, но использующих нко-манинка в качестве письменной нормы.

В первой версии Корпуса большинство текстов представлены без метаданных; периодические издания нередко представлены без постатейной разбивки; тексты со снятой омонимией практически отсутствуют; автоматическая разметка основывается на словаре Malidaba, который находится в процессе создания и далёк от полноты. В ходе дальнейшей работы предполагается постепенное устранение этих недостатков и создание подкорпуса со снятой омонимией.

Новости

Выпуск 14 марта 2017

Объем корпусов:

  • Подкорпус нко (cormani-brut-nko): 3 122 178 слов
  • Латинский подкорпус (cormani-brut-lat): 396 389 слов

Изменения:

  • Аннотация выполнена с использованием обновленного словаря Malidaba (исправленного примерно на 54%).
  • Внесены исправления в механизм сборки Подкорпуса нко, в результате чего были устранены некоторые ошибки тоновой нотации при конвертации нко → латиница.
  • Установлена версия манинка (в письменности нко) интерфейса поисковика NoSketchEngine. Для перехода на неё нужно кликнуть “шестерёнку” в правом верхнем углу экрана и выбрать ߒߞߏ из списка языков.

Пополнение Подкорпуса нко:

Газета Wèntere (ߥߋ߲߬ߕߙߋ)

  • No. 1, ноябрь 2014
  • No. 2, декабрь 2014
  • No. 4, февраль 2014

Из Подкорпуса нко, по настоянию автора, были исключены следующие документы:

  • Diané, Mamadi Baba Kángbɛ` lánɔ̀ɔyanɛ́n`. [La grammaire simple.] Kankan, Université Julius Nyerere de Kankan, 2013. 112 стр. 4400 слов.ߞߊ߲ߞߊ߲ ߞߊ߲ߜߍ ߟߊߣߐ߰ߦߊ߬ߣߍ߲ ߓߊ߬ߓߊ߫ ߡߊ߬ߡߊߘߌ ߖߊ߬ߣߍ
  • Jàanɛ, Bàbá Màmádi Ńkó` kàrán` ní sɛ́bɛli`. [La lecture et l’écriture N’ko.] Kánkan, Université Julius Nherere de Kankan, 2013. 79 стр. 1000 слов.ߞߊ߲ߞߊ߲ ߒߞߏ ߞߊ߬ߙߊ߲ ߣߌ߫ ߛߓߍߟߌ ߓߊ߬ߓߊ߫ ߡߊ߬ߡߊߘߌ߫ ߖߊ߰ߣ ߍ߬
  • Jàanɛ, Bàbá Màmádi Sɛ́bɛsun` súu` n’à sékoya`. [Types d’alphabets et leurs puissance.] Caire, 2012. 80 стр.ߡߌߎߌ߬ߙߊ߲߬ ߛߓߍߛߎ߲ ߛߎ߮ ߣߴߊ߬ ߛߋߞߏߦߊ ߓߊ߬ߓߊ߫ ߡߊ߬ߤߊߘߌ߫ ߖߊ߰ߣߍ߬
  • Jàanɛ, Bàbá Màmádi Tɔ́n jáabama láseli. [Communiqué de l’Association générale du développement du N’ko.] 10154 слов.ߕߐ߲ ߖߊ߯ߓߡߊ ߟߊߛߋߟߌ߫ ߓߊ߬ߓߊ ߡߊ߬ߡߊߘߌ ߖߊ߰ߣߍ߬

Выпуск 2016.09

  • Аннотация выполнена с использованием обновленного словаря Malidaba (исправленного примерно на 40%).

Выпуск 2016.07

Объем корпусов:

  • Подкорпус НКО (cormani-brut-nko): 3 174 484 слов
  • Латинский подкорпус (cormani-brut-lat): 396 389 слов

Изменения:

Выпуск 2016.04

Первый официальный выпуск корпуса

Объем корпусов:

  • Подкорпус НКО (cormani-brut-nko): 3 105 879 слов;
  • Латинский подкорпус (cormani-brut-lat): 396 389 слов.