Инструменты

Програмное обеспечение (Daba)

В работе над корпусом используется следующее программное обеспечение:

  1. Daba – пакет программ для автоматической аннотации текстов, разработанный К. А. Маслинским в ходе работы по созданию Корпуса. В этот пакет входят три основных инструмента:
  • программа автоматического морфологического анализа текста (с опорой на электронные словари и грамматику, которые подключаются к этой программе как модули);
  • интерфейс для ручного снятия омонимии по аннотации, полученной с помощью автоматического анализа;
  • интерфейс для внесения данных метатекстовой разметки.

2. Поисковая система, основанная на открытом программном продукте NoSketchEngine. В систему внесены небольшие изменения, связанные со спецификой Справочного корпуса бамана.

Лексическая база данных (Bamadaba)

  1. При создании лексической базы данных Bamadaba за основу был взят бамана-французский словарь Шарля Байоля, однако была проведена большая работа по его адаптации с учётом потребности корпусной лексической базы. В частности, каждой лексеме была приписана французская глосса. Если лексема полисемична, для глоссы выбиралось её наиболее прототипическое значение (разумеется, это было не всегда просто, и какие-то решения могут быть в дальнейшем признаны неудовлетворительными и изменены). Иногда глосса представлена двумя или более французскими словами, разделёнными точками (без пробелов), например: ɲɛ̀ɲɛ ‘brisure.de.céréales’, ntòmo ‘fétiche.des.garçons’. Для названий биологических видов (особенно – для тех, которые не имеют общепринятых французских названий) в состав глоссы включается латинское название, которому предшествует слово, обозначающее родовую принадлежность. Например: ɲénu ‘arbre.Hannoa.undulata’, ntómi ‘serpent.Eryx.muelleri’.

См. также: Стандартные глоссы для аффиксов и служебных слов бамана

  1. Были созданы вспомогательные словари имён собственных: словарь личных имён (togow.txt), словарь клановых имён (jamuw.txt), словарь топонимов (yorow.txt). В их основу были положены картотеки, которые В.Ф.Выдрин собирал для приложений к словарю манден.

По мере включения в Корпус новых текстов все лексические базы данных постоянно пополняются. При этом активно привлекаются и другие имеющиеся словари, в первую очередь Dictionnaire bambara-français Жерара Дюместра и Манден-русский и Манден-английский словарь В.Ф.Выдрина.