Komi spellchecking dictionary

опубликовал Дмитрий Левченко в 15:01 18.09.2019

Разработан и успешно добавлен в магазин расширений mozilla плагин для проверки орфографии на коми языке

Исправление проблем

опубликовал Дмитрий Левченко в 10:10 17.09.2019

1. В корпусе исправлена работоспособность функции поиска "Как часть слова" - "Только в начале слова"

2. Начата разработка новой версии программы проверки орфографии для браузера Mozilla Firefox

Понедельник..

опубликовал Дмитрий Левченко в 15:32 16.09.2019

1. Доменные имена на ..2.238 имеют теперь самоподписанный сертификат. Доменные имена:

audio.komikyv.ru, courses.komikyv.ru, dict.komikyv.org, dict.komikyv.ru, komikyv.com, komikyv.org, komikyv.ru, m.komikyv.org, school.komikyv.ru, vidzanin.komikyv.com, wiki.komikyv.com, wiki.komikyv.ru, wiki.komikyv.org, words.komikyv.ru

2. Обновлена прошивка mikrotik до версии 6.45.6

3. Для fu-lab.ru разработан новый инструмент "Сортировка по алфавиту с конца слова"

4. Добавлена админка для webspell.fu-lab.ru

Падмӧдъяс

опубликовал Öньö Лав в 18:29 14.09.2019

  • Вӧчи кык содтӧд спеллер: 1. дженьдӧдӧм + вариатив. Сэтчӧ пырті бара еч, ича, нньӧ, ттьӧ, лльӧ, йӧ кывъяс. 2. Артмӧм списокысь чинті вариатив - артмис куш спеллер.
  • В спеллер-онлайн желательно создать админку.
  • Надо бы всё-таки выяснить вопрос со словарями спеллера в браузере.
  • В корпусе перестала работать функция "Как часть слова" - "Только в начале слова".
  • В молодцовском корпусе не решена проблема кратких слов.
256

опубликовал Дмитрий Левченко в 13:36 13.09.2019

1. McHost переведен на бесплатный аккаунт, халява рулит.

2. Backend контекстного словаря удален из-за громоздкости. Начал писать с нуля..50% load, ждём v2.0

3. Написано несколько скриптов на python для сбора статистических данных и данных по словарным статьям. Подопытными в работе скриптов были корпус коми языка, *.dic и большой коми-русский словарь

Вежам тегъяс

опубликовал Öньö Лав в 12:50 13.09.2019

В файлах словаря dict_komi-rus_org.xml проводятся следующие работы (EL & INA):

  • пустые статьи со ссылками заполняются контентом из статей, на которые идут ссылки. В дальнейшем в большинстве случаев link будет преобразован в syn.
  • омонимы объединяются в один <line>.
  • вводится атрибут onlyin для слов, встречающихся только во фразе. Такие фразы выводятся в отдельные словарные статьи.
КЫК ПӦВ?

опубликовал Öньö Лав в 10:35 13.09.2019

На текущей неделе проделаны следующие операции по усовершенствованию корпуса словаря dict_komi-rus_org (32 852 лемм) и словарной база hunspell komi.dic.

  1. Из списка hunspell komi.dic (298541 лемма) исключены вариативные формы, в komi.dic осталось 278867 лемм.
  2. Сокращенный таким образом список komi.dic (278867 лемм) соотнесен с полным списком словоформ, представленных в корпусе коми языка, в результате чего из  списка komi.dic изъяты все искусственные формы (личные имена и производные глагольные формы). В полученном файле komi_out.dic осталось  130976 лемм.
  3. Из файла komi_out.dic выведены в отдельные файлы личные имена и русские заимствования. Остаток, получившийся после изъятия указанных групп лемм, записан в файл komi_out_short.dic, включающий 62431 лемму.
  4. Проведено сравнение списка лемм словаря dict_komi-rus_org (32 852 лемм) со списком лемм файла komi_out_short.dic, в результате получен файл komi_out_short_out_dictionary.dic, который содержит 41318 лемм, представленных в komi_out_short.dic, но отсутствующих в словаре dict_komi-rus_org.
  5. Следовательно, в словаре dict_komi-rus_org должно присутствовать 11739 лемм, не попавших в список komi_out_short.dic. Вероятно, это русские заимствования, исключенные из файла komi_out.dic на этапе 3.
  6. По факту при изъятии из файла  dict_komi-rus_org лемм, имеющих соответствия в komi_out_short.dic, там осталось 12763 леммы, результат записан в файл  dic_komi_rus_xml_only.

Все названные файлы находятся в видзаніне в папке dic_aff.

Выльлун - сьӧкыд лун

опубликовал Öньö Лав в 22:38 09.09.2019

  • Катя муніс шойччыны, ме эг мун.
  • Лена ноксис нестандартнӧй лексикаӧн; содтӧд вӧчӧ кык лыддьӧг: 1) стандарт кыв абу миян дикын, 2) кывйыс мыйлакӧ абу корпусын.
  • Иннуш лӧсьӧдіс syn-яс, сэсся юнься "Югыд туйяслы" вӧчис метаразметка; пуктім сылы универсальнӧй коми раскладка.
  • Ми Димакӧд видлім мездысьны нумерацияысь, вӧчим вӧлись маркируйтӧм лыддьӧг (оз на тыдав ме компын).
  • Ме тӧрыт-талун тексталі 4-ӧд класслы 1935ʼ вося "Естествознание" да текстуйті  Англия йылысь 1934ʼ вося Географияысь (6-ӧд класс), сюри унакодь выль термин: васӧдӧм "орошение", вӧчас "продукция", васӧд "влага", косін "суша", вапукаланін "водоем", торъялӧм "особенность", уджалан кӧлуй "оборудование", сісьмӧг "перегной", кыкмындаавны "удвоить", сюрсалыа "позвоночный", сюрсалытӧм "беспозвоночный", сюрсалы "спинной мозг", ловйӧн вайысь "живородящий", гагсёйысь "насекомоядное", йӧлӧн вердчысь" млекопитающее"...
  • Марина вӧзйис нацбиблиотекалы цифруйтны коляс небӧгъяс 1920-30 воясысь.
  • Последовательность работы при пополнении словаря леммами из hunspell: 1. Устранить в komi.dic все глагольные леммы, которые не имеют соответсвующих форм в корпусе; 2. Вывести списком все леммы, которые есть в komi.dic, но нет в словаре.
Понедельник день тяжелый

опубликовал Дмитрий Левченко в 17:54 09.09.2019

1. Доработан вывод частей речи в контекстном словаре (в link)

2. Нумерованный список переделан в маркированный

3. Добавлены новые визуальные отступы

4. Обновлена прошивка mikrotik до версии 6.45.5

Дыш пекнича

опубликовал Öньö Лав в 13:28 07.09.2019

  • Тӧрыт видлалім К. Ленакӧд, кыдзи интегрируйны кывкудйӧ вариативнӧй леммаяс. Быд вариант весьтӧ лоӧ пуктӧма гижӧд кывса лемма. Быд кывлысь вежӧртас колӧ стӧчмӧдавны корпус серти.
  • Катя водзӧ лӧсьӧдіс 2008ʼ вося Коми муяс.
  • Инна метааліс 1929ʼ августся Югыд туйлысь гижӧдъяс.
  • Ачым текталі Югыд туй, тайӧ вежонся нумер-мӧд.
  • Гижӧдчи Кутш керкаса став петас вылӧ 2020ʼ во кежлӧ.
  • Видлалӧм могысь мӧдӧді Ӧ. Насталы 1929ʼ мӧд во джыся "Ордым"  номеръясысь мол. текстъяс.
Чеԏверг

опубликовал Öньö Лав в 11:37 05.09.2019

Инна помаліс лӧсьӧдны 1960ʼ вося "Войвыв кодзув". Босьтчис метаавны 1929ʼ августся "Югыд туй".

Леналӧн метаавсис 1929 вося "Ордым"  (№№1-9).

Выявились проблема со ссылками в словаре. Дабы избежать введения тройного слоя в словарной статье летом были устранены рубрикации типа "1)", а ссылки остались прежними. При этом в тестовом плане были реализованы два решения тройного слоя: 1. разделить на отдельные словарные статья (омонимы) наречия и послелоги, 2. ввести рубрикацию типа 2.1, 2.2. В конечном итоге победил второй подход. Но в рамках реализации первого были уже проведены некоторые изменения. Сегодня  такие случаи были унифицированы по второму принципу. Далее надо переработать ссылки.

Сӧвет

опубликовал Öньö Лав в 12:48 04.09.2019

Переводчики подсказали по проблеме "link": в случае ссылки на основное слово в словаре употреблять фразу  "вариант слова ...".

При главном слове добавить "Вариативные формы:"

Синонимы - это отдельный случай.

Лена сетіс экзамен вит вылӧ.

Босьтчи тэчасавны молодцов дикын 1920ʼ воясысь чукӧртӧм лексика.

Лӧсьӧді коми программаяс да мый да Сыктывкарса 1№-а школаысь коми велӧдысь Педӧр Леналы.

Правки

опубликовал Дмитрий Левченко в 15:03 03.09.2019

Контекстный словарь:

1. api.fu-lab.ru перенесен на основной сервер ..2.238

2. Добавлен поиск слов с дефисом по точному совпадению и с нахождением леммы

3. Частично реализован функционал с атрибутом "link"

4. Введен класс myMongo

Test

опубликовал Дмитрий Левченко в 14:51 03.09.2019

авко аддзан адз водзыг водзых тринькнитны таб

кыдзик

опубликовал Öньö Лав в 9:54 03.09.2019

  • Талун гӧгӧрвоӧді удмурт уджъёртлы, мыйджык колӧ вӧчны гижӧдын тексталӧм бӧрын.
  • Попап кывкудйын корсьысим, кыдзи лӧсьӧдны link-яс: кыдзик, кыдзикӧн, кыдзи, кыдз, олан-вылан джиан дживкъявны дживъявны дзизъявны джувкнитны джудждалун джудждӧс джумгӧр джутны джуӧдны джутсьыны джыджъявны джыджвидзны дзажгыны дзазгыны раммӧма-нюкыртчӧма дзабравны бать-мам бать-мамыслы батькӧд-мамкӧд кызӧдны бырӧм водзӧ водзын дорс. Висер Кипиёва вӧрзьывны кокйыны вӧд
  • Вой кежлӧ редактируйті ӧткымын юкӧн Покровскӧй историяысь.
Куим лун

опубликовал Öньö Лав в 21:14 02.09.2019

  • Шойччан лунъясӧн Покровскӧй история текставсис, вӧлӧма вывті на и ичӧт. Текстыс кывйысь кывйӧ вуджӧдантор, тырыс роч да мыйтакӧ неология: висьтовтас (повествование), чукӧртас (собрание [сочинений]), ылӧданлун (обманчивость), ассямлун (искусственность), подувтас (фундамент), асвыйӧна (самостоятельный), тӧдчӧс (признак), видлӧг (опыт, исследование), вежӧрсям (сознание), кыпӧдас (подкрепление), йӧзкост оланног тӧдмалан наука (социология)...
  • Талун вӧчи куим номер "Югыд туй" 08-30, 09-01, 09-02. Ветлі лӧсьӧдны коми раскладка да ЛибреОффис спеллер Маршак небӧгаинса выль уджалысь Мариналы.
  • Петісны шойччӧм бӧрын Лена да Инна.
  • Лена пасъялӧ аттрибутъясӧн кывкудйысь фразеология да шусьӧг-казьтӧд-нӧдкыв.
  • Инна лӧсьӧдӧ Наталысь 1960 вося "Войвыв кодзув".
  • Катя перйӧ текст бӧръя "Коми му" да "Йӧлӧгаысь".
  • Как пишет Настя, в небӧгаине пропадают отдельные произведения, например это.  Можно ли восстановить?
     
Пятница - лучший день рабочей недели

опубликовал Дмитрий Левченко в 16:45 30.08.2019

Пятница на удивление оказалась продуктивным днём...

 

Новое в контекстном словаре:

1. Добавлена иконка загрузки

2. Добавлена возможность поиска по отдельным словам (до 3х слов)

3. Добавлена функция определения словосочетаний из 2х и 3х слов

4. Добавлены элементы оформления

 

Исправлено:

1. Проблемы работоспособности инструментов fu-lab.ru (из-за https)

2. Проблемы программы-парсера при импорте вложенных тегов в БД MongoDB

3. Ошибки работоспособности контекстного словаря на vk.com

Хроника

опубликовал Öньö Лав в 23:35 29.08.2019

  • Сёрнитім Катя-Викакӧд, кыдзи сэсся водзмӧстны коми кыв. Кывкӧртӧдъяс: коми пимслер, коми кыв быд лун йӧзкостса везйӧ, коми презенташкаяс шуйга темаяс вылӧ.
  • Бара тексталі Покровскӧйлысь история, лист бок кызь вӧчи, сэсся винда мӧдӧдчис кузь перезагрузкаӧ.
  • Адзим кӧсъякъяс кывкуд базаын, торкӧма нумерациия 11>1 да м. т. Колӧ ставсӧ выльысь видзӧдны.
  • Сеті Катюшалы вӧчны метаразметка Югыд туй 1929 юль. Юргижӧдъяс кузя сылӧн юалӧмъяс: тшӧкыда татшӧм позицияын некымын сёрникузяӧн овлӧ да.
  • Обнаружена проблема в Молодцовском конверторе, конвертация не осуществляется (https?)
Войвыв кодзув - 1960

опубликовал Öньö Лав в 18:34 28.08.2019

Тӧрыт С. Ната вайис 1960ʼ вося "Войвыв кодзув" журналысь тексталӧмсӧ. Колӧ вӧчны метаразметка да спеллеравны. Пукті to Innush.

Югыд туй

опубликовал Öньö Лав в 18:11 28.08.2019

С июня ведем работу по переводу в текстовой формат изданий "Југыԁ туј" (1928-) и "Орԁым" (1926-1930). Цель - пополнение молодцовского корпуса и размещение в небӧгаине текстов 1920 годов по различной тематике.

К настоящему времени распознаны номера журнала "Ордым" за 1926-28 гг., и номера 1-9, 11 за 1929 г.  Откорректированы все номера за 1926, 1927 и первую половину 1928 года.  Метаразметка сделана для всех номеров 1926-1928 гг.

По газете "Югыд туй" распознаны все номера за первую половину июня, июль и август 1929 г. (до 28.08). Необходимо сделать метаразметку и откорректировать тексты.

Улучшено позиционирование

опубликовал Дмитрий Левченко в 15:27 28.08.2019

Переписан принцип определения позиции выделенного слова в контекстном словаре, теперь всплывающее окно имеет правильные координаты.

Странная активность...

опубликовал Дмитрий Левченко в 9:39 28.08.2019

22 и 27 августа наблюдалась очень странная активность от наших китайских друзей..К чему бы это?

Власов

опубликовал Öньö Лав в 16:55 27.08.2019

Вчера получено разрешение от правообладателя на размещение произведений В. И. Власова в небӧгаине. Вчера вечером и сегодня загрузил почти все его стихи.

 

HTTPS

опубликовал Дмитрий Левченко в 16:44 27.08.2019

Сайт fu-lab.ru и все поддомены перешли на протокол https. Ура товарищи!

Запущен блог

опубликовал Дмитрий Левченко в 16:36 27.08.2019

Разработан и запущен блог для всех сотрудников Fu-Lab. Надеюсь он нам поможет не забывать вчерашний день =) 

Яндекс.Метрика