FU-Lab 2022.04.04-2022.04.08

опубликовал Öньö Лав в 21:39 07.04.2022

В общий отчет по ЦИЯТ ГАУ РК "ДДН РК" от FU-Lab за период 2022.04.04-2022.04.08.

 

  1.  
  2. Завершение создания метаразметок к новостным текстам радио "Коми гор" за 2020 г. Выдление в отдельный файл русскоязычного контента  для дальнейшего выравнивания с коми эквивалентом.
  3. Продолжение перевода с коми языка на русский текстов в жанре "репортаж" по материалам радио "Коми гор" за 2018 и 2019 гг.
  4. Правка новостных текстов и создание метаразметок к новостным текстам радио "Коми гор" за 2017 г.
  5. Сканирование, обработка  в программе ABBYY FineReader и создание pdf версии нового книжного издания "Вын" (2022).
  6. Извлечение из pdf файла текстов свежих номеров газеты "Коми му" (2022 №14) и журнала "Йӧлӧга" (2022 №3), обработка текстов в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов).
  7. Распознавание текста журнала "Коми Республикаса государственнӧй власть органъяслӧн индӧд-тшӧктӧмъяс" (1996. №10), обработка текстов в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов).
  8. Добавление в корпус коми языка текстов, указанных в пп. 6-7. Обновление корпуса.
  9. Заполнение wiki-страниц по отдельным номерам журнала "Войвыв кодзув" (2021. №10-12) и журнала "Ударник" (1940. №1-12)  на сайте "Коми тӧданін".
  10. Добавление в молодцовский корпус текстов комиязычных номеров газеты "Југыԁ туј" за 1924-05-05  и 1924-05-09, их размещение в переводе на современную графику в Коми онлайн библиотеке "Коми гижӧд".
  11. Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.
  12. Редактирование индексации лексики в файле komi.dic спелл-чекера Hunspell.
  13. Распространение комиязычного контента в соц. сетях.
  14. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.
FU-Lab 2022.03.28-2022.04.01

опубликовал Öньö Лав в 21:15 31.03.2022

В общий отчет по ЦИЯТ ГАУ РК "ДДН РК" от FU-Lab за период 2022.03.28-2022.04.01.

  1.  
  2. Продолжение перевода с коми языка на русский текстов в жанре "репортаж" по материалам радио "Коми гор" за 2018 г. и начало аналогичной работы по текстам 2019 г.
  3. Сборка новостных текстов радио "Коми гор" за 2020 г. и создание первичных метаразметок к текстам.
  4. Распознавание в программе ABBYY FineReader текстов №№2-7, 10-12 журнала "Ударник" за 1940 г., обработка текстов в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов).
  5. Извлечение из pdf файла текстов свежих номеров газеты "Коми му" (2022 №13), журналов "Йӧлӧга" (2022 №2) и "Войвыв кодзув" (2021 №№10-12), обработка текстов в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов).
  6. Загрузка вновь полученных текстов в корпус коми языка. Обновление корпуса.
  7. Добавление в молодцовский корпус текстов комиязычного номера газеты "Југыԁ туј" за 1924-05-01 и их размещение в переводе на современную графику в Коми онлайн библиотеке "Коми гижӧд".
  8. Работа с практикантами - студентами Института точных наук и информационных технологий ФГБОУ ВПО "Сыктывкарский государственный университет им. Питирима Сорокина".
  9. Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.
  10. Распространение комиязычного контента в соц. сетях.
  11. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.
2022ʼ вося медводдза кварталысь отчётӧ FU-Lab-лӧн пай

опубликовал Öньö Лав в 13:55 25.03.2022

2. Подготовка к созданию корпуса параллельных текстов (пара коми-русский) для локализации и онлайн-переводчика

2.1. Создание общих файлов tran_ru.txt и tran_kv.txt по собранным в 2021 году параллельным текстам художественной литературы на коми и русском языках, выравнивание строк в текстах указанных файлов в программе WinMerge. 84667 строк.
2.2. Создание файлов nt_ru.txt  и nt_kv.txt c текстами Нового завета на коми и русском языках (предварительное устранение нумерации, несовпадающих заголовков и т. п., унификация формата в программе gedit), выравнивание текстов на двух языках в программе WinMerge. 9014 строк.
2.3. Сбор русскоязычного материала сайта "Изьватас" и его выравнивание с коми переводом для корпуса параллельных текстов. 1073 строк.
2.4. Сбор материала для локализации муниципальных сайтов и сайтов государственных и муниципальных учреждений по ресурсам МО ГО Сыктывкар,  Сысольского, Усть-Куломского, Ижемского и Печорского районов.
2.5. Перевод материалов по истории с офиц. сайтов Ижемского и Печорского районов, а также материалов по  сельским поселениям с официального сайта  Ижемского района и сельских поселений Усть-Куломского района. 1337 строк.
2.6. Сборка текстов новостной ленты официальных порталов Республики Коми на коми и русском языках за декабрь 2012 – февраль 2022 года; выравнивание коми и русского эквивалента в программе WinMerge. 1350 строк
2.7. Сборка новостных текстов радио "Коми гор" на коми и русскоми языках за 2018 и 2019 гг., предоставленных ГТРК "Коми гор". Создание первичных метаразметок к текстам и их первичная обработка.  Перевод с коми на русский текстов в жанре "репортаж" по материалам радио "Коми гор" за 2018 г. По 2017 году произведено выдление в отдельный файл русскоязычного контента для дальнейшего выравнивания с коми текстом.
2.8. Изучение механизма локализации ОС Linux.

3. Текстовое пополнение и техническая оптимизация Корпуса коми языка:

3.1. Сканирование, обработка сканов и создания pdf-файлов по изданиям: О. И. Уляшев. "Кад пыр верзьӧмӧн" (2019), О. И. Уляшев. "Зарни бобув" (2021), "Долыд олан кад (1997), "Гажӧдчыштам" (2001), "Быдмӧм мывкыдӧн да авъяӧн" (2005), "Тӧдмӧдам челядьӧс вӧр-ваӧн" (2005), "Ӧтисянь дасӧдз" (2000)‎‎, "Вильышпоз" (2000).
3.2. Распознавание в программе ABBYY Fine Reader, обработка в программе LibreOffice (проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) текстов изданиий: О. И. Уляшев "Зарни бобув" (2021), Е. А. Игушев.  "Коми кывлӧн стилистика" (2003), "Долыд олан кад (1997), "Гажӧдчыштам" (2001), "Быдмӧм мывкыдӧн да авъяӧн" (2005), "Тӧдмӧдам челядьӧс вӧр-ваӧн" (2005), "Ӧтисянь дасӧдз" (2000)‎‎, "Вильышпоз" (2000), текстов журнала "Ударник" за 1940 г. (№1, 8-9).
3.3. Обработка (проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) ранее распознанных текстов: К. Королёв. "Важ нэмъяслӧн гусяторъяс" (2006) и №№2-12 журнала "Войвыв кодзув" за 1962 год;
3.4. Вычитка и корректирование художественных текстов журнала "Войвыв кодзув" (№№ 7, 8, 11, 12 за 1975 г.),  текстов произведений В. Юхнина (публицистические, литературоведческие и драматические произведения), Е. А. Игушева из изданий "Чужан кыв — менам олӧм да вӧт" (1988) и "Коми кывйыс гажаджык на биысь" (1998).
3.5. Сравнение и корректирование в программе Meld двух редакций романа В. Юхнина "Шувгӧны пожӧмъяс" (1961 и 2007 гг.).
3.6. Извлечение из pdf файлов, обработка в программе LibreOffice (выравнивание абзацев, проверка орфографии, метаразметка, расстановка языковых тэгов) и включение в корпус коми языка текстов свежих номеров газеты "Коми му" (2022 №№1-12) и журнала "Йӧлӧга" (2021 №12, 2022 №1).
3.7. Обработка текстов новостной ленты официальных порталов Республики Коми на коми языке за декабрь 2012 - февраль 2022 года (метаразметка, проверка текстов на орфографию в программе xed, сбор коми лексического материала для пополнения базы проверки правописания Hunspell).
3.8. Загрузка вновь полученных и откорректированных текстов в корпус коми языка. Еженедельное обновление корпуса. Объем корпуса на 25.03.2022 - 72 983 917 словоупотреблений.

4. Текстовое пополнение молодцовского корпуса:

4.1. Добавление в молодцовский корпус текстов 19 номеров газеты "Југыԁ туј" (1924-01-12, 1924-01-19, 1924-01-31, 1924-02-02, 1924-02-06, 1924-02-09, 1924-02-13, 1924-02-17, 1924-02-21, 1924-02-24, 1924-03-01, 1924-03-05, 1924-03-14, 1924-03-20, 1924-04-10, 1924-04-16, 1924-04-19, 1924-04-23 и 1924-04-26).
4.2. Регулярное обновление корпуса. Объем корпуса на 25.03.2022 -  1 825 699 словоупотреблений.

5. Создание и пополнение коми-пермяцкого корпуса:

5.1. Создание коми-пермяцкого раздела корпуса коми языка на основе текстов оригинальной художественной литературы (1921-2004 гг.).
5.2. Пополнение коми-пермяцкого корпуса текстами еженедельника "Кама кытшын" за 2019-20 гг.,  переводов на коми-пермяцкий язык по изданиям 1940-60 гг.,  учебников 1930-40 гг. и готовыми текстами молодцовского и латинского периода на современной графике. Метаразметка текстов.
5.3. Разпознавание текста на коми латинице издания "Priroda tədmalan kꞑiga. 5-ət vo" (1932).
5.4. Регулярное обновление корпуса. Объем на 25.03.2022 -  6 112 702 словоупотреблений.

6. Пополнение онлайн библиотеки "Коми гижӧд":

6.1. Размещение в онлайн библиотеке текстов произведений Е. А. Игушева из изданий "Чужан кыв — менам олӧм да вӧт" (1988), "Коми кывйыс гажаджык на биысь" (1998) и "Коми кывлӧн стилистика" (2003).
6.2. Размещение в онлайн библиотеке текстов произведений В. Юхнина по изданиям "Висьтъяс да очеркъяс" (1961), "Дінъёльса вӧрпункт" (1983), "Герой йылысь сказ" (1945), а также текстов того же автора, опубликованных в журналах "Войвыв кодзув" и "Ударник".
6.3. Размещение в коми онлайн библиотеке текстов произведений В. Лодыгина из издания "Лӧсас" (2013).
6.4. Размещение в онлайн библиотеке всех текстов комиязычных номеров газеты "Југыԁ туј" за январь-апрель 1924 года в переводе на современную графику.
6.5. Размещение в коми онлайн библиотеке «Коми гижӧд» (http://komikyv.org) аудиоматериала к текстам произведений коми писателей, предоставленного С. Г. Горчаковой (6-7 класс).
6.6. За отчетный период количество текстов в библиотеке возросло на 336 единиц.

7. Библиографическое пополнение справочного wiki-ресурса "Коми тӧданін":

7.1. Создание и заполнение информационных wiki-страниц по 9 изданиям: "Дневник Николая Фёдоровича Терентьева" (2021), "Долыд олан кад" (1997), "Ӧтисянь дасӧдз" (2000), "Гажӧдчыштам" (2001), "Быдмӧм мывкыдӧн да авъяӧн" (2005), "Тӧдмӧдам челядьӧс вӧр-ваӧн" (2005),  "Вильышпоз" (2000) , "Вын" (2022) и "Г. Бутырева. Ӧти бипур дорын" (2021), пополнение библиографии на страницах авторов данных изданий.
7.2. Создание и заполнение страниц по 19 комиязычным номерам газеты "Југыԁ туј" за январь-апрель 1924 года с добавлением ссылок на тексты статей из этих номеров, размещенные в онлайн-библиотеке "Коми гижӧд".
7.3. Добавление ссылок на произведения, размещенные в онлайн-библиотеке "Коми гижӧд", с wiki-страниц авторов Е. А. Игушев, В. Лодыгин и В. Юхнин.
7.4. Внесение информации о корректуре на wiki-страницы, посвященные №№2-12 журнала "Войвыв кодзув" за 1962 год.
7.5. Пополнение библиографии периодики содержанием номеров газеты «Коми му» (2022 г., № 39-52) и журнала «Йӧлӧга» (2021 г., № 9-11).
7.6. Дополнение указателя публикаций в журнале "Арт" материалом №№1, 3, 4 за 2020 г. и №№1-12 за 2021 гг.
7.7. Добавление изображений на страницы wiki-ресурса "Коми тӧданін", посвященные отдельным изданиям (+10).

8. Пополнение лексической базы FU-Lab":

8.1. Сортировка объединенного списка названий организаций и учреждений, созданного по материалам выполненных заявок БОП за 2012–2021 гг.; обработка общего списка (устранение вновь выявленных повторов, уточнение названий по данным официальных сайтов), создание разметки xml и загрузка "Русско-коми словаря названий организаций и учреждений" (3224 словарные статьи) на сайт Онлайн словари FU-Lab, редактирование онлайн версии словаря, унификация подачи аналогичных случаев.
8.2. Сбор и перевод на коми язык дополнительных названий республиканских и муниципальных учреждений и организаций  Республики Коми, а также названий их отделов и филиалов, не попавших в список, составленный по материалам выполненных заявок БОП за 2012–2021 гг.
8.3. Редактирование новых словарных статей для "Русско-коми словаря названий организаций и учреждений".
8.4. Выработка предложений для Коми РТОК по отдельным проблемам перевода.

9. Пополнение образовательного портала "Коми кыв"

9.1. Размещение на wiki-ресурсе образовательного портала "Коми кыв" текстов методических материалов О. И. Рочевой (6 изданий).
9.2. Сегментация в программе Sound Forge аудиматериала учебников Е. Н. Вязовой и  А. В. Сизовой "Коми кыв" для 3 и 4 классов, привязка аудио к текстам учебника на сайте http://audio.komikyv.ru.
9.3. Создание и обработка (добавление аудиоссылок на имеющийся озвученный материал, создание списка фраз для озвучки) текста онлайн версии разговорника "Сёрнитыштам ёртӧй" (2021) для образовательного портала "Коми кыв", начало работы по добавлению к разговорнику аудиоматериала.
9.4. Пополнение тематических разделов Коми-русского разговорника FU-Lab за счет дополнительных слов и фраз, представленных в «Русско-коми разговорнике» 2021 года.

10. Пополнение лингвистического сайта "Коми кыв"

10.1. Создание и обработка wiki-версии издания "Секреты коми языка" (2020) на wiki-ресурсе "Коми лингвистика".
10.2. Размещение информационных материалов по событиям сектора языка ИЯЛИ ФИЦ "КНЦ УрО РАН".

11. Пополнение коми аудиокорпуса:

11.1. Добавление в аудиобазу лаборатории файлов с выпусками радиопередачи "Миян кад" за ноябрь-декабрь 2021 г. и аудиофайлов с художественными текстами, предоставленными С. Г. Горчаковой.

12. Пополнение словарной базы средства проверки правописания Hunspell:

12.1. Сбор новой лексики из коми текстов, обработанных в лаборатории в течение отчетного периода.
12.2. Сортировка и индексация новой лексики, включение ее в коми словарную базу вариативной версии Hunspell.
12.3. Обновление лексической базы коми (вариативного) спелера в Онлайн-сервисе проверки орфографии

13. Работа с практикантами:

13.1. Ознакомление практикантов с деятельностью ЦИЯТ.
13.2. Опредление конкретных заданий для практикантов в рамках прохождения практики.

14. Участие в мероприятиях:

14.1. Участие в мероприятии «Ӧтувъя коми диктант».
14.2. Выступление на межрегиональной научно-практической онлайн конференции "Диалог культур — ценность гражданско-патриотического воспитания". Пермь-Кудымкар-Кочево, 17.02.2022 с информацией о комплексе комиязчычных онлайн ресурсов и перспективах его расширения за счет коми-пермяцкого материала.
14.3. Участие в трех вебинарах, организованных ГОУ ДПО "Коми республиканский институт развития образования": ознакомление слушателей с порядком установки коми раскладкок клавиатуры, особенностями функционирования и возможностями использования онлайн библиотеки "Коми гижӧд" и образовательного портала "Коми кыв".

15. Распространение комиязычного контента в соц. сетях.

16. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.

2022ʼ рака тӧлысся отчётӧ FU-Lab-лӧн пай

опубликовал Öньö Лав в 11:58 25.03.2022

 

2. Подготовка к созданию корпуса параллельных текстов (пара коми-русский) в рамках создания параллельного корпуса (kv-ru) и локализации сайтов:
2.1. Перевод и редактирование текстовых материалов с сайтов восьми сельских поселений Усть-Куломского района (Кужба, Пожег, Помоздино, Руч, Аныб, Усть-Нем, Усть-Кулом, Нижний Воч)
2.2. Сборка текстов новостной ленты официальных порталов Республики Коми на коми и русском языках за декабрь 2012 – февраль 2022 года, метаразметка, проверка текстов на орфографию в программе xed, сбор коми лексического материала для пополнения базы проверки правописания Hunspell; выравнивание коми и русского эквивалента в программе WinMerge.
2.3. Сборка новостных текстов радио "Коми гор" на коми и русскоми языках за 2018 и 2019 гг., предоставленных ГТРК "Коми гор" для включения в корпус коми языка и создания базы параллельного корпуса (kv-ru). Создание первичных метаразметок к текстам и их первичная обработка.  Перевод с коми на русский текстов в жанре "репортаж" по материалам радио "Коми гор" за 2018 г. По 2017 году произведено выдление в отдельный файл русскоязычного контента для дальнейшего выравнивания с коми текстом.

3. Текстовое пополнение и оптимизация Корпуса коми языка:

3.1. Извлечение из pdf файла текстов свежих номеров газеты "Коми му" (2022 №№8, 9, 10, 11-12) и обработка текстов в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов).
3.2. Сканирование, обработка сканов и создание pdf копии издания "Вильышпоз" (2000), распознавание текстов данного издания в программе ABBYY FineReader.
3.3. Распознавание в программе ABBYY FineReader текстов №1, 8-9 журнала "Ударник" за 1940 г.
3.4. Вычитка и корректирование художественных текстов журнала "Войвыв кодзув" №№ 7, 8, 11, 12 за 1975 г.
3.5. Вычитка и корректирование текстов произведений В. Юхнина (публицистические, литературоведческие и драматические произведения).
3.6. Сравнение и корректирование в программе Meld двух редакций романа В. Юхнина "Шувгӧны пожӧмъяс" (1961 и 2007 гг.).
3.7. Загрузка вновь полученных и откорректированных текстов в корпус коми языка. Еженедельное обновление корпуса.
3.8. В корпус также добавлены тексты новостной ленты официальных порталов Республики Коми на коми и русском языках за декабрь 2012 - февраль 2022 года.

4. Текстовое пополнение и оптимизация молодцовского корпуса:

4.1. Добавление в молодцовский корпус текстов комиязычных номеров газеты "Југыԁ туј" за 1924-03-14, 1924-03-20, 1924-04-10, 1924-04-16, 1924-04-19, 1924-04-23 и 1924-04-26.

5. Работа над пополнением коми-пермяцкого корпуса
5.1. Разпознавание текста на коми латинице издания "Priroda tədmalan kꞑiga. 5-ət vo" (1932).

6. Пополнение онлайн библиотеки "Коми гижӧд":
6.1. Вычитка и размещение в коми онлайн библиотеке текстов произведений В. Лодыгина из издания "Лӧсас" (2013): "Сьӧлӧмыд тшӧктытӧг сьылӧ..."; "Сьӧлӧм гажӧдчыны корӧ..."; "Кытшӧн йӧктам-бергалам, нимкодясям-гажӧдчам..."; "Мича нывъяслы"; "Баруня"; "Зырянка"; "Изъя шорӧ гудӧк корӧ..."; "Коръяс окасьмӧн сӧмын тӧлалӧ..."; "Тулысыс воис да, шоналім..."; "Гӧрд сикӧтша, лӧз чышъяна..."; "Мый нӧ эськӧ тайӧ лоис..."; "Мича эськӧ тайӧ зонмыс..."; "Банйис ӧшинь улын пелысь..."; "Югыд вӧлі, джуджыд вӧлі..."; "Томлун"; "Ветлі да, ветлі да раскӧдыс дыр..."; "Гашкӧ, Енмыс менӧ ёрис..."; "Тані оз, коляоз..."; "Йитіс баддя берегъяс..."; "Рака тӧлысь..."; "Вотчанінысь чышъян сюрис..."; "Тася"; "Еджыд Райда"; "Жоньыс пелысьсӧ кушӧдз кокаліс..."; "Арыс зэв нин кӧдзыд лола…"..
6.2. Размещение в коми онлайн библиотеке "Коми гижӧд" текстов публицистических, литературоведческих и драматургических произведений В. Юхнина, опубликованных в журналах "Войвыв кодзув" и "Ударник".
6.3. Размещение в Коми онлайн библиотеке "Коми гижӧд"  в переводе на современную графику текстов комиязычных номеров газеты "Југыԁ туј" за 1924-03-14, 1924-03-20, 1924-04-10, 1924-04-16, 1924-04-19, 1924-04-23, 1924-04-26.

7. Библиографическое пополнение справочного wiki-ресурса "Коми тӧданін":
7.1. Создание и заполнение wiki-страниц, посвященных комиязчыным книжным изданиям  "Вильышпоз" (2000) , "Вын" (2022) и "Г. Бутырева. Ӧти бипур дорын" (2021), пополнение библиографии на страницах авторов данных изданий.
7.2. Создание ссылок на  произведений В. Лодыгина и В. Юхнина, размещенные в текущем месяце в коми онлайн библиотеке "Коми гижӧд" с wiki-страниц авторов.
7.3. Дополнение указателя публикаций в журнале "Арт" материалом №№1, 3, 4 за 2020 г. и №№1-12 за 2022 гг.

8. Пополнение лексической базы для интегрального и тематических словарей :
8.1. Перевод названий организаций, учреждений и их подразделений МОМР "Усть-Куломский" и МОГО "Ухта", в дополнение к имеющимся словарным статьям для "Русско-коми словаря названий организаций и учреждений" на сайте Онлайн словари FU-Lab и оформление разметки материала для последующей публикации.
8.2. Редактирование новых словарных статей для "Русско-коми словаря названий организаций и учреждений".

9. Образовательный портал Коми кыв
9.1. Продолжение обработки (добавление аудиоссылок на имеющийся озвученный материал, создание списка фраз для озвучки) текста онлайн версии «Русско-коми разговорника» (2021) на сайте audio.komikyv.ru для дальнейшего подключения аудиоматериалов
9.2. Пополнение тематических разделов Коми-русского разговорника FU-Lab за счет дополнительных слов и фраз, представленных в «Русско-коми разговорнике» 2021 года.

10. Работа с практикантами
10.1 Работа с практикантами - студентами Института точных наук и информационных технологий ФГБОУ ВПО "Сыктывкарский государственный университет им. Питирима Сорокина".

11. Участие в мероприятиях
11.1. Участие в вебинарах, организованных ГОУ ДПО "Коми республиканский институт развития образования": ознакомление слушателей с особенностями функционирования и возможностями использования онлайн библиотеки "Коми гижӧд" и образовательного портала "Коми кыв".
11.2. Участие в мероприятии «Ӧтувъя коми диктант».

12. Пополнение словарной базы средства проверки правописания Hunspell:
12.1. Сбор новой лексики из коми текстов, обработанных в лаборатории в течение месяца.
12.2. Сортировка и индексация новой лексики, включение ее в коми словарную базу вариативной версии Hunspell.

13. Распространение комиязычного контента в соц. сетях.

14. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.

FU-Lab 2022.03.21-2022.03.25

опубликовал Öньö Лав в 17:15 24.03.2022

В общий отчет по ЦИЯТ ГАУ РК "ДДН РК" от FU-Lab за период 2022.03.21-2022.03.25.

  1.  
  2. Распознавание в программе ABBYY FineReader текстов издания "Вильышпоз" (2000), а также №1, 8-9 журнала "Ударник" за 1940 г.
  3. Вычитка, корректирование и размещение в коми онлайн библиотеке "Коми гижӧд" текстов публицистических, литературоведческих и драматических произведений В. Юхнина. Создание ссылок на данные публикации с wiki-страницы автора в справочном wiki-ресурсе "Коми тӧданін".
  4. Сравнение и корректирование в программе Meld двух редакций романа В. Юхнина "Шувгӧны пожӧмъяс" (1961 и 2007 гг.). Размещение откорректированного текста данного произведения в коми онлайн библиотеке "Коми гижӧд".
  5. Продолжение перевода с коми языка на русский текстов в жанре "репортаж" по материалам радио "Коми гор" за 2018 г.
  6. Завершение создания первичных метаразметок к новостным текстам радио "Коми гор" за 2019 г., выдление в отдельный файл русскоязычного контента для дальнейшего выравнивания с коми текстом.
  7. Создание и заполнение в справочном wiki-ресурсе "Коми тӧданін" информационных wiki-страниц по новым  комиязчыным книжным изданиям: "Вын" (2022) и "Г. Бутырева. Ӧти бипур дорын" (2021), пополнение библиографии на страницах авторов данных изданий.
  8. Извлечение из pdf файла текстов свежего номера газеты "Коми му" (2022 №11-12) и обработка текстов в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов).
  9. Загрузка вновь полученных и откорректированных текстов в корпус коми языка. Обновление корпуса.
  10. Добавление в молодцовский корпус текстов комиязычных номеров газеты "Југыԁ туј" за 1924-04-23, 1924-04-26 и их размещение в переводе на современную графику в Коми онлайн библиотеке "Коми гижӧд".
  11. Продолжение разпознавания текста на коми латинице издания "Priroda tədmalan kꞑiga. 5-ət vo" (1932) для пермяцкого раздела корпуса коми языка.
  12. Дополнение указателя публикаций в журнале "Арт" материалом №№1, 3, 4 за 2020 г. и №№1-12 за 2022 гг.  в справочном wiki-ресурсе "Коми тӧданін".
  13. Редактирование новых словарных статей для "Русско-коми словаря названий организаций и учреждений".
  14. Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.
  15. Распространение комиязычного контента в соц. сетях.
  16. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.
FU-Lab 2022.03.14-2022.03.18

опубликовал Öньö Лав в 10:36 18.03.2022

В общий отчет по ЦИЯТ ГАУ РК "ДДН РК" от FU-Lab за период 2022.03.14-2022.03.18.
     

 

  1.  
  2. Завершение перевода названий организаций и учреждений МОГО "Ухта" в дополнение к имеющимся в словарных статьях "Русско-коми словаря названий организаций и учреждений" названиям; оформление разметки материала для последующей публикации на сайте Онлайн словари FU-Lab.
  3. Сборка новостных текстов радио "Коми гор" за 2019 г., предоставленных ГТРК "Коми гор" для включения в корпус коми языка и создания базы параллельного корпуса (kv-ru).
  4. Создание первичных метаразметок к текстам радио "Коми гор" за 2018 и 2019 гг., первичная обработка текстов.
  5. Перевод с коми на русский текстов в жанре "репортаж" по материалам радио "Коми гор" за 2018 г.
  6. Извлечение из pdf файла текстов свежего номера газеты "Коми му" (2022 №10), обработка текстов в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) и их загрузка в корпус коми языка.    
  7. Добавление в молодцовский корпус текстов комиязычного номера газеты "Југыԁ туј" за 1924-04-19 и их размещение в переводе на современную графику в Коми онлайн библиотеке "Коми гижӧд".
  8. Продолжение разпознавания текста на коми латинице издания "Priroda tədmalan kꞑiga. 5-ət vo" (1932) для пермяцкого раздела корпуса коми языка.
  9. Сканирование, обработка сканов и создание pdf копии издания "Вильышпоз" (2000), создание страницы посвященной данному изданию на справочном wiki-ресурсе "Коми тӧданін"
  10. Работа с практикантами - студентами Института точных наук и информационных технологий ФГБОУ ВПО "Сыктывкарский государственный университет им. Питирима Сорокина".
  11. Участие в вебинарах, организованных ГОУ ДПО "Коми республиканский институт развития образования": ознакомление слушателей с особенностями функционирования и возможностями использования онлайн библиотеки "Коми гижӧд" и образовательного портала "Коми кыв".
  12. Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.
  13. Распространение комиязычного контента в соц. сетях.
  14. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.
FU-Lab 2022.03.07-2022.03.11

опубликовал Öньö Лав в 10:31 11.03.2022

В общий отчет по ЦИЯТ ГАУ РК "ДДН РК" от FU-Lab за период 2022.03.07-2022.03.11.

  1.  
  2. Продолжение перевода названий организаций и учреждений МОГО "Ухта" в дополнение к имеющимся в словарных статьях "Русско-коми словаря названий организаций и учреждений" названиям; оформление разметки материала для последующей публикации на сайте Онлайн словари FU-Lab.
  3. Перевод и редактирование текстовых материалов с сайтов трех сельских поселений Усть-Куломского района (Усть-Нем, Усть-Кулом, Нижний Воч) в рамках создания параллельного корпуса (kv-ru) и локализации сайтов.
  4. Сборка новостных текстов радио "Коми гор" на коми и русскоми языках за 2018 г., предоставленных ГТРК "Коми гор" для включения в корпус коми языка и создания базы параллельного корпуса (kv-ru).
  5. Сборка текстов новостной ленты официальных порталов Республики Коми на коми и русском языках за январь-февраль 2022 года, метаразметка, проверка текстов на орфографию в программе xed, сбор коми лексического материала для пополнения базы проверки правописания Hunspell; выравнивание коми и русского эквивалента в программе WinMerge.
  6. Извлечение из pdf файла текстов свежего номера газеты "Коми му" (2022 №9), обработка текстов в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) и их загрузка в корпус коми языка.    
  7. Добавление в молодцовский корпус текстов комиязычных номеров газеты "Југыԁ туј" за 1924-04-10  и 1924-04-16 и их размещение в переводе на современную графику в Коми онлайн библиотеке "Коми гижӧд".
  8. Продолжение разпознавания текста на коми латинице издания "Priroda tədmalan kꞑiga. 5-ət vo" (1932) для пермяцкого раздела корпуса коми языка.
  9. Продолжение обработки (добавление аудиоссылок на имеющийся озвученный материал, создание списка фраз для озвучки) текста онлайн версии «Русско-коми разговорника» (2021) на сайте audio.komikyv.ru для дальнейшего подключения аудиоматериалов
  10. Пополнение тематических разделов Коми-русского разговорника FU-Lab за счет дополнительных слов и фраз, представленных в «Русско-коми разговорнике» 2021 года.
  11. Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.
  12. Распространение комиязычного контента в соц. сетях.
  13. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.
FU-Lab 2022.02.28-2022.03.04

опубликовал Öньö Лав в 10:54 05.03.2022

В общий отчет по ЦИЯТ ГАУ РК "ДДН РК" от FU-Lab за период 2022.02.28-2022.03.04

 

  1.  
  2. Перевод и редактирование названий организаций, учреждений и их подразделений МОМР "Усть-Куломский" и МОГО "Ухта", в дополнение к имеющимся словарным статьям для "Русско-коми словаря названий организаций и учреждений" на сайте Онлайн словари FU-Lab и оформление разметки материала для последующей публикации.
  3. Перевод и редактирование текстовых материалов с сайтов пяти сельских поселений Усть-Куломского района (Кужба, Пожег, Помоздино, Руч, Аныб) в рамках создания параллельного корпуса (kv-ru) и локализации сайтов.
  4. Продолжение обработки (добавление аудиоссылок на имеющийся озвученный материал, создание списка фраз для озвучки) текста онлайн версии «Русско-коми разговорника» (2021) на сайте audio.komikyv.ru для дальнейшего подключения аудиоматериалов.
  5. Вычитка и размещение в коми онлайн библиотеке текстов произведений В. Лодыгина из издания "Лӧсас" (2013): "Сьӧлӧмыд тшӧктытӧг сьылӧ..."; "Сьӧлӧм гажӧдчыны корӧ..."; "Кытшӧн йӧктам-бергалам, нимкодясям-гажӧдчам..."; "Мича нывъяслы"; "Баруня"; "Зырянка"; "Изъя шорӧ гудӧк корӧ..."; "Коръяс окасьмӧн сӧмын тӧлалӧ..."; "Тулысыс воис да, шоналім..."; "Гӧрд сикӧтша, лӧз чышъяна..."; "Мый нӧ эськӧ тайӧ лоис..."; "Мича эськӧ тайӧ зонмыс..."; "Банйис ӧшинь улын пелысь..."; "Югыд вӧлі, джуджыд вӧлі..."; "Томлун"; "Ветлі да, ветлі да раскӧдыс дыр..."; "Гашкӧ, Енмыс менӧ ёрис..."; "Тані оз, коляоз..."; "Йитіс баддя берегъяс..."; "Рака тӧлысь..."; "Вотчанінысь чышъян сюрис..."; "Тася"; "Еджыд Райда"; "Жоньыс пелысьсӧ кушӧдз кокаліс..."; "Арыс зэв нин кӧдзыд лола…".. Создание ссылок на публикации с wiki-страницы автора на справочном wiki-ресурсе "Коми тӧданін".
  6. Извлечение из pdf файла текстов свежего номера газеты "Коми му" (2022 №8), обработка текстов в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) и их загрузка в корпус коми языка.    
  7. Корректура текстов журнала "Войвыв кодзув" №№ 7, 8, 11, 12 за 1975 г. в корпусе коми языка.
  8. Добавление в молодцовский корпус текстов комиязычных номеров газеты "Југыԁ туј" за 1924-03-14 и 1924-03-20 и их размещение в переводе на современную графику в Коми онлайн библиотеке "Коми гижӧд".
  9. Разпознавание текста на коми латинице издания "Priroda tədmalan kꞑiga. 5-ət vo" (1932) для пермяцкого раздела корпуса коми языка.
  10. Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.
  11. Распространение комиязычного контента в соц. сетях.
  12. Участие в мероприятии «Ӧтувъя коми диктант».
  13. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.
2022ʼ урасьӧмся отчётӧ FU-Lab-лӧн пай

опубликовал Öньö Лав в 22:03 24.02.2022

2. Подготовка к созданию корпуса параллельных текстов (пара коми-русский) и локализация:

2.1. Сбор русскоязычного материала сайта "Изьватас" и его выравнивание с коми переводом для корпуса параллельных текстов.
2.2. Сбор материала для локализации муниципальных сайтов и сайтов государственных и муниципальных учреждений по ресурсам МО ГО Сыктывкар,  Сысольского, Усть-Куломского, Ижемского и Печорского районов.
2.3. Перевод материалов по истории с офиц. сайтов Ижемского и Печорского районов, а также материалов по  сельским поселениям с официального сайта  Ижемского района и сельских поселений Усть-Куломского района.
2.4. Изучение механизма локализации ОС Linux.

3. Текстовое пополнение Корпуса коми языка:
3.1. Извлечение из pdf файла текстов свежих номеров газеты "Коми му" (2022 №3-7) и журнала "Йӧлӧга" (2021 №12, 2022 №1) и их обработка в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов)
3.2. Обработка (проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) распознанных текстов "К. Королёв. Важ нэмъяслӧн гусяторъяс" (2006) и №№2-12 журнала "Войвыв кодзув" за 1962 год;
3.3. Сканирование, распознавание в программе ABBYY FineReader, обработка  в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) и загрузка в корпус коми языка текстов изданий "Долыд олан кад (1997), "Гажӧдчыштам" (2001), "Быдмӧм мывкыдӧн да авъяӧн" (2005), "Тӧдмӧдам челядьӧс вӧр-ваӧн" (2005), "Ӧтисянь дасӧдз" (2000)‎‎.
3.4. Загрузка в корпус коми языка  указанных в п. 3.1-3.3. изданий и еженедельное обновление корпуса.

4. Текстовое пополнение молодцовского корпуса:
4.1. Добавление в молодцовский корпус текстов комиязычных номеров газеты "Југыԁ туј" за 1924-02-02, 1924-02-06, 1924-02-09, 1924-02-13, 1924-02-17, 1924-02-21, 1924-02-24, 1924-03-01 и 1924-03-05.

5. Создание и пополнение коми-пермяцкого корпуса:
Создание коми-пермяцкого раздела корпуса коми языка и пополнение его текстами оригинальной художественной литературы (1921-2004), еженедельника "Кама кытшын" за 2019-20 гг., текстов переводной литературы 1940-60 гг., текстов учебников 1930-40 гг. и готовых текстов молодцовского и латинского периода на современной графике.

6. Пополнение онлайн библиотеки "Коми гижӧд":
6.1. Размещение в коми онлайн библиотеке текстов произведений В. Юхнина по изданиям "Висьтъяс да очеркъяс" (1961) и "Дінъёльса вӧрпункт" (1983).
6.2. Размещение в коми онлайн библиотеке «Коми гижӧд» (http://komikyv.org) аудиоматериала к текстам произведений коми писателей, предоставленного С. Г. Горчаковой (6-7 класс).
6.3. Размещение в Коми онлайн библиотеке "Коми гижӧд"  в переводе на современную графику текстов комиязычных номеров газеты "Југыԁ туј" за 1924-02-02, 1924-02-06, 1924-02-09, 1924-02-13, 1924-02-17, 1924-02-21, 1924-02-24, 1924-03-01 и 1924-03-05.

7. Библиографическое пополнение справочного wiki-ресурса "Коми тӧданін":
7.1. Создание и заполнение страниц по комиязычным номерам газеты "Југыԁ туј" за 1924-02-02, 1924-02-06, 1924-02-09, 1924-02-13, 1924-02-17, 1924-02-21, 1924-02-24, 1924-03-01 и 1924-03-05 с добавлением ссылок на тексты статей из этих номеров, размещенные в онлайн-библиотеке "Коми гижӧд".
7.2. Внесение информации о корректуре на wiki-страницы, посвященные №№10-12 журнала "Войвыв кодзув" за 1962 год .
7.3. Создание и заполнение информационных wiki-страниц по изданиям "Долыд олан кад" (1997), "Ӧтисянь дасӧдз" (2000), "Гажӧдчыштам" (2001), "Быдмӧм мывкыдӧн да авъяӧн" (2005), "Тӧдмӧдам челядьӧс вӧр-ваӧн" (2005)‎‎.

8. Пополнение образовательного портала "Коми кыв"

8.1. Размещение на wiki-ресурсе образовательного портала "Коми кыв" текстов методических материалов О. И. Рочевой (6 изданий).
8.2. Сегментация в программе Sound Forge аудиматериала учебников Е. Н. Вязовой и  А. В. Сизовой "Коми кыв" для 3 и 4 классов, привязка аудио к текстам учебника на сайте http://audio.komikyv.ru.
8.3. Создание и обработка онлайн версии разговорника "Сёрнитыштам ёртӧй" (2021) для образовательного портала "Коми кыв", начало работы по добавлению к разговорнику аудиоматериала.

9. Пополнение лингвистического сайта "Коми кыв"

9.1. Создание и обработка wiki-версии издания "Секреты коми языка" (2020) на wiki-ресурсе "Коми лингвистика".
9.2. Размещение информационных материалов по событиям сектора языка ИЯЛИ ФИЦ "КНЦ УрО РАН".

10. Пополнение лексической базы словарей:
10.1. Сбор дополнительного материала по названиям учреждений, организаций и их подразделений для "Русско-коми словаря названий организаций и учреждений".
10.2. Перевод с русского языка на коми язык названий учреждений здравоохранения Республики Коми и их подразделений, а также названий муниципальных учреждений (с их подразделениями) Сыктывдинского, Усть-Куломского и Корткеросского района.
10.3. Редактирование переводов и пополнение "Русско-коми словаря названий организаций и учреждений".
10.4. Разработка предложений в ТОК по нормализации перевода ряда слов и словосочетаний с русского языка на коми.

11. Работа со студентами:
11.1. Ознакомление практикантов СГУ с деятельностью ЦИЯТ, даны первые задания в рамках прохождения практики.

12. Участие в мероприятиях:
12.1. Участие в мероприятии «Ӧтувъя коми диктант».
12.2. Выступление на межрегиональной научно-практической онлайн конференции "Диалог культур — ценность гражданско-патриотического воспитания". Пермь-Кудымкар-Кочево, 17.02.2022 с информацией о комплексе комиязчычных онлайн ресурсов и перспективах его расширения за счет коми-пермяцкого материала.

13. Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.

14. Распространение комиязычного контента в соц. сетях.
    
15. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.

FU-Lab 2022.02.21-2022.02.25

опубликовал Öньö Лав в 20:24 24.02.2022

В общий отчет по ЦИЯТ ГАУ РК "ДДН РК" от FU-Lab за период 2022.02.21-2022.02.25

  1.  
  2. Вычитка и размещение в коми онлайн библиотеке текстов очерков и рассказов В. Юхнина по изданию "Висьтъяс да очеркъяс" (1961).
  3. Извлечение из pdf файла текстов свежего номера газеты "Коми му" (2022 №7), обработка текстов в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) и их загрузка в корпус коми языка.
  4. Добавление в молодцовский корпус текстов комиязычных номеров газеты "Југыԁ туј" за 1924-03-01 и 1924-03-05 и их размещение в переводе на современную графику в Коми онлайн библиотеке "Коми гижӧд".
  5. Метаразметка и добавление в коми-пермяцкий корпус текстов учебников 1930-40 гг. и готовых текстов молодцовского и латинского периода на современной графике.
  6. Перевод и редактирование текстовых материалов по сельским поселениям с официального сайта  Ижемского района и сайтов пяти сельских поселений Усть-Куломского района.
  7. Пополнение и обновление "Русско-коми словаря названий организаций и учреждений".
  8. Завершение сегментации в программе Sound Forge и подключение аудиоматериала к странице учебника Е. Н. Вязовой и А. В. Сизовой "Коми кыв. 4 класс" (2013) на образовательном портале Коми кыв.
  9. Начало работы по аудиоматериалу к онлайн версии разговорника "Сёрнитыштам ёртӧй" (2021) на образовательном портале "Коми кыв".
  10. Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.
  11. Распространение комиязычного контента в соц. сетях.
  12. Участие в мероприятии «Ӧтувъя коми диктант».
  13. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.
FU-Lab 2022.02.14-2022.02.18

опубликовал Öньö Лав в 10:34 18.02.2022

В общий отчет по ЦИЯТ ГАУ РК "ДДН РК" от FU-Lab за период 2022.02.14-2022.02.18

 

  1.  
  2. Обработка онлайн версии разговорника "Сёрнитыштам ёртӧй" (2021) на образовательном портале "Коми кыв".
  3. Обработка wiki-версии издания "Секреты коми языка" (2020) на wiki-ресурсе "Коми лингвистика".
  4. Сканирование и распознавание текста издания "О. Рочева. Ӧтисянь дасӧдз" (2000)‎‎.  
  5. Размещение текстов методических материалов О. И. Рочевой на wiki-ресурсе образовательного портала "Коми кыв" (6 изданий).
  6. Размещение в коми онлайн библиотеке текста повести В. Юхнина "Дінъёльса вӧрпункт" (по изданию 1983 г.).
  7. Обработка и включение в корпус коми языка текста издания "К. Королёв. Важ нэмъяслӧн гусяторъяс" (2006).
  8. Извлечение из pdf файла текстов свежих номеров газеты "Коми му" (2022 №6) и журнала "Йӧлӧга" (2021 №12, 2022 №1), обработка текстов в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) и их загрузка в корпус коми языка.
  9. Добавление в молодцовский корпус текстов комиязычного номера газеты "Југыԁ туј" за 1924-02-21 и 1924-02-24 и их размещение в переводе на современную графику в Коми онлайн библиотеке "Коми гижӧд".
  10. Добавление в коми-пермяцкий корпус текстов переводной литературы 1940-60 гг.
  11. Перевод материалов по истории с офиц. сайтов Ижемского и Печорского районов, редактирование перевода.
  12. Пополнение и обновление "Русско-коми словаря названий организаций и учреждений".
  13. Сбор русскоязычного материала сайта "Изьватас" и его выравнивание с коми переводом для корпуса параллельных текстов.
  14. Сегментация в программе Sound Forge аудиоматериала учебника Е. Н. Вязовой и  А. В. Сизовой "Коми кыв. 4 класс" (2013).
  15. Выступление на межрегиональной научно-практической онлайн конференции "Диалог культур — ценность гражданско-патриотического воспитания". Пермь-Кудымкар-Кочево, 17.02.2022 с информацией о комплексе комиязчычных онлайн ресурсов и перспективах его расширения за счет коми-пермяцкого материала.
  16. Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.
  17. Распространение комиязычного контента в соц. сетях.
  18. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.
FU-Lab 2022.02.07-2022.02.11

опубликовал Öньö Лав в 10:37 11.02.2022

В общий отчет по ЦИЯТ ГАУ РК "ДДН РК" от FU-Lab за период 2022.02.07-2022.02.11

  1.  
  2. Распознавание, обработка  в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) и загрузка в корпус коми языка текстов изданий "Долыд олан кад (1997), "Гажӧдчыштам" (2001), "Быдмӧм мывкыдӧн да авъяӧн" (2005), "Тӧдмӧдам челядьӧс вӧр-ваӧн" (2005). На wiki-ресурсе "Коми тӧданін" созданы и заполнены информационные страницы по данным изданиям.
  3. Извлечение из pdf файла текстов свежего номера газеты "Коми му" (2022 №5), их обработка в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) и загрузка в корпус коми языка.
  4. Разработка онлайн версии разговорника "Сёрнитыштам ёртӧй" (2021) на образовательном портале "Коми кыв".
  5. Разработка wiki-версии издания "Секреты коми языка" (2020) на wiki-ресурсе "Коми лингвистика".
  6. Добавление в молодцовский корпус текстов комиязычного номера газеты "Југыԁ туј" за 1924-02-17 и их размещение в переводе на современную графику в Коми онлайн библиотеке "Коми гижӧд".
  7. Добавление в коми-пермяцкий корпус текстов еженедельника "Кама кытшын" за 2019-20 гг.
  8. Сбор материала для коми локализации муниципальных сайтов по ресурсам Усть-Куломского, Ижемского и Печорского районов.
  9. Тестовый перевод раздела "Общие сведения" сайта администрации МОГО "Печора".
  10. Пополнение и обновление "Русско-коми словаря названий организаций и учреждений".
  11. Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.
  12. Изучение механизма локализации ОС Linux.
  13. Ознакомление практикантов СГУ с деятельностью ЦИЯТ, даны первые задания в рамках прохождения практики.
  14. Распространение комиязычного контента в соц. сетях.
  15. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.
FU-Lab 2022.01.31-2022.02.04

опубликовал Öньö Лав в 21:47 03.02.2022

В общий отчет по ЦИЯТ ГАУ РК "ДДН РК" от FU-Lab за период 2022.01.31-2022.02.04

  1.  
  2. Завершение обработки (проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) распознанных текстов журнала "Войвыв кодзув" за 1962 год (№№10-12); информация об изменениях сделана на соответствующих страницах wiki-ресурса "Коми тӧданін".
  3. · Извлечение из pdf файла текстов свежего номера газеты "Коми му" (2022 №4) и их обработка в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов).
  4. · Добавление в корпус коми языка №№2-12 журнала "Войвыв кодзув" за 1962 год и свежего номера газеты "Коми му" (2022 №4). Обновление корпуса.
  5. · Добавление в молодцовский корпус текстов комиязычного номера газеты "Југыԁ туј" за 1924-02-13 и их размещение в переводе на современную графику в Коми онлайн библиотеке "Коми гижӧд".
  6. · Разработка предложений в ТОК по нормализации перевода ряда слов и словосочетаний с русского языка на коми.
  7. · Сбор материала для локализации муниципальных сайтов и сайтов государственных и муниципальных учреждений по ресурсам Усть-Куломского района.
  8. · Сбор дополнительного материала по названиям учреждений, организаций и их подразделений.
  9. · Перевод с русского языка на коми язык названий учреждений здравоохранения Республики Коми и их подразделений, а также названий муниципальных учреждений (с их подразделениями) Сыктывдинского и Усть-Куломского района; редактирование переводов и пополнение "Русско-коми словаря названий организаций и учреждений".
  10. · Размещение в коми онлайн библиотеке «Коми гижӧд» (http://komikyv.org)  аудиоматериала к текстам произведений коми писателей, предоставленного С. Г. Горчаковой (6-7 класс).
  11. · Сегментация в программе Sound Forge аудиматериала учебника Е. Н. Вязовой и  А. В. Сизовой "Коми кыв" (2013), привязка аудио к текстам учебника на сайте http://audio.komikyv.ru (ок. 300 единиц). Извлечение из общего аудиофайла учебника недостающих (неозвученных) слов.
  12. · Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.
  13. · Распространение комиязычного контента в соц. сетях.
  14. · Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.
Нью проблэмз

опубликовал Öньö Лав в 19:25 27.01.2022

  • При открытии корпуса коми языка вновь появляется объявление о небезопасности посещения данного сайта.
  • Поиске в dict.fu-lab.ru чуствителен к "«" и регистру. В случае с "«" слово, которое стоит рядом с ним, вообще не выдается.  Если пишем в поиске с большой буквы - ищет и большие и маленькие. Если пишем в поиске с прописной буквы - ищет только маленькие. Пример: гимназия и «Гимназия искусств.
FU-Lab 24.01.2022–28.01.2022

опубликовал Öньö Лав в 18:57 27.01.2022

В общий отчет по ЦИЯТ ГАУ РК "ДДН РК" от FU-Lab за период FU-Lab 24.01.2022–28.01.2022

  1.  
  2. Создание пермского регионального корпуса коми языка. Начальный объем 2 286 701 словоупотребление.  
  3. Сбор дополнительноо материала по названиям учреждений, организаций и их подразделений; перевод данных названий с русского языка на коми для пополнения "Русско-коми словаря названий организаций и учреждений", глоссария системы поддержки перевода и онлайн-переводчика.
  4. Дальнейшее тестирование "Русско-коми словаря названий организаций и учреждений" и системы поддержки перевода.
  5. Завершение выравнивания параллельных текстов "Нового Завета"  на коми и русском языках в программе WinMerge для базы онлайн-переводчика.
  6. Сбор материала для локализации муниципальных сайтов  и сайтов государственных и муниципальных учреждений с официальных сайтов администраций МО ГО Сыктывкар и МО МР «Сысольский», Управлений образования и культуры АМР «Сысольский», ГБУЗ РК «Сысольская ЦРБ», МУК «Сысольская межпоселенческая централизованная библиотечная система», МУК «Сысольская централизованная клубная система», МУК "Музей истории и культуры Сысольского района", МАУДО «Детская школа искусств» с. Визинга.
  7. Обработка (проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) распознанных текстов журнала "Войвыв кодзув" за 1962 год; информация об изменениях сделана на соответствующих страницах wiki-ресурса "Коми тӧданін")
  8. Извлечение из pdf файла текстов свежего номера газеты "Коми му" (2022 №3), их обработка в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) и добавление в корпус коми языка.
  9. Добавление в молодцовский корпус текстов комиязычных номеров газеты "Југыԁ туј" за 1924-02-02, 1924-02-06 и 1924-02-09 и их размещение в переводе на современную графику в Коми онлайн библиотеке "Коми гижӧд".
  10. Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.
  11. Разбивка в программе Sound Forge аудиоматериала по коми литературе, начитанного С. Г. Горчаковой, на аудифайлы с отдельными произведениями (тексты из учебников 1-2, 3, 4 и 5 классов).
  12. Создание серии скриншотов по установке коми раскладки клавиатуры для Windows 10 и их публикация на wiki-ресурсе FU-Lab.
  13. Проведение онлайн мероприятия в КРИРО с воспитателями детских садов по установке коми раскладок клавиатуры на компьютеры и мобильные телефоны.
  14. Распространение комиязычного контента в соц. сетях.
  15. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.
2022ʼ тӧвшӧрся отчётӧ FU-Lab-лӧн пай

опубликовал Öньö Лав в 22:56 20.01.2022

2. Подготовка к созданию корпуса параллельных текстов (пара коми-русский)

2.1. Создание общих файлов tran_ru.txt и tran_kv.txt по собранным в 2021 году параллельным текстам художественной литературы на коми и русском языках, выравнивание строк в текстах указанных файлов в программе WinMerge.

2.2. Создание файлов nt_ru.txt  и nt_kv.txt c текстами Нового завета на коми и русском языках (предварительное устранение нумерации, несовпадающих заголовков и т. п., унификация формата в программе gedit), выравнивание текстов на двух языках в программе WinMerge.

3. Текстовое пополнение Корпуса коми языка:

3.1. Извлечение из pdf файлов, обработка в программе LibreOffice (выравнивание абзацев, проверка орфографии, метаразметка, расстановка языковых тэгов) и включение в корпус коми языка текстов свежих номеров газеты "Коми му" (2022 №№1-2).

3.2. Сканирование, обработка сканов и создания pdf-файлов по изданиям: О. И. Уляшев. «Кад пыр верзьӧмӧн» (2019) и О. И. Уляшев. «Зарни бобув» (2021).

3.3. Распознавание в программе ABBYY Fine Reader, обработка в программе LibreOffice (проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) и загрузка в корпус коми языка текстов изданиий: О. И. Уляшев "Зарни бобув" (2021) и Е. А. Игушев.  "Коми кывлӧн стилистика" (2003).

3.4. Перепроверка и загрузка в корпус коми языка ранее распознанных текстов произведений Е. А. Игушева из изданий "Чужан кыв — менам олӧм да вӧт" (1988) и "Коми кывйыс гажаджык на биысь" (1998).

3.5. Еженедельное обновление корпуса.

4. Текстовое пополнение молодцовского корпуса:

4.1. Добавление в молодцовский корпус текстов комиязычных номеров газеты "Југыԁ туј" за  1924-01-12, 1924-01-19 и 1924-01-31.

5. Пополнение онлайн библиотеки "Коми гижӧд":

5.1. Размещение в онлайн библиотеке текстов произведений Е. А. Игушева из изданий "Чужан кыв — менам олӧм да вӧт" (1988), "Коми кывйыс гажаджык на биысь" (1998) и "Коми кывлӧн стилистика" (2003).

5.2. Размещение в онлайн библиотеке текстов газеты "Југыԁ туј" за 1924-01-12, 1924-01-19 и 1924-01-31 в переводе на современную графику.

6. Библиографическое пополнение справочного wiki-ресурса "Коми тӧданін":

6.1. Создание и заполнение страниц по комиязычным номерам газеты "Југыԁ туј" за 1924-01-12, 1924-01-19 и 1924-01-31 с добавлением ссылок на тексты статей из этих номеров, размещенные в онлайн-библиотеке "Коми гижӧд".

6.2. Создание и заполнение страницы по новому комиязычному изданию "Дневник Николая Фёдоровича Терентьева" (2021) в справочном wiki-ресурсе "Коми тӧданін".

6.3. Создание ссылок на статьи, размещенные в онлайн библиотеке, с wiki-страниц, посвященных изданиям "Е. А. Игушев. Коми кывлӧн стилистика" (2003), "Е. А. Игушев. Чужан кыв — менам олӧм да вӧт" (1988) и "Е. А. Игушев. «Коми кывйыс гажаджык на биысь" (1998).

6.4. Пополнение библиографии периодики содержанием номеров газеты «Коми му» (2021 г., № 39-52) и журнала «Йӧлӧга» (2021 г., № 9-11).

6.5. Добавление изображений на страницы wiki-ресурса "Коми тӧданін", посвященные отдельным изданиям (+10).

7. Пополнение лексической базы словарей:

7.1. Сортировка объединенного списка названий организаций и учреждений, созданного по материалам выполненных заявок БОП за 2012–2021 гг.; обработка общего списка (устранение вновь выявленных повторов, уточнение названий по данным официальных сайтов), создание разметки xml и загрузка "Русско-коми словаря названий организаций и учреждений" на сайт Онлайн словари FU-Lab.

7.2.  Редактирование онлайн версии словаря, унификация подачи аналогичных случаев.

7.3. Дополнение словника "Русско-коми словаря названий организаций и учреждений" единицами, не попавшими в список, составленный по материалам выполненных заявок БОП за 2012–2021 гг.

7.4. Перевод на коми язык дополнительных названий учреждений и организаций  Республики Коми, а также названий их отделов и филиалов, для пополнения "Русско-коми словаря названий организаций и учреждений", локализации сайтов, включения в глоссарий системы поддержки перевода и базу онлайн-переводчика.

8. Локализация

8.1. Предварительный сбор материала по русскоязычному интерфейсу и содержимому официальных сайтов  организаций и учреждений Республики Коми для дальнейшей коми локализации.

9. Пополнение словарной базы средства проверки правописания Hunspell:

9.1. Сбор новой лексики из коми текстов, обработанных в лаборатории в течение месяца.

9.2. Сортировка и индексация новой лексики, включение ее в коми словарную базу вариативной версии Hunspell.

10. Аудиокорпус:

10.1. Добавление в аудиобазу лаборатории файлов с выпусками радиопередачи "Миян кад" за ноябрь-декабрь 2021 г. и аудиофайлов с художественными текстами, предоставленными С. Г. Горчаковой. 

11. Распространение комиязычного контента в соц. сетях.

12. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.

FU-Lab 17.01.2022–21.01.2022

опубликовал Öньö Лав в 21:35 20.01.2022

В общий отчет по ЦИЯТ ГАУ РК "ДДН РК" от FU-Lab за период 17.01.2022–21.01.2022.

  1.  
  2. Продолжение редактирования онлайн версии "Русско-коми словаря названий организаций и учреждений", унификация подачи аналогичных случаев.
  3. Дополнение словника "Русско-коми словаря названий организаций и учреждений" единицами, не попавшими в список, составленный по материалам выполненных заявок БОП за 2012–2021 гг.
  4. Перевод на коми язык дополнительных названий учреждений и организаций  Республики Коми, а также названий их отделов и филиалов, для пополнения "Русско-коми словаря названий организаций и учреждений", локализации сайтов, включения в глоссарий системы поддержки перевода и базу онлайн-переводчика.
  5. Продолжение выравнивания в программе WinMerge параллельных текстов на коми и русском языках изданий "Нового Завета".
  6. Извлечение из pdf файла текстов свежего номера газеты "Коми му" (2022 №2), их обработка в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) и добавление в корпус коми языка.
  7. Добавление в молодцовский корпус текстов комиязычных номеров газеты "Југыԁ туј" за  1924-01-12, 1924-01-19 и 1924-01-31.
  8. Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.
  9. Распространение комиязычного контента в соц. сетях.
  10. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.
FU-Lab 10.01.2022–14.01.2022

опубликовал Öньö Лав в 20:35 20.01.2022

В общий отчет по ЦИЯТ ГАУ РК "ДДН РК" от FU-Lab за период 10.01.2022–14.01.2022.

  1.  
  2. Сортировка объединенного списка названий организаций и учреждений Республики Коми; обработка общего списка (устранение вновь выявленных повторов, уточнение названий по данным официальных сайтов), создание разметки xml и загрузка русско-коми словаря названий организаций и учреждений на сайт Онлайн словари FU-Lab; редактирование онлайн версии словаря, унификация подачи аналогичных случаев.
  3. Создание общих файлов tran_ru,txt и tran_kv.txt по собранным в 2021 году параллельным текстам художественной литературы на коми и русском языках, выравнивание строк в текстах указанных файлов в программе WinMerge.
  4. Создание файлов nt_ru.txt nt_kv.txt c текстами Нового завета на коми и русском языках (предварительное устранение нумерации, несовпадающих заголовков и т. п., унификация формата в программе gedit), начало выравнивания текстов на двух языках в программе WinMerge.
  5. Размещение текста учебного пособия "Е. А. Игушев. Коми кывлӧн стилистика" (2003) в онлайн библиотеке "Коми гижӧд".
  6. Создание и заполнение страницы по новому комиязычному изданию "Дневник Николая Фёдоровича Терентьева" (2021) в справочном wiki-ресурсе "Коми тӧданін".
  7. Добавление изображений на страницы wiki-ресурса "Коми тӧданін", посвященные отдельным изданиям (+10).
  8. Извлечение из pdf файла текстов свежего номера газеты "Коми му" (2022 №1), их обработка в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов).
  9. Добавление в корпус коми языка обработанных за последнее время текстов. Обновление корпуса.
  10. Добавление в аудиобазу файлов с выпусками радиопередачи "Миян кад" за ноябрь-декабрь 2021 г. и аудиофайлов с художественными текстами, предоставленными С. Г. Горчаковой.
  11. Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.
  12. Распространение комиязычного контента в соц. сетях.
  13. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.
Краткий отчет о проделанной работе ЦИЯТ за 27.12-30.12.21

опубликовал Öньö Лав в 20:33 20.01.2022

1. Письменный перевод с русского языка на коми язык официальных документов, нормативных актов государственной власти Республики Коми для опубликования в журнале «Коми Республикаса канму власьт органъяслӧн индӧд-тшӧктӧмъяс», для интернет-портала РК, для юбилейного сайта РК и других поступающих материалов — всего 27 документов.

2. Редактирование списка организаций и учреждений Республики Коми на коми и русском языках по материалам выполненных заявок БОП.

3. Извлечение текстов информаций, опубликованных на Официальном интернет-портале Республики Коми за ноябрь-декабрь 2021 года.

4. Выравнивание и обработка текстов информаций, опубликованных на Официальном интернет-портале Республики Коми за ноябрь-декабрь 2021 года, в программе WіnMerge, проверка текстов на орфографию.

5. Опубликование на сайте http://komіkyv.org/ текстов Е. Игушева из книг: «Чужан кыв — менам олӧм да вӧт», «Коми кывйыс гажаджык на биысь».

6. Сканирование и обработка книг О.И. Уляшева «Кад пыр верзьӧмӧн», «Зарни бобув».

7. Проставление ссылок на статьи из книг Е. А. Игушева «Чужан кыв — менам олӧм да вӧт», «Коми кывйыс гажаджык на биысь» на сайте http://wіkі.komіkyv.org/.

8. Создание содержания газет «Коми му» (2021 г., № 39-52), «Йӧлӧга» (2021 г., № 9-11).

9. Чтение в программе FіneReader книги Е.А. Игушева «Коми кывлӧн стилистика».

Technical problems

опубликовал Öньö Лав в 12:59 18.01.2022

  1. У Инны проблемы: малый монитор не сразу включается и мерцает.
  2. У Лиды не работает Recoll.
  3. У Любы не устанавливается дополнение к LibreOffice.
FU-Lab 20.12.2021–24.12.2021

опубликовал Öньö Лав в 21:03 22.12.2021

В общий отчет по ЦИЯТ ГАУ РК "ДДН РК" от FU-Lab за период 20.12.2021–24.12.2021.

  1.  
  2. Завершение сбора и систематизации языкового материала из файлов БОП, содержащих заявки на перевод, выполненных по заявкам организаций и учреждений (завершение 2012-2017 гг.).
  3. Сборка в два параллельных файла (kv и ru) развернутых текстов, выполненных Бюро официального перевода по заявкам (2012-2021 гг.), предварительная обработка в программе xed (восстановление строк, унификация графики, проверка орфографии), метаразметка, сбор лексического материала из коми текстов для пополнения словарной базы Hunspell, выравнивание коми и русского материала в программе WinMerge.
  4. Выравнивание названий организаций и учреждений в Республике Коми на коми и русском языках, по материалам выполненных заявок БОП за 2012-2017 гг., создание общего списка названий и его унификация.
  5. Создание и заполнение на справочном wiki-ресурсе "Коми тӧданін" отдельных страниц по новым книжным изданиям на коми языке: "Кӧсъя юавны" (2021), "Ичӧтик принц" (2021), "Е. А. Цыпановлы 60 арӧс" (2020).
  6. Завершение сборки новостных текстов радио "Коми гор" за 2016 г. и сборка аналогичных текстов за 2017 гг., создание первичных метаразметок к текстам.
  7. Извлечение из pdf файла текстов свежих номеров газеты "Коми му" (2021 №51) и журнала "Йӧлӧга" (№11), их обработка в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов)
  8. Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.
  9. Включение вновь обработанных текстов в корпус коми языка. Обновление корпуса.
  10. Распространение комиязычного контента в соц. сетях.
  11. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.
  12. Написание месячного, квартального и годового отчетов по деятельности FU-Lab.
2021ʼ вося отчётӧ FU-Lab-лӧн пай

опубликовал Öньö Лав в 18:17 22.12.2021

=================3. Создание новых продуктов -4:

1. Создан корпус выравненных параллельных текстов (ru-kv) для системы автоматизированного перевода на основе материалов Бюро официального перевода (465 577 строк)
2. Создается корпус параллельных текстов (русский-коми) по материалам переводной художественной литературы для дальнейшего включения в базу онлайн-переводчика (В настоящее время его объём составляет 150 568 строк)
3. Создан электронный словарь «Названия организаций и учреждений в Республике Коми на русском и коми языках» по материалам Бюро официального перевода.
4. ВКонтакте  создана официальная страница Коми республиканской термино-орфографической комиссии при Главе Республики Коми (https://vk.com/komi_committee).

==============4. Пополнение и модернизация существующих электронных ресурсов - 8, в том числе:

1. Корпус коми языка (http://komicorpora.ru/):

1.1.В корпус коми языка добавлены тексты решений и постановлений Конституционного Суда Республики Коми (2003-2021), тексты нормативно-правовых актов Республики Коми (законы, указы главы, постановления правительства) за 2011-2020 гг., тексты бюллетеней избирательных комиссий Республики Коми за 2012-2020 гг., новостные тексты Официального портала Республики Коми (апрель-декабрь 2021) и сайта Государственного Совета Республики Коми (январь-декабрь 2021),  тексты книжных изданий: В. Лодыгин. Лӧсас (2013), Л. Втюрина. Шоныдін (2018), А. Шебырев. Фараон (2019),  Эжва Перым (1991), П. А. Уляшева "Войтӧлӧн чиршӧдлӧмъяс" (2015), Конституция Республики Коми (редакции 1994 и 2015),  тексты журналов «Чушканзі» (№ 1-6 за 2020 г.); «Войвыв кодзув» (1956, №№1-12, 2020 г. (№ 2), 2021 г. (№ 1-9); "Йӧлӧга" (2021 №№1-11) и газеты "Коми му" (2021 №№1-52)
1.2. Произведена замена откорректированными вариантами всех текстов журнала "Войвыв кодзув" за 1946 и 1948 гг. и однократно публиковавшихся текстов из №№1-4 того же журнала за 1975 г. Также заменены семь прозаических текстов после сравнения и корректирования редакций в программе Meld.
1.3. Техническая оптимизация корпуса: увеличен лимит выдачи результата до 10 000 единиц при поиске по фразе, устранены случаи нестандартной кодировки, решены проблемы неверной разбивки на предложения в корпусе коми языка (заглавная Ё в начале предложение, две заглавные в конце предложения, знак •, сочетание типа " Б. — "), а также проблемы с тегами <about>, модернизирована функция сортировки по дате, увеличена скорость поиска, к корпусу подключена виртуальная клавиатура.

На 20.12.2021 объём корпуса составляет 72 441 287 словоупотреблений. (+ 8 358 750 единиц за отчетный период).

2. Молодцовский корпус (http://molodcov.komicorpora.ru/):

2.1. Добавлены тексты из 38 книжных изданий 1920-30 гг., тексты журнала "Ордым" (1926-1929), а также все комиязычные тексты из газеты "Југыԁ туј" за 1920-1923 гг. и  первых номеров той же газеты за 1924 г.
2.2. Разработана и подключена виртуальная клавиатура к молодцовскому корпусу коми языка.

На 20.12.2021 объем молодцовского корпуса составляет 1 775 772 словоупотреблений (+873 046 единиц за отчётный период)

3. Коми онлайн библиотека (http://komikyv.org/):

3.1. Размещены современные тексты художественных произведений (Л. Втюрина, Л. Огнев, В. Бабин, Г. Попов, В. Лодыгин "Лӧсасъяс"), публицистики (Е. А. Цыпанов, Е. А. Игушев, В. Л. Бабин), тексты официально-делового (Конституция Республики Коми) и научного стиля  (Эжва Перым, 1991).
3.2. Загружены и выравнены параллельные тексты на современной и молодцовской графике из 15 книжных изданий 1920-30 гг.
3.3. Добавлены молодцовские варианты к ранее размещенным на современной графике текстам 14 книжных изданий 1920-30 гг..
3.4. В переводе на современную графику размещены все комиязчычные тексты газеты "Југыԁ туј" за  1920-1923 гг. и  первые номера 1924 г.

На 20.12.2021 количество произведений в библиотеке составляет 11822 единицы (+ 1982 единицы за отчетный период)

4. Справочный wiki-ресурс  "Коми тӧданін" (http://wiki.komikyv.org/):

4.1. Созданы новые wiki-страницы по книжным изданиям (34 ед.), произведениям (8 ед.), авторам (10 ед.), выпускам периодики и масс-медиа (20 ед.).
4.2. Постоянно пополнялась информация по всем изданиям, с текстами которых велась работа в отчетный период.

5. Лексикографический сайт Онлайн словари FU-Lab  (https://dict.fu-lab.ru/):

5.1. Переведены в электронную форму, обработаны и добавлены на сайт новые коми словари: «Комиа-роча зоология кывкуд» (2902 вокабул), «Комиа-роча ботаника кывкуд (3466 вокабул)», «Коми видчанкывъяс (1806 вокабул)».
5.2. Подготовлены ссылки на орфографические варианты для словаря диалектов коми языка (17 000 единиц.)

6. Спелл-чекер hunspell

6.1. В лексическую базу коми (вариативного) спеллера добавлены новые лексемы и варианты лексем (ок. 6 тыс. единиц), зафиксированные в текстах, работа над которыми велась в отчетный период.
6.2. В лексическую базу молодцовского спеллера добавлены новые лексемы и варианты лексем, зафиксированные в текстах, работа над которыми велась в отчетный период.
6.3. Обновлена лексическая база коми (вариативного) спеллера в Онлайн-сервисе проверки орфографии (http://webspell.fu-lab.ru/).!!!!!!!!!!

7. Портал для изучающих коми язык "Коми кыв": (http://komikyv.ru/):

7.1. Добавлены ссылки на новые ресурсы по изучению коми языка в сети интернет.

8. Образовательный сайт по географии на коми языке (http://geography.komikyv.org/):

8.1. Разработана новая структура интерфейса ресурса «Коми география», осуществлен ручной перенос контента со старого сайта на новый.
8.2. Извлечены географические термины разделов «Атмосфера», «Гидросфера», «Литосфера», «Биосфера». Все термины объединены в общий список географических терминов.
8.3. Модернизирован 41 текст из старых коми учебников  по географии.
8.4. Переведены 53 текста по географии из современных учебников.
Общее количество текстов превысило 300 единиц.

2021ʼ вося нёльӧд кварталысь отчётӧ FU-Lab-лӧн пай

опубликовал Öньö Лав в 15:24 22.12.2021

2. Подготовка к созданию корпуса параллельных текстов (пара коми-русский) для системы автоматизированного перевода и онлайн-переводчика

2.1. Сборка, обработка (восстановление строк, унификация графики), метаразметка и выравнивание в программе WinMerge текстов официально-делового стиля на коми и русском языках из файлов Бюро официального перевода, содержащих нормативно правовые акты Республики Коми (Законы Республики Коми, Указы Главы Республики Коми, Постановления Правительства Республики Коми и др.) за 2011-2016, 2019 гг. и январь-апрель 2021 г.
2.2. Орфографическая проверка в программе xed  текстов официально-делового стиля на коми и русском языках из файлов БОП, содержащих НПА РК за 2011-2020 гг.
2.3. Контрольное выравнивание в программе WinMerge текстов официально-делового стиля на коми и русском языках из файлов БОП, содержащих НПА РК за 2011-2020 гг. и их повторное выравнивание после автоматического изъятия неконгруэнтных отрезков текста.
2.4. Сборка текстов официально-делового стиля на коми и русском языках из файлов БОП, содержащих Бюллетени избирательных комиссий Республики Коми за 2012-2020 гг. Предварительная обработка данных текстов (восстановление строк, унификация графики), метаразметка, проверка орфографии в программе xed; выравнивание коми и русского материалов в программе WinMerge.
2.5. Сборка русских оригиналов, предварительная обработка (восстановление строк, унификация графики), метаразметка, проверка орфографии в программе xed и выравнивание в программе WinMerge с коми переводами текстов постановлений и решений Конституционного суда Республики Коми за 2012-2021 гг., орфографическая правка аналогичных документов на коми языке за 2003-2011 гг.
2.6. Сборка, обработка (проверка орфографии, расстановка языковых тэгов), метаразметка и выравнивание текстов новостной ленты официального портала rkomi.ru на коми и русском языках за октябрь-декабрь 2021 года.
2.6. Проверка и включение в базу параллельного корпуса выравненных студентами СГУ текстов (русский-коми) на основе новостной ленты официального портала rkomi.ru за май-сентябрь 2021 г.
2.7. Конвертация выравненных txt файлов, содержащих тексты НПА РК за 2011-2020 гг., в формат tmх.
2.8. Сверка и правка в формате tmх коми переводов и русских оригиналов текстов НПА РК за 2011-2020 гг., исправление вновь возникших проблемных случаев несовпадения коми перевода с русским оригиналом с одновременной правкой txt исходников.
2.10. Создание общего tmx файла, содержащего тексты нормативно-правовых актов за 2011-2020 гг., избирательных бюллетеней Республики Коми за 2012-2020 гг., а также тексты новостной ленты официального портала rkomi.ru за май-декабрь 2021 г.
2.11. Тестирование общего tmx файла в программе автоматизированного перевода OmegaT.
2.12. Сбор и систематизация языкового материала из файлов БОП, содержащих тексты оригиналов и переводов, выполненных по заявкам организаций и учреждений (2012-2021 гг.).
2.13. Выравнивание параллельных текстов на коми и русском языках в программе WinMerge по изданию П. Бажов "Сказъяс" (1953) и соответствующим русскоязычным публикациям для онлайн-переводчика.

3. Текстовое пополнение и техническая оптимизация Корпуса коми языка:

3.1. Включение в корпус коми языка текстов нормативно-правовых актов Республики Коми за 2011-2016, 2019-2020 гг., Бюллетеней избирательных комиссий Республики Коми за 2014-2020 гг., постановлений Конституционного суда Республики Коми за 2021 г.
3.2. Сканирование, создание pdf файлов, распознавание, обработка в программе LibreOffice  (проверка орфографии, метаразметка, расстановка языковых тэгов), перепроверка и и включение в корпус коми языка текстов изданий: Зарни Люся. Шоныдін (2018), А. Шебырев. Фараон (2019)
3.3. Обработка в программе LibreOffice (проверка орфографии, метаразметка, расстановка языковых тэгов) и загрузка в корпус текста издания: П. А. Уляшева "Войтӧлӧн чиршӧдлӧмъяс" (2015).
3.4. Извлечение из pdf файлов, обработка (выравнивание абзацев, проверка орфографии, метаразметка, расстановка языковых тэгов), перепроверка и включение в корпус коми языка текстов газеты "Коми му" (2021 №№39-52), журналов "Войвыв кодзув" (№№2-9 за 2021 г.) и "Йӧлӧга" (2021 №11).
3.5. Сборка, обработка (проверка орфографии, метаразметка, расстановка языковых тэгов), перепроверка и и включение в корпус коми языка текстов новостных порталов РК за август-декабрь 2021 года.
3.6. Обработка в программе LibreOffice (проверка орфографии, метаразметка, расстановка языковых тэгов) дикторских текстов выпусков телепрограммы "Вести Коми" на коми языке за 18-21.05.2021 г.
3.7. Сборка новостных текстов радио "Коми гор" за 2014-17 гг., и создание к ним первичных метаразметок в программе xed.
3.8. Работа по сравнению редакций прозаических текстов в программе Meld в целях устранения оставшихся после распознавания опечаток (повести Г. Юшкова "Югыд вой, кӧка вой", "Ловъя лов", "Аски лоӧ мича", "Пияна ош", "Олӧмыд олӧм на", повесть В. Ширяева "Кӧръяс вешйӧны морелань"), замена текстов в корпусе.
3.9. Вычитка и правка однократно публиковавшихся текстов журнала "Войвыв кодзув" (1975 №№1-4), замена текстов в корпусе на откорректированные варианты.
3.10. Увеличение лимита выдачи результата до 10 000 единиц при поиске по фразе в корпусе коми языка.
3.11. Устранение случаев нестандартной кодировки в корпусе коми языка.
3.12. Решение проблемы неверной разбивки на предложения в корпусе коми языка (заглавная Ё в начале предложение, две заглавные в конце предложения, знак •, сочетание типа " Б. — "), а также проблемы с тегами <about>
3.13. Подключение виртуальной клавиатуры к корпусу коми языка
3.14. Еженедельное обновление корпуса. Объём корпуса на 20.12.21 - 72 441 287 словоупотреблений.

4. Текстовое пополнение и техническая оптимизация молодцовского корпуса:

4.1. Добавление в молодцовский корпус комиязычных текстов газеты "Југыԁ туј" за 1923 год и первых номеров за 2024 год.
4.2. Разработка и подключение виртуальной клавиатуры к молодцовскому корпусу коми языка.
4.3. Еженедельное обновление корпуса. Объем корпуса на 20.12.21 - 1 775 772 словоупотреблений.

5. Пополнение онлайн библиотеки "Коми гижӧд":

5.1. Размещение в коми онлайн библиотеке произведений авторов Зарни Люся (97 ед.) и Г. И. Попов (35 ед., из издания "Мича гудӧк", 2017).
5.2. Загрузка в онлайн библиотеку "Коми гижӧд" текстов публикаций Е. А. Цыпанова и Е. А. Игушева в газете "Коми му" за 2005-2021 гг. (161 ед.), вычитка и обработка текстов.
5.3. Размещение газетных публикаций В. Л. Бабина за 2005-2021 гг. в онлайн-библиотеке "Коми гижӧд" (219 ед.); вычитка и обработка текстов.
5.4. Размещение в коми онлайн библиотеке комиязчычных текстов газеты Југыԁ туј за 1923 г. и двух номеров за 1924 г. в переводе на современную графику (188 ед.).

На 20.12.2021 количество произведений в библиотеке составляет 11822 единицы

6. Библиографическое пополнение справочного wiki-ресурса "Коми тӧданін":

6.1. Пополнение библиографии газетных и журнальных публикаций на коми языке: (газета "Коми му" №№12-39 за 2021 г., журнал "Йӧлӧга" №№2-12 за 2020 и №№1-8 за 2021 гг., журнал "Войвыв кодзув" №№2-9 за 2021 г.)
6.2. Пополнение библиографии книжных публикаций на страницах изданий: В. Е. Напалков. "Ӧттор-мӧдтор йылысь" (2021)", А. Шебырев. "Фараон" (2019), П. А. Уляшева "Войтӧлӧн чиршӧдлӧмъяс" (2015), Людмила Втюрина. "Шоныдін" (2018), Г. Попов. "Мича гудӧк" (2017), создание гиперссылок к тем произведениям из данных изданий, которые размещены в онлайн библиотеке "Коми гижӧд".
6.3. Создание ссылок на газетные публикации Е. А. Цыпанова, Е. А. Игушева и В. Л. Бабина за 2005-2021 гг., размещенные в онлайн-библиотеке "Коми гижӧд", с авторских страниц справочного wiki-ресурса "Коми тӧданін".
6.4. Создание и заполнение на справочном wiki-ресурсе "Коми тӧданін" отдельных страниц по новым книжным изданиям на коми языке: "Вуджӧдчан подув" (2021), "Пыжа-поска" (2021) "Кӧсъя юавны" (2021), "Ичӧтик принц" (2021), "Е. А. Цыпановлы 60 арӧс" (2020).
6.5. Создание wiki-страниц, посвященных комиязычным номерам газеты «Југыԁ туј» за 1923-11-24, 1923-11-28, 1923-12-01, 1923-12-05, 1923-12-08, 1923-12-12 1923-12-15, 1923-12-25, 1923-12-29,  1924-01-03 и 1924-01-05, сделаны ссылки на тексты в онлайн-библиотеке.
6.6. Создание wiki-страниц, посвященных отдельным произведениям: повести Г. Юшкова "Югыд вой, кӧка вой", "Ловъя лов", "Аски лоӧ мича", "Пияна ош", "Олӧмыд олӧм на", повесть В. Ширяева "Кӧръяс вешйӧны морелань".
6.7. Добавление перечня передач "Миян кад" за август-октябрь 2021 г. к общему списку на wiki-странице, посвященной данной программе. Создание гиперсылок на аудиофайлы.

7. Пополнение лексической базы FU-Lab":

7.1. Обработка текста и разметка словаря пейоративной лексики коми языка "Коми видчанкывъяс" (2021), размещение содержимого данного словаря на сайте Онлайн словари FU-Lab
7.1. Работа по созданию сводного словаря названий организаций и учреждений по материалам заявок БОП и НПА РК за 2012-2020 гг.
7.2. Работа по созданию на основе официальных текстов из файлов БОП (положения об отдельных заказниках) списка видов растений, произрастающих на территории Республики Коми, но не имеющих стандартного наименования в коми языке.
7.2. Разработка и подключение виртуальной клавиатуры к сайту "Онлайн словари FU-Lab"

8. Пополнение базы образовательного портала "Коми география":

8.1. Редактирование текстов по отечественной географии из коми учебников 1937, 1957 и 1959 гг. (разделы "территория и границы", "рельеф", "Дальний Восток"), размещение их на портале "Коми география".
8.2. Сканирование и распознавание изданий География Коми АССР. 7 класс (1987); География. 7 класс (2021), Коми - наш родимый край (2021) для пополнения текстовой базы ресурса "Коми география".
8.3. Работа по созданию аудиопрезентации по геологии Тимана на коми языке для сайта "Коми география".

9. Пополнение словарной базы средства проверки правописания Hunspell:

9.1. Сбор новой лексики из коми текстов, обработанных в лаборатории в течение отчетного периода.
9.2. Сортировка и индексация новой лексики, включение ее в коми словарную базу вариативной версии Hunspell.
9.3. Обновление лексической базы коми (вариативного) спелера в Онлайн-сервисе проверки орфографии

10. Распространение комиязычного контента в соц. сетях.

11. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.

12. Восстановление функциональности серверов ЦИЯТ после их отключения 8-10/Х-2021 г. и устранение возникших на сайтах проблем, связанных с перерывом в работе серверов.

2021ʼ ӧшымся отчётӧ FU-Lab-лӧн пай

опубликовал Öньö Лав в 19:17 19.12.2021

2. Подготовка к созданию корпуса параллельных текстов (пара коми-русский):

2.1. Повторное выравнивание в программе WinMerge текстов БОП, содержащих НПА РК за 2011, 2012, 2014, 2015, 2019, 2020 годы, после автоматического изъятия неконгруэнтных отрезков текста.

2.2. Конвертация выравненных txt файлов, содержащих тексты НПА РК за 2011-2020 гг., в формат tmх.

2.3. Сверка и правка в формате tmх коми переводов и русских оригиналов текстов НПА РК за 2011-2020 гг., исправление оставшихся и вновь возникших проблемных случаев несовпадения коми перевода с русским оригиналом, одновременно исправлялись и txt исходники.

2.4. Проверка и включение в базу параллельного корпуса выравненных студентами СГУ текстов (русский-коми) на основе новостной ленты официального портала rkomi.ru за май-сентябрь 2021 г.

2.5. Создание общего tmx файла, содержащего тексты нормативно-правовых актов и избирательных бюллетеней Республики Коми за 2011-2020 гг., а также тексты новостной ленты официального портала rkomi.ru за май-декабрь 2021 г.

2.6. Тестирование общего tmx файла в программе автоматизированного перевода OmegaT.

2.7. Сбор и систематизация языкового материала из файлов БОП, содержащих различного типа тексты оригиналов и переводов, выполненных по заявкам организаций и учреждений (2012-2021 гг.), материал подготавливается для глоссария системы автоматизированного перевода.

2.8. Сборка в два параллельных файла (kv и ru) развернутых текстов, выполненных Бюро официального перевода по заявкам (2012-2021 гг.).

3. Текстовое пополнение Корпуса коми языка:

3.1. Извлечение из pdf файлов, обработка в программе LibreOffice (выравнивание абзацев, проверка орфографии, метаразметка, расстановка языковых тэгов) и включение в корпус коми языка текстов газеты "Коми му" (2021 №48-52) и журнала "Йӧлӧга" (2021 №11).
3.2. Обработка в программе LibreOffice (проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) и закрузка в корпус текста издания П. А. Уляшева "Войтӧлӧн чиршӧдлӧмъяс" (2015).
3.3. Вычитка и правка однократно публиковавшихся текстов журнала "Войвыв кодзув" (1975 №№1-4), замена текстов в корпусе на откорректированные варианты.
3.4. Проверка орфографии, оформление метаразметки в программе xed и включение в корпус текстов новостных порталов РК на коми языке за ноябрь-декабрь 2021 г.
3.5. Обработка в программе LibreOffice (проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) дикторских текстов выпусков телепрограммы "Вести Коми" на коми языке за 18-21.05.2021 г.
3.6. Сборка новостных текстов радио "Коми гор" за 2014-17 гг., и создание к ним первичных метаразметок в программе xed.
3.7. Еженедельное обновление корпуса.

4. Текстовое пополнение и оптимизация молодцовского корпуса:

Добавление в молодцовский корпус текстов комиязычных номеров газеты "Југыԁ туј" за 1923-12-15, 1923-12-25, 1923-12-29, 1924-01-03 и 1924-01-05.

5. Пополнение онлайн библиотеки "Коми гижӧд":

5.1. Загрузка в онлайн библиотеку "Коми гижӧд" текстов публикаций Е. А. Цыпанова и Е. А. Игушева в газете "Коми му" за 2005-2019 гг.
5.2. Вычитка газетных публикаций Е. А. Цыпанова и Е. А. Игушева за 2005-2021 гг., размещенных в онлайн-библиотеке "Коми гижӧд" (161 ед.); обработка текстов и исправление опечаток.
5.3. Размещение газетных публикаций В. Л. Бабина за 2005-2021 гг. в онлайн-библиотеке "Коми гижӧд" (219 ед.); вычитка и обработка текстов.
5.4. Размещение в коми онлайн библиотеке текстов газеты "Југыԁ туј" за 1923-12-15, 1923-12-25, 1923-12-29, 1924-01-03 и 1924-01-05 в переводе на современную графику.

6. Библиографическое пополнение справочного wiki-ресурса "Коми тӧданін":

6.1. Создание ссылок на газетные публикации Е. А. Цыпанова и Е. А. Игушева за 2005-2021 гг., размещенные в онлайн-библиотеке "Коми гижӧд", с авторских страниц справочного wiki-ресурса "Коми тӧданін".

6.2. Создание ссылок на газетные публикации  В. Бабина, размещенные в онлайн-библиотеке "Коми гижӧд", с авторской страницы справочного wiki-ресурса "Коми тӧданін".

6.3. Создание и заполнение страниц по комиязычным номерам газеты "Југыԁ туј" за 1923-12-15, 1923-12-25, 1923-12-29, 1924-01-03 и 1924-01-05 с добавлением ссылок на тексты статей из этих номеров, размещенные в онлайн-библиотеке "Коми гижӧд".

6.4. Фиксация исправлений в тексте П. А. Уляшева "Войтӧлӧн чиршӧдлӧмъяс" (2015) на соответствующей wiki-странице ресурса "Коми тӧданін".

6.5. Создание и заполнение на справочном wiki-ресурсе "Коми тӧданін" отдельных страниц по новым книжным изданиям на коми языке: "Вуджӧдчан подув" (2021), "Пыжа-поска" (2021), "Кӧсъя юавны" (2021), "Ичӧтик принц" (2021), "Е. А. Цыпановлы 60 арӧс" (2020).

7. Пополнение лексической базы для интегрального и тематических словарей :

7.1. Создание сводного словаря названий организаций, учреждений и должностей по материалам заявок БОП и НПА РК за 2012-2020 гг.
7.2. Создание на основе официальных текстов из файлов БОП (положения об отдельных заказниках) списка видов растений, произрастающих на территории Республики Коми, но не имеющих стандартного наименования в коми языке.

8. Пополнение словарной базы средства проверки правописания Hunspell:

8.1. Сбор новой лексики из коми текстов, обработанных в лаборатории в течение месяца.
8.2. Сортировка и индексация новой лексики, включение ее в коми словарную базу вариативной версии Hunspell.

9. Распространение комиязычного контента в соц. сетях.

10. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.

FU-Lab 13.12.2021–17.12.2021

опубликовал Öньö Лав в 14:17 16.12.2021

В общий отчет по ЦИЯТ ГАУ РК "ДДН РК" от FU-Lab за период 13.12.2021–17.12.2021.

 

  1.  
  2. Сверка и правка в формате tmх коми переводов и русских оригиналов текстов НПА РК за 2011 г., исправление оставшихся и вновь возникших проблемных случаев неконгруэнтности коми перевода с русским оригиналом.
  3. Создание общего tmx файла, содержащего тексты НПА РК за 2011-2020 гг.
  4. Сбор и систематизация языкового материала из файлов БОП, содержащих тексты оригиналов и переводов, выполненных по заявкам организаций и учреждений (2021 г. - завершение, 2012-2017 гг.).
  5. Завершение размещения газетных публикаций В. Бабина за 2005-2020 гг. в онлайн библиотеке "Коми гижӧд" (169 ед.).
  6. Сбор  лексического материала из газетных публикаций В. Бабина  для программы проверки орфографии Hunspell.
  7. Создание ссылок на размещенные в онлайн библиотеке газетные публикации  В. Бабина с авторской страницы справочного wiki-ресурса "Коми тӧданін".
  8. Создание и заполнение на справочном wiki-ресурсе "Коми тӧданін" отдельных страниц по новым книжным изданиям на коми языке: "Вуджӧдчан подув (2021' вося небӧг)", "Пыжа-поска (2021' вося небӧг)".
  9. Сборка новостных текстов радио "Коми гор" за 2014-16 гг. и создание первичных метаразметок к текстам.
  10. Извлечение из pdf файла текстов свежего номера газеты "Коми му" (2021 №50) и их обработка в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов)
  11. Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.
  12. Включение обработанных текстов в корпус коми языка. Обновление корпуса.
  13. Распространение комиязычного контента в соц. сетях.
  14. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.
По корпусу БОП

опубликовал Öньö Лав в 19:40 12.12.2021

  • 2011 : 34101 - только конец года - Постановления Правительства РК
  • 2012 : 372713 - первая половина и конец года - три типа НПА
  • 2013 : 1451617 - наиболее полное годовое собрание НПА
  • 2014 : 738828
  • 2015 : 610334
  • 2016 : 460141
  • 2017 : 319891 - без таблиц (подготовлено в 2018 году)
  • 2018 : 234308 - без таблиц (подготовлено в 2018 году)
  • 2019 : 417832 - переводы в редакции ЛМ.
  • 2020 : 539208 кыв - переводы в редакции ЛМ.

 

FU-Lab 06.12.2021–10.12.2021

опубликовал Öньö Лав в 13:33 09.12.2021

В общий отчет по ЦИЯТ ГАУ РК "ДДН РК" от FU-Lab за период 06.12.2021–10.12.2021.

 

  1.  
  2. Конвертация выравненных txt файлов, содержащих тексты НПА РК за 2011-2020 гг., в формат tmх.
  3. Сверка и правка в формате tmх коми переводов и русских оригиналов текстов НПА РК за 2012-2020 гг., исправление оставшихся и вновь возникших проблемных случаев неконгруэнтности коми перевода с русским оригиналом.
  4. Вычитка газетных публикаций Е. А. Игушева за 2011-2021 гг., размещенных в онлайн-библиотеке "Коми гижӧд"; обработка текстов и исправление опечаток.
  5. Создание ссылок на газетные публикации Е. А. Цыпанова и Е. А. Игушева за 2005-2021 гг., размещенные в онлайн-библиотеке "Коми гижӧд", с авторских страниц справочного wiki-ресурса "Коми тӧданін".
  6. Размещение газетных публикаций В. Бабина в онлайн-библиотеке "Коми гижӧд" (50 текст).
  7. Создание ссылок на газетные публикации  В. Бабина, размещенные в онлайн-библиотеке "Коми гижӧд", с авторской страницы справочного wiki-ресурса "Коми тӧданін".
  8. Вычитка и правка однократно публиковавшихся текстов журнала "Войвыв кодзув" (1975 №№1-4).
  9. Извлечение из pdf файла текстов свежего номера газеты "Коми му" (2021 №49) и их обработка в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов)
  10. Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.
  11. Включение обработанных текстов в корпус коми языка. Обновление корпуса.
  12. Обсуждение со студентами филологического факультета СГУ результатов их работ по поддержке электронной коми письменности в рамках ПЗ.
  13. Распространение комиязычного контента в соц. сетях.
  14. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.
FU-Lab 29.11.2021–03.12.2021

опубликовал Öньö Лав в 17:52 02.12.2021

В общий отчет по ЦИЯТ ГАУ РК "ДДН РК" от FU-Lab за период 29.11.2021–03.12.2021.

  1.  
  2. Новое выравнивание текстов БОП, содержащих НПА РК за 2011, 2012, 2014, 2015, 2019, 2020 годы, после автоматического изъятия неконгруэнтных отрезков текста, исправление оставшихся проблемных случаев несовпадения коми перевода с русским оригиналом.
  3. Сбор и систематизация языкового материала из файлов БОП, содержащих тексты оригиналов и переводов, выполненных по заявкам организаций и учреждений (2018-2021 гг.).
  4. Загрузка в онлайн библиотеку "Коми гижӧд" текстов публикаций Е. А. Цыпанова и Е. А. Игушева в газете "Коми му" за 2005-2019 гг.
  5. Вычитка, обработка и исправление опечаток в загруженных на сайт http://komikyv.org/ текстах Е. А. Цыпанова за 2005-2021 гг. и Е. А. Игушева за 2005-2010 гг.
  6. Извлечение из pdf файла текстов свежего номера газеты "Коми му" (2021 №48) и их обработка в программе LibreOffice (выравнивание абзацев, проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов)
  7. Обработка в программе LibreOffice (проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) текста издания П. А. Уляшева "Войтӧлӧн чиршӧдлӧмъяс" (2015); фиксация исправлений на соответствующей wiki-странице сайта http://wiki.komikyv.org
  8. Обработка в программе LibreOffice (проверка орфографии, выявление новой лексики, метаразметка, расстановка языковых тэгов) дикторских текстов выпусков телепрограммы "Вести Коми" на коми языке за 18-21 мая 2021 г.
  9. Проверка орфографии и оформление метаразметки текстов социальных сетей и новостных порталов на коми языке для корпуса коми языка.
  10. Пополнение словарной базы спелл-чеккера hunspell новой коми лексикой, выявленной в обрабатываемых текстах.
  11. Включение обработанных текстов в корпус коми языка. Обновление корпуса.
  12. Добавление в молодцовский корпус текстов комиязычных номеров газеты "Југыԁ туј" за 1923-12-15, 1923-12-25 и 1923-12-29, включение данных текстов в переводе на современную графику в онлайн библиотеку "Коми гижӧд".
  13. Создание на основе официальных текстов из файлов БОП (положения об отдельных заказниках) списка видов растений, произрастающих на территории Республики Коми, но не имеющих стандартного наименования в коми языке.
  14. Распространение комиязычного контента в соц. сетях.
  15. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.
Выль могъяс

опубликовал Öньö Лав в 15:35 02.12.2021

В сервисе убирающем содержимое кавычек в определенном контексте заключительный элемент "» кывъясӧн" убирается вместе с контентом. Этот отрезок текста необходимо оставлять.

2021ʼ вӧльгымся отчётӧ FU-Lab-лӧн пай.

опубликовал Öньö Лав в 17:47 24.11.2021

2. Подготовка к созданию корпуса параллельных текстов (пара коми-русский):

2.1. Сборка, обработка, метаразметка и выравнивание в программе WinMerge текстов официально-делового стиля на коми и русском языках из файлов БОП, содержащих НПА РК за 2011, 2013 и 2014 гг.

2.2. Орфографическая проверка текстов официально-делового стиля на коми и русском языках из файлов БОП, содержащих НПА РК за 2011-2020 гг.

2.3. Контрольное выравнивание в программе WinMerge текстов официально-делового стиля на коми и русском языках из файлов БОП, содержащих НПА РК за 2012, 2015-2020 гг.

2.4. Сборка, обработка (проверка орфографии, расстановка языковых тэгов), метаразметка и выравнивание текстов новостных порталов РК на коми и русском языках за октябрь-ноябрь 2021 года.

2.5. Сборка русских оригиналов, предварительная обработка, проверка орфографии в программе xed и выравнивание в программе WinMerge с коми переводами текстов постановлений и решений Конституционного суда Республики Коми за 2012-2021 гг., орфографическая правка аналогичных документов на коми языке за 2003-2011 гг.

2.6. Сборка текстов официально-делового стиля на коми и русском языках из файлов БОП, содержащих Бюллетени избирательных комиссий Республики Коми за 2014-2020 гг. Обработка данных текстов (восстановление строк, унификация графики, метаразметка), проверка орфографии в программе xed; выравнивание коми и русского материалов в программе WinMerge.

3. Текстовое пополнение Корпуса коми языка:

3.1. Извлечение из pdf файлов, обработка (выравнивание абзацев, проверка орфографии, метаразметка, расстановка языковых тэгов), перепроверка и включение в корпус коми языка текстов газеты "Коми му" (2021 №№43-47) и журнала "Йӧлӧга" (2021 №10).

3.2. Включение в корпус коми языка текстов официально-делового стиля на коми и русском языках из файлов БОП, содержащих НПА РК за 2011, 2013, 2014, Бюллетени избирательных комиссий Республики Коми за 2014-2020 гг., постановлений Конституционного суда Республики Коми за 2021 г., а также текстов новостных порталов РК на коми и русском языках за октябрь-ноябрь 2021 года.

3.3. Замена текстов официально-делового стиля на коми и русском языках из файлов БОП, содержащих НПА РК за 2012, 2015-2020 гг. откорректированными вариантами.

3.4. Работа по сравнению редакций прозаических текстов в программе Meld в целях устранения оставшихся после распознавания опечаток (повести Г. Юшкова "Югыд вой, кӧка вой", "Ловъя лов", "Аски лоӧ мича", "Пияна ош", "Олӧмыд олӧм на", повесть В. Ширяева "Кӧръяс вешйӧны морелань"), замена текстов в корпусе.

4. Текстовое пополнение и оптимизация молодцовского корпуса:

4.1. Добавление в молодцовский корпус коми текстов газеты "Југыԁ туј" за 1923-12-01, 1923-12-05, 1923-12-08 и 1923-12-12.

5. Библиографическое пополнение справочного wiki-ресурса "Коми тӧданін":

5.1. Создание wiki-страниц, посвященных произведениям: повести Г. Юшкова "Югыд вой, кӧка вой", "Ловъя лов", "Аски лоӧ мича", "Пияна ош", "Олӧмыд олӧм на", повесть В. Ширяева "Кӧръяс вешйӧны морелань".

5.2. Создание wiki-страниц, посвященных комиязычным номерам газеты «Југыԁ туј» за 1923-12-01, 1923-12-05, 1923-12-08 и 1923-12-12

5.3. Добавление перечня передач "Миян кад" за август-октябрь 2021 г. к общему списку на wiki-странице, посвященной данной программе. Создание гиперсылок на аудиофайлы.

6. Пополнение онлайн библиотеки "Коми гижӧд":

6.1. Размещение статей Е. А. Цыпанова и Е. А. Игушева, опубликованных в газете "Коми му" за 2020-2021 г.

6.2. Размещение в коми онлайн библиотеке текстов газеты Југыԁ туј за 1923-12-01, 1923-12-05, 1923-12-08 и 1923-12-12 в переводе на современную графику.

7. Пополнение словарной базы средства проверки правописания Hunspell:

7.1. Сбор новой лексики из коми текстов, обработанных в лаборатории в течение месяца.

7.2. Сортировка и индексация новой лексики, включение ее в коми словарную базу вариативной версии Hunspell.

8. Распространение комиязычного контента в соц. сетях.

9. Помощь пользователям по установке коми раскладки клавиатуры и иных программ поддержки коми электронной письменности.

Яндекс.Метрика