opendatarussiachat | Неотсортированное

Telegram-канал opendatarussiachat - Открытые данные RU

2976

Это чат тех, кто занимается открытыми данными в России. Надеемся на вашу активность, не будьте занудами.

Подписаться на канал

Открытые данные RU

Я бы предложил пойти официальным путем и сделать запросы по 8-ФЗ

Читать полностью…

Открытые данные RU

Я бы обратился к региональному исполкому или на локальные сайты партий

Читать полностью…

Открытые данные RU

Руками можно на сайте местного выборного органа - муниципального видимо

Читать полностью…

Открытые данные RU

Привет.
Подскажите, есть где-нибудь в одном месте статистика отравлений грибами по регионам? Или статистика отравлений с причинами.

Читать полностью…

Открытые данные RU

опять личные связи решают)

Читать полностью…

Открытые данные RU

интересно, где этот рынок обитает? должна же быть площадка... или опять каждый за себя?

Читать полностью…

Открытые данные RU

Да, ценники там негуманны. etleap.com enterprise edition судя по AWS Marketplace обходится в $96 000 в год.

Читать полностью…

Открытые данные RU

Да, и я, признаться, не уверен что OpenRefine просто вставляется в цепочку обработки данных. Он незаменим именно для ручной работы

Читать полностью…

Открытые данные RU

OpenRefine про автоматизацию data wrangling, но, там нет контроля входящего потока на предмет пригодности к накладыванию этих скриптов. Для автоматической обработки используют, обычно, продукты с data pipelines, когда есть контроль входящих и исходящих, чего-то универсальное в этой области редкость. Есть какие-то готовые продукты по автоматизации сбора данных из мобильных приложений или сервисов аналитики и тд, ближе к управлению данных о пользователях (customer data management), там есть много готовых решений.

Но когда дело доходит до открытых (читай - неуправляемых) источников данных, то приходится писать свои костыли. Но вообще скажу честно, проще автоматизировать оценку качества данных чем автоматическую очистку. Great Expectations активно используется в нескольких data pipelines продуктах именно с этой целью.

Читать полностью…

Открытые данные RU

Спасибо!

Наш случай таков: мы уже сделали сами некое ETL-решение, которое частично эту задачу решает, но в компании возникла инициатива приклеить к нему OpenRefine для интерактивности и для привлечения сотрудников (не разработчиков) к процессу с помощью удобного для них UI.

Спасибо за ссылки, буду смотреть.

Читать полностью…

Открытые данные RU

Здравствуйте. Я видел немного выше обуждение OpenRefine. Сам я ещё не успел с ней ознакомиться как следует, но: существуют ли прецеденты интеграции OpenRefine (через API) в потоковый процесс обработки данных?

Например:
- приходит файл с грязными данными, формат файла может быть каким попало;
- с помощью OpenRefine сотрудник Data Team смотрит на файл, чистит его;
- файл чистится и отправляется в data warehouse.

Вероятнее всего, похожие файлы будут появляться снова и снова, поэтому требуется сохранить preset, который система впредь к файлам от этого источника будет автоматически применять.

Существует ли опыт применения OpenRefine для таких задач? Или, может быть, на что-то другое надо посмотреть? Спасибо!

Читать полностью…

Открытые данные RU

Что такое аннотация, чем отличается от суммаризации? Коллекция открытых датасетов для русского https://github.com/natasha/corus/, https://github.com/natasha/corus/issues. В частности для суммаризации там ссылка на хороший обзор https://github.com/IlyaGusev/gazeta

Читать полностью…

Открытые данные RU

Да, честно говоря, как раз в области компьютерной лингвистики бесконечное число датасетов

Читать полностью…

Открытые данные RU

коллеги, которые занимаются NLP, спрашивают, почему новости для аннотирования не подходят )

Читать полностью…

Открытые данные RU

например, база научных статей

Читать полностью…

Открытые данные RU

Из нестандартных ходов - можно попросить совета у ФБК Краснодара. Они могут владеть какой-то информацией (а могут и не владеть).
Ну, и самый долгий путь - действительно собирать голосом, звоня в часы приёма (есть на местном сайте). Говорить, мол, хотим направить обращение граждан.

Так как они не получают ЗП и не являются чиновниками или служащими, никто их адреса давать не обязан, поэтому, мне кажется, идти через исполком (какой, кстати?) смысла нет.
Через партии - вариант, но только с партийными. А для этого надо поднимать историю вопроса - кто там партийный, а кто одномандатник.

Вообще да, грустно. Пыталась пробить нескольких человек. Так даже у руководителя какой-то местной федерации дзюдо и директора школы нет е-мэйлов. Только телефоны. Может, они вообще почтой не пользуются?
Какая задача стоит? Можно ли ее решить другим способом?

Читать полностью…

Открытые данные RU

У них их может и не быть

Читать полностью…

Открытые данные RU

Коллеги, может подскажите, где или как (скриптом, руками или голосом) можно найти email адреса депутатов конкретного района? Что-то грустно все с этим. Спасибо большое! Пишите: @ezhrv

PS в моем случае речь про Краснодарский край, Туапсинский район

Читать полностью…

Открытые данные RU

или демонстрация коммерческого успеха в продажи подобного

Читать полностью…

Открытые данные RU

Обычно у таких коммерческих продуктов есть списки рекомендованных консультантов и продавцы по странам. Я таких несколько знаю в Европе и РФ.

Читать полностью…

Открытые данные RU

Да, дешевле нанимать консультантов или внешние команды которые настраивают стек под ключ, сейчас большой рынок "небольшого" консалтинга в этой области по всему миру тех кто настраивает open source решения.

Читать полностью…

Открытые данные RU

Про great expectations могу порекомендовать aravinthR/great-expectations-set-expectations-on-your-data-ae9ccfb9dc6" rel="nofollow">https://medium.com/@aravinthR/great-expectations-set-expectations-on-your-data-ae9ccfb9dc6
Это не единственный продукт такого рода, есть много коммерческих, но ценник там соотвестстуующий

Читать полностью…

Открытые данные RU

> там нет контроля входящего потока на предмет пригодности к накладыванию этих скриптов.
То есть, если мы сказали OpenRefine "используй такой-то скрипт для обработки такого-то файла", и оказалось, что файл не того формата, каковой ожидает скрипт — мы не получим вразумительного описания ошибки?

Читать полностью…

Открытые данные RU

а точно OpenRefine так не может? Из него ведь можно выгружать скрипты изменений

Читать полностью…

Открытые данные RU

Анатолий, добрый день. Честно говоря, то что Вы описываете в OpenRefine делается, по умолчанию, только вручную. А вот эти функции - это характеристики больших тяжелых коммерческих продуктов, типа DataIku или сборки кучи мелких компонентов вручную. Такой опыт есть у многих, но он очень привязан к контексту. Универсальных решений нет( Если есть бюджет - я бы посоветовал внедрять коммерческую data платформу (ту же DataIku или DataBricks) или привлечь консультантов. Если бюджета нет, то OpenRefine для ручной работы, а presets делать через great expectations, DBT или один из ELT/ETL инструментов в зависимости от своего технического стека

Читать полностью…

Открытые данные RU

Можно у Киберленинки спросить

Читать полностью…

Открытые данные RU

Но я бы порекомендовал начать с дампа Википедии

Читать полностью…

Открытые данные RU

Как вариант, можно предобучить на новостях, а потом дообучить на небольшом целевом датасете, у аннотации есть несколько требований по сравнению с обычной суммаризацией текст, поэтому ищу датасет с научными статьями, но если его нет, тогда возьму только новости) Кроме датасетов Lenta и "Россия Сегодня", есть еще что-то?

Читать полностью…

Открытые данные RU

Да, но не могу найти такую базу в виде датасета( Где его можно посмотреть?

Читать полностью…

Открытые данные RU

Какой датасет подойдёт для задачи автоматической аннотации? Обычно для задач суммаризации берут данные новостей, но эти датасеты не подходят для аннотации

Читать полностью…
Подписаться на канал