Telegram-канал begtin - Ivan Begtin: Бизнес и стартапы

Ivan Begtin

12 октября 2022 20:36

Я продолжаю, постепенно, наводить порядок с унаследованным кодом который я же насоздавал за последние лет 10. Большая часть этого должно было быть в открытом доступе, всегда ограничения в том же на что я сетую - надо документировать.

Сейчас я выложил два репозитория.

Коллекция тетрадок по анализу данных [1]

Это подборка тетрадок для Jupyter Notebook по разным аспектам работы с госданными:
- datagovru - тетрадка для анализа статистики и реестра данных на портале data.gov.ru
- kremlinlaw - тетрадка с анализом статистики принятия законов собранных с kremlin.ru (не лучший источник)
- nalogstats - тетрадка с анализом статистики регистрации ИП и юр. лиц с сайта ФНС России
- ano-sub - тетрадка с анализом сумм выделяемых НКО через субсидии на основе уже закрытого Минфином реестра субсидий
- regbudgets-roskazna - тетрадка с кодом извлечения данных из отчётов федерального казначейства об исполнении федерального бюджета. Я её делал когда-то для оценки субсидирования СМИ и НКО, там есть примеры финансирования НКО

Последние две тетрадки я использую до сих пор для анализа госрасходов на НКО.

Библиотека анализа структуры госбюджета [2] писалась мной ещё довольно давно, изначально как API для анализа и сравнения изменений в бюджете. В качестве источника использовался budget.gov.ru портал электронного бюджета и был вариант использовать именно её в проекта Госрасходы, но, увы, качество данных в Электронном бюджете было и остаётся весьма посредственным до сих пор.
Сейчас я бы всё это переписал в универсальный формат описания и анализа финансовых данных, но мой интерес к анализу госфинансов слегка поугас за эти годы․

Финансовая отчетность политических партий [3] это код сбора файлов и архив самих финансовых отчетов политических партий за 2005-2020 годы. Сейчас всё это имеет скорее исторический смысл, чем какой-либо ещё. Для истории есть копия этих данных в @ruarxive, а в этом репозитории файлы и код их сбора. Но код применить сейчас сложно потому что ЦИК блокируют почти любые попытки выкачать с сайта что-либо не с помощью браузера. С другой стороны в этом архиве есть отчеты которые с сайта ЦИКа давно убраны. Например, на сайте ЦИКа отчеты начинаются с 2010 года, а здесь собраны с 2005.

Ссылки:
[1] https://github.com/ivbeg/runotebooks
[2] https://github.com/ivbeg/budgetlib
[3] https://github.com/infoculture/ru-cik-data

#opendata #opengov #opensource