JuliaStats 是一个致力于为 Julia 提供高质量统计软件包的组织。
在 Julia 中实现面板分析模型和估计器。
难度。 中等。时长。 350 小时
面板数据是一种重要的统计数据,它处理跨时间对多个单元的观察。面板数据的常见例子包括经济统计数据(观察多个国家的数字随时间变化很常见)。这种纵向和横截面的数据结合可以有效地从数据中提取因果结构。
导师。 Nils Gudat,José Bayoán Santiago Calderón,Carlos Parada
必须精通至少一门统计计算语言,并且愿意在项目开始之前学习 Julia。
掌握基本统计推断,涵盖最大似然估计、置信区间和假设检验等主题。(必须在申请之前了解。)
对时间序列统计(例如 ARIMA 模型、自相关)或面板数据的基本了解。(可以在申请后学习。)
参与者将
学习并建立在过去的面板数据分析方法和软件包的基础上,例如 Econometrics.jl 和 SynthControl.jl。
将 TreatmentPanels.jl 泛化为一个抽象接口,用于处理和操作面板数据。
将 Econometrics.jl 等软件包提供的现有估计器集成到一个面板数据估计软件包中。
横截面和面板数据的计量经济分析,作者 Jeffrey Wooldridge
Distributions.jl 是一个提供基本概率分布和相关函数的软件包。
难度。 易-中。时长。 175-350 小时
必须精通 Julia。
大学水平的概率论导论,涵盖概率密度函数、矩和累积量、多元分布等主题。
对 Distributions.jl 的可能改进包括
新的分布族,例如椭圆分布或顺序统计量的分布。
当前分布的额外参数化和关键字构造函数。
扩展对转换变量分布的支持。
HypothesisTesting.jl 是一个实现一系列假设检验的软件包。
难度。 中等。时长。 350 小时
必须精通 Julia。
大学水平的概率论导论,涵盖概率密度函数、矩和累积量、多元分布等主题。
对 Distributions.jl 的改进包括
开发针对异方差的 Breusch-Pagan 检验
开发用于线性性的 Harvey-Collier 检验
开发用于随机性的 Bartlet 等级检验
开发 Wilcoxon–Mann–Whitney (WMW) 检验的精确动态规划解决方案
Alexander Marx 等人。(2016)“Wilcoxon–Mann–Whitney 检验的精确动态规划解决方案”基因组学蛋白质组学生物信息学,14, 55-61
在 Julia 中为统计建模实现一致的 API。
难度。 中等。时长。 350 小时
目前,Julia 统计生态系统相当分散。对各种统计模型拥有一个一致的 API 很有价值。 CRRao.jl 软件包提供了这种设计。
必须精通 Julia。
基本统计推断,涵盖最大似然估计、置信区间和假设检验等主题。
参与者将
帮助创建、测试和记录 Julia 的标准统计 API。
集成 MixedModels.jl
根据参与者的兴趣,对 JuliaStats 软件包进行一般性改进。
难度。 易-难。时长。 175-350 小时。
JuliaStats 提供了许多 Julia 中最流行的软件包,包括
StatsBase.jl 用于基本统计数据(例如权重、样本统计数据、矩)。
MixedModels.jl 用于随机和混合效应线性模型。
GLM.jl 用于广义线性模型。
所有这些软件包对 Julia 统计社区都至关重要,并且都可以改进。
导师。 Mousum Dutta,Ayush Patnaik,Carlos Parada
必须精通至少一门统计计算语言,并且愿意在项目开始之前学习 Julia。
掌握基本统计推断,涵盖最大似然估计、置信区间和假设检验等主题。
参与者将
让 JuliaStats 变得更好!这可以包括额外的估计器、新功能、性能改进或您感兴趣的任何其他内容。
StatsBase.jl 改进可能包括对累积量、L-矩或其他估计器的支持。
改进的非参数密度估计器,例如 R 中的 Locfit 中的密度估计器。
此软件包用于研究复杂的调查数据。现实世界调查的例子包括经济、健康和农业等领域的官方政府调查;金融和商业调查。社会和行为科学家(如政治学家、社会学家、心理学家、生物学家和宏观经济学家)也将在学术和理论环境中分析调查。随着在线管理调查的便利性,“大”调查数据集的流行程度激增。该项目旨在利用 Julia 的性能增强来创建一个针对现代“大型”调查的快速软件包。
难度。 易-难。时长。 175-350 小时
导师。 Ayush Patnaik
至少精通一门统计计算语言(Julia、R、Python、SAS、Stata 等),并且愿意在项目开始之前学习 Julia。
掌握基本统计和概率概念,最好来自学术课程。
(可选)任何先前的调查分析经验或课程,使用任何软件或工具。
该项目可以根据参与者的背景和兴趣进行调整,并且根据能力,可以创建几个独立的迷你项目。参与者可以潜在地在以下方面开展工作
使用泰勒线性化的广义方差估计方法
后分层、回归或校准、GREG 估计和相关方法。
将 Survey.jl 与 FreqTable.jl 连接,用于列联表分析,或用于生存分析,或用于机器学习库。
改进对具有或不具有替换的多阶段和与规模成比例的概率 (PPS) 抽样的支持。
关联检验(使用列联表)、Rao-Scott、广义线性模型的似然比检验、Cox 模型、对数线性模型。
处理缺失数据,如 mitools 这样的插补。