表格数据 – 代码暑期项目

Parquet.jl 增强

难度:中等

时长:175 小时

Apache Parquet 是一种用于表格数据的二进制数据格式。它具有压缩和磁盘上数据集内存映射的功能。在 Julia 中实现一个不错的 Parquet 实现很可能具有很高的性能。它将作为以二进制格式分发表格数据的标准格式非常有用。存在一个 Parquet.jl 包,它具有 Parquet 读取器和写入器。它目前在非常基础的层面上符合 Julia 表格文件 IO 接口。它需要更多工作来添加对关键元素的支持,这些元素将使 Parquet.jl 可用于快速大规模并行数据处理。每个目标都可以作为单个、短期(175 小时)项目来实现。

资源

推荐技能: 熟悉 Julia 语言、Julia 数据栈以及编写高性能 Julia 代码。

预期成果: 取决于我们商定的具体项目。

导师: Tanmay Mohapatra

DataFrames.jl 连接增强

难度:困难

时长:175 小时

DataFrames.jl 是 Julia 中更流行的表格数据类型实现之一。它支持的功能之一是数据帧连接。但是,需要做更多工作来改进此功能。该项目的具体目标是(项目范围内的最终目标列表可以在稍后确定)。

资源

推荐技能: 熟悉 Julia 语言、Julia 数据栈以及编写高性能多线程 Julia 代码。有代码基准测试和编写测试的经验。了解连接算法(例如,在 DuckDB 等数据库或其他表格数据处理生态系统(例如 Polarsdata.table)中使用的算法)。

预期成果: 取决于我们商定的具体项目。

导师: Bogumił Kamiński