Apache Arrow 0.2.0 发布了。该版本解决了自第一个版本以来的 192 个 issue。Apache Arrow 是 Apache 基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。
这个版本是项目的一个重要里程碑,因为我们现在有集成测试验证 Java 和 C ++(和 Python)实现之间的二进制兼容性,这些测试现在正在 Travis CI 中连续运行。
其他值得关注的更新亮点:
A new streaming binary format (with Java and C++/Python implementations)
Prototype for dictionary-encoded data in memory
Significantly expanded Python functionality, particularly pandas and Apache Parquet interoperability
A JSON file "format" for specifying integration tests
Expanded zero-copy or low-overhead threadsafe IO for C++
Build and packaging improvements