
Linux/Unix
Product Overview
- ⾯向⼤模型训练的⽂本语料清洗库,支持文本语料数据的过滤、清洗、去重等功能
2.兼容Spark SQL、PySpark、Pandas等编程接口、统一Data + AI的高性能编程框架
3.提供基于C++的分布式计算编程底座,支持高性能数据处理模块的开发
4.处理海量超⼤规模图数据,提供了高性能的PageRank等图计算算法
5.⾯向海量超⼤规模数据集的机器学习库,提供了K-Means、KR等传统机器学习算法