Вопросы с тегом 'apache-spark'

Apache Spark - это библиотека распределенных данных с открытым исходным кодом для крупномасштабных вычислений данных в области данных.
4
ответа

Как найти медиану и квантили с помощью Spark

Как найти медиану RDD целых чисел, используя распределенный метод, IPython и Spark? RDD составляет приблизительно 700 000 элементов и поэтому слишком велик, чтобы собрать и найти медиану. Этот вопрос похож на этот вопрос. Однако ответом на...
задан 15.07.2015 в 16:11
3
ответа

Проблемы при создании простого приложения SparkSQL

Это довольно интересный вопрос. Я пытаюсь узнать о SparkSQL. Я следовал примеру, описанному здесь: Ссылка В Spark-shell все работает нормально, но когда я пытаюсь использовать sbt для создания пакетной версии, я получаю следующее сообщен...
задан 14.07.2014 в 19:34
3
ответа

Отфильтровать столбец данных Pyspark без значения None

Я пытаюсь отфильтровать фрейм данных PySpark с None в качестве значения строки: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), Row(dt_mvmt=None), Row(dt_m...
задан 16.05.2016 в 22:31
5
ответов

Как работает функция Distinct () в Spark?

Я новичок в Apache Spark и изучал основные функции. Было небольшое сомнение. Предположим, у меня есть RDD кортежей (ключ, значение) и вы хотите получить из них некоторые уникальные. Я использую функцию distinct (). Мне интересно, на каком основа...
задан 21.06.2015 в 01:47
6
ответов

Есть ли лучший способ отобразить весь Spark SQL DataFrame?

Я бы хотел отобразить весь Apache Spark SQL DataFrame с помощью Scala API. Я могу использовать метод show() : myDataFrame.show(Int.MaxValue) Есть ли лучший способ отобразить весь DataFrame, чем использовать Int.MaxValue ?     
задан 15.05.2015 в 18:25
2
ответа

Количество разделов в RDD и производительность в Spark

В Pyspark я могу создать RDD из списка и решить, сколько разделов иметь: sc = SparkContext() sc.parallelize(xrange(0, 10), 4) Как количество разделов, которые я решаю для разделения моего RDD, влияет на производительность? И как это завис...
задан 04.03.2016 в 17:13
4
ответа

Apache Spark vs Apache Ignite

В настоящее время я изучаю apache spark и apache ignite frameworks. Некоторые принципиальные различия между ними описаны в этой статье ignite vs spark Но я понял, что до сих пор не понимаю их целей. Я имею в виду, для каких проблем исправить б...
задан 16.03.2016 в 14:20
4
ответа

Как обрабатывать категориальные функции с помощью spark-ml?

Как обрабатывать категориальные данные с помощью spark-ml , а не spark-mllib ? Мысль о том, что документация не очень ясна, кажется, что классификаторы, например. RandomForestClassifier , LogisticRegression , имеют аргумент feat...
задан 28.08.2015 в 20:28
1
ответ

В Apache Spark, почему RDD.union не сохраняет разделитель?

Как все знают, что разделители в Spark оказывают огромное влияние на производительность любых «широких» операций, поэтому он обычно настраивается в операциях. Я экспериментировал со следующим кодом: val rdd1 = sc.parallelize(1 to 50).keyBy(...
задан 30.04.2015 в 22:49
2
ответа

Как перекрещивать проверку модели RandomForest?

Я хочу оценить случайный лес, обученный некоторым данным. Есть ли какая-либо утилита в Apache Spark, чтобы сделать то же самое или мне нужно выполнить кросс-проверку вручную?     
задан 24.09.2015 в 21:37