ہسٹوگرام پر پی اسپارک ڈیٹا کو کیسے پلاٹ کریں۔

S Wgram Pr Py Aspark Y A Kw Kys Pla Kry



PySpark میں، ڈیٹا کا تصور ہسٹوگرام اور دیگر سازشی تکنیکوں کا استعمال کرتے ہوئے کیا جاتا ہے۔ اس سے ڈیٹا سائنس انجینئرز کو گرافیکل نمائندگی میں ڈیٹا کو سمجھنے میں مدد ملتی ہے۔ وقت ان کے لیے ایک اہم رکاوٹ ہے۔ ان تصورات کے ذریعے، وہ ڈیٹا کا زیادہ تیزی سے تجزیہ کر سکتے ہیں جب کہ ٹیکسٹ/csv اور دیگر ڈیٹا فارمیٹس کے مقابلے میں۔

اس گائیڈ میں، ہم دیکھیں گے کہ PySpark ڈیٹا کو ہسٹوگرام پر کیسے پلاٹ کیا جائے۔ ہم یہاں دو منظرنامے دیکھ سکتے ہیں۔ ہسٹوگرام PySpark Pandas DataFrame اور RDD ڈیٹا پر بنایا گیا ہے۔ ان دو منظرناموں کے لیے، PySpark دو افعال فراہم کرتا ہے: pyspark.pandas.DataFrame.plot.hist() اور pyspark.RDD.histogram۔

مواد کا موضوع:







Pyspark.pandas.DataFrame.plot.hist()

اس منظر نامے میں، ہسٹوگرام ڈیٹا کی گراف نما نمائندگی کے طور پر ظاہر ہوتا ہے جو افقی ایکس محور کے ساتھ کالموں (PySpark Pandas DataFrame سے) میں کلاسوں کی ایک رینج کو بالٹی بناتا ہے۔ y-axis ہر کالم کے لیے PySpark Pandas DataFrame میں موجود واقعات کی تعداد کی نمائندگی کرتا ہے۔



نحو:



pyspark_pandas_DataFrame.plot.hist(bins,...)

یہ بِنز کی کل تعداد کو اختیاری پیرامیٹر کے طور پر لیتا ہے جو کہ ایک عدد اور کچھ اختیاری مطلوبہ الفاظ کے دلائل ہیں۔ اگر ہر کالم کے لیے ڈبے مخصوص نہیں کیے گئے ہیں تو ایک بار بنتا ہے۔





PySpark پانڈاس ڈیٹا فریم پر ہسٹوگرام پلاٹ کریں۔

ایک PySpark Pandas DataFrame بنائیں جس میں 4 ریکارڈ کے ساتھ 2 کالم ہوں۔ plot.hist() فنکشن میں کوئی پیرامیٹر پاس کیے بغیر ہسٹگرام پلاٹ کریں۔

pyspark امپورٹ پانڈوں سے

pyspark_pandas_dataframe=pandas.DataFrame({ 'عمارت_اونچائی' :[ 120.56 , 234.67 , 12.0 , 200.45 'بلڈنگ_ایریا' :[ 2 , 3 , 1 , 4 ]})

پرنٹ (pyspark_pandas_dataframe)

# PySpark-Pandas ہسٹوگرام

pyspark_pandas_dataframe.plot.hist()

آؤٹ پٹ:



یہاں، کالم کے نام 'Building_height' اور 'Building_Area' ہیں۔

آئیے ہسٹوگرام دیکھیں:

پچھلے ڈیٹا فریم میں قطاروں کی کل تعداد 4 ہے۔ اس طرح، 4 ڈبے بنائے گئے ہیں۔

PySpark Pandas DataFrame پر Bins پیرامیٹر کے ساتھ ہسٹوگرام پلاٹ کریں۔

ایک PySpark Pandas DataFrame بنائیں جس میں 4 ریکارڈ کے ساتھ 2 کالم ہوں۔ plot.hist() فنکشن میں کوئی پیرامیٹر پاس کیے بغیر ہسٹگرام پلاٹ کریں۔

pyspark امپورٹ پانڈوں سے

pyspark_pandas_dataframe=pandas.DataFrame({ 'عمارت_اونچائی' :[ 120.56 , 234.67 , 12.0 , 200.45 'بلڈنگ_ایریا' :[ 2 , 3 , 1 , 4 ]})

# PySpark-Pandas ہسٹوگرام 2 ڈبوں کے ساتھ

pyspark_pandas_dataframe.plot.hist(bins= 2 )

آؤٹ پٹ:

یہاں، کالم کے نام 'Building_height' اور 'Building_Area' ہیں۔

آئیے ہسٹگرام دیکھیں - سرخ سے مراد 'Building_Area' اور نیلے رنگ سے مراد 'Building_height' کالم ہے:

جیسا کہ ہم نے بیان کیا، صرف 2 ڈبے اور 2 بار بنائے گئے۔ چار قطاریں یہاں 2 بالٹیوں میں بنی ہوئی ہیں۔

بالٹی نمبر بتا کر PySpark RDD پر ہسٹوگرام پلاٹ کریں۔

جب آپ RDD کے ساتھ کام کر رہے ہوتے ہیں، تو ہسٹوگرام کو ایک ٹیوپل کی شکل میں واپس کیا جا سکتا ہے جس میں ہر بالٹی میں موجود بالٹیاں اور کل قدریں شامل ہوتی ہیں۔

نحو:

pyspark_RDD.histogram(بالٹیاں)

اس منظر نامے میں، ہم ہسٹوگرام میں شامل بالٹیوں (انٹیجر) کی تعداد کو پاس کرتے ہیں۔ یہ فہرستوں کا مجموعہ لوٹاتا ہے جس میں درج ذیل فارمیٹ میں بالٹی رینجز اور متعلقہ قدر کے واقعات شامل ہیں: ([بالٹی کی حدود…]، [قدر کے واقعات…])۔

مثال 1:

آئیے 10 اقدار کے ساتھ 'Building_height' نامی RDD بنائیں اور 3 بالٹیوں کے ساتھ ایک ہسٹوگرام بنائیں۔

pyspark درآمد کریں۔

pyspark.sql سے SparkSession درآمد کریں۔

pyspark.rdd سے RDD درآمد کریں۔

spark_app = SparkSession.builder.appName( 'لینکس' .getOrCreate()

# 10 اقدار کے ساتھ ایک RDD بنائیں

عمارت کی اونچائی =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])

پرنٹ کریں( 'حقیقی:' ,Building_height.collect())

# 3 بالٹیاں بتانا

بلڈنگ_اونچائی۔ہسٹوگرام( 3 )

آؤٹ پٹ:

  1. بالٹی-1 کی رینج 12.0 سے 86.223 تک ہوتی ہے : اس رینج میں، بالٹی میں موجود اقدار کی کل تعداد 5 ہے۔
  2. بالٹی-2 کی رینج 86.223 سے 160.446 تک ہوتی ہے : اس رینج میں، بالٹی میں موجود اقدار کی کل تعداد 3 ہے۔
  3. بالٹی-3 کی رینج 160.446 سے 234.67 تک ہوتی ہے : اس رینج میں، بالٹی میں موجود اقدار کی کل تعداد 2 ہے۔

مثال 2:

پہلے سے بنائے گئے RDD پر 2 بالٹیوں کے ساتھ ایک ہسٹوگرام بنائیں۔

pyspark درآمد کریں۔

pyspark.sql سے SparkSession درآمد کریں۔

pyspark.rdd سے RDD درآمد کریں۔

spark_app = SparkSession.builder.appName( 'لینکس' .getOrCreate()

# 10 اقدار کے ساتھ ایک RDD بنائیں

عمارت کی اونچائی =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])

پرنٹ کریں( 'حقیقی:' ,Building_height.collect())

# 2 بالٹیاں بتانا

بلڈنگ_اونچائی۔ہسٹوگرام( 2 )

آؤٹ پٹ:

  1. بالٹی 1 کی رینج 12.0 سے 123.335 تک ہوتی ہے۔ اس رینج میں، بالٹی میں موجود اقدار کی کل تعداد 8 ہے۔
  2. بالٹی 2 کی رینج 123.335 سے 234.67 تک ہے: اس حد میں، بالٹی میں موجود اقدار کی کل تعداد 2 ہے۔

ہر بالٹی کا سائز بتا کر PySpark RDD پر پلاٹ ہسٹوگرام

پچھلے منظر نامے میں، ہم نے بالٹیوں کو RDD.histogram() فنکشن میں منتقل کیا۔ اب، ہم ایک کے بعد ایک فہرست کے اندر بالٹی کے سائز کو پاس کرتے ہیں اور اس فہرست کو اس فنکشن میں پیرامیٹر کے طور پر پاس کرتے ہیں۔ اس بات کو یقینی بنائیں کہ ہمیں کم از کم دو بالٹیاں بڑھتے ہوئے / چڑھتے ہوئے ترتیب دینے کی ضرورت ہے اور اس میں ڈپلیکیٹ قدریں نہیں ہوں گی۔

نحو:

pyspark_RDD.histogram([بکٹ رینجز…])

اس منظر نامے میں، ہم بالٹی (انٹیجر) کی تعداد کو پاس کرتے ہیں جو ہسٹوگرام میں شامل ہیں۔ یہ فہرستوں کا مجموعہ لوٹاتا ہے جس میں درج ذیل فارمیٹ میں بالٹی رینجز اور متعلقہ قدر کے واقعات شامل ہیں: ([بالٹی کی حدود…]، [قدر کے واقعات…])۔

مثال 1:

آئیے 10 اقدار کے ساتھ 'Building_height' کے نام سے ایک RDD بنائیں اور قدروں کی بکر رینج [0, 50, 100, 150, 200, 250] کے ساتھ ایک ہسٹوگرام بنائیں۔

pyspark درآمد کریں۔

pyspark.sql سے SparkSession درآمد کریں۔

pyspark.rdd سے RDD درآمد کریں۔

spark_app = SparkSession.builder.appName( 'لینکس' .getOrCreate()

# 10 اقدار کے ساتھ ایک RDD بنائیں

عمارت کی اونچائی =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])

پرنٹ کریں( 'حقیقی:' ,Building_height.collect())

# سائز کے ساتھ بالٹی کی وضاحت کرنا - [0,50,100,150,200,250]

Building_height.histogram([ 0 , پچاس , 100 , 150 , 200 , 250 ])

آؤٹ پٹ:

  1. بالٹی 1: (0 سے 50) : اس بالٹی میں کل اقدار 3 ہیں۔
  2. بالٹی 1: (50 سے 100) : اس بالٹی میں کل اقدار 2 ہیں۔
  3. بالٹی 1: (100 سے 150) : اس بالٹی میں کل اقدار 2 ہیں۔
  4. بالٹی 1: (150 سے 200) : اس بالٹی میں کل اقدار 2 ہیں۔
  5. بالٹی 1: (200 سے 250) : اس بالٹی میں کل اقدار 2 ہیں۔

مثال 2:

قدروں کی بالٹی رینج کے ساتھ ایک ہسٹوگرام بنائیں [0, 100, 200, 300]۔

pyspark درآمد کریں۔

pyspark.sql سے SparkSession درآمد کریں۔

pyspark.rdd سے RDD درآمد کریں۔

spark_app = SparkSession.builder.appName( 'لینکس' .getOrCreate()

# 10 اقدار کے ساتھ ایک RDD بنائیں

عمارت کی اونچائی =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])

پرنٹ کریں( 'حقیقی:' ,Building_height.collect())

# سائز کے ساتھ بالٹی کی وضاحت کرنا - [0,100,200,300]

Building_height.histogram([ 0 , 100 , 200 , 300 ])

آؤٹ پٹ:

  1. بالٹی 1: (0 سے 100)۔ اس بالٹی میں کل قیمت 5 ہے۔
  2. بالٹی 2: (100 سے 200)۔ اس بالٹی میں کل قیمت 3 ہے۔
  3. بالٹی 3: (200 سے 300)۔ اس بالٹی میں کل قیمت 2 ہے۔

نتیجہ

ہم نے PySpark Pandas DataFrame اور RDD پر PySpark میں ہسٹوگرامس بنانے کا طریقہ دیکھا ہے۔ histogram() وہ فنکشن ہے جو RDD ڈیٹا پر ہسٹوگرام حاصل کرنے کے لیے استعمال ہوتا ہے۔ plot.hist() PySpark Pandas DataFrame پر ہسٹوگرام دکھانے کے لیے استعمال ہوتا ہے۔ ہم نے تمام پیرامیٹرز کا احاطہ کرتے ہوئے مثالوں کے ساتھ ان افعال پر تبادلہ خیال کیا۔