ہسٹوگرام پر پی اسپارک ڈیٹا کو کیسے پلاٹ کریں۔

PySpark میں، ڈیٹا کا تصور ہسٹوگرام اور دیگر سازشی تکنیکوں کا استعمال کرتے ہوئے کیا جاتا ہے۔ اس سے ڈیٹا سائنس انجینئرز کو گرافیکل نمائندگی میں ڈیٹا کو سمجھنے میں مدد ملتی ہے۔ وقت ان کے لیے ایک اہم رکاوٹ ہے۔ ان تصورات کے ذریعے، وہ ڈیٹا کا زیادہ تیزی سے تجزیہ کر سکتے ہیں جب کہ ٹیکسٹ/csv اور دیگر ڈیٹا فارمیٹس کے مقابلے میں۔

اس گائیڈ میں، ہم دیکھیں گے کہ PySpark ڈیٹا کو ہسٹوگرام پر کیسے پلاٹ کیا جائے۔ ہم یہاں دو منظرنامے دیکھ سکتے ہیں۔ ہسٹوگرام PySpark Pandas DataFrame اور RDD ڈیٹا پر بنایا گیا ہے۔ ان دو منظرناموں کے لیے، PySpark دو افعال فراہم کرتا ہے: pyspark.pandas.DataFrame.plot.hist() اور pyspark.RDD.histogram۔

مواد کا موضوع:

PySpark پانڈاس ڈیٹا فریم پر ہسٹوگرام پلاٹ کریں۔
PySpark Pandas DataFrame پر Bins پیرامیٹر کے ساتھ ہسٹوگرام پلاٹ کریں۔
بالٹی نمبر بتا کر PySpark RDD پر ہسٹوگرام پلاٹ کریں۔
ہر بالٹی کا سائز بتا کر PySpark RDD پر پلاٹ ہسٹوگرام

Pyspark.pandas.DataFrame.plot.hist()

اس منظر نامے میں، ہسٹوگرام ڈیٹا کی گراف نما نمائندگی کے طور پر ظاہر ہوتا ہے جو افقی ایکس محور کے ساتھ کالموں (PySpark Pandas DataFrame سے) میں کلاسوں کی ایک رینج کو بالٹی بناتا ہے۔ y-axis ہر کالم کے لیے PySpark Pandas DataFrame میں موجود واقعات کی تعداد کی نمائندگی کرتا ہے۔

نحو:

pyspark_pandas_DataFrame.plot.hist(bins,...)

یہ بِنز کی کل تعداد کو اختیاری پیرامیٹر کے طور پر لیتا ہے جو کہ ایک عدد اور کچھ اختیاری مطلوبہ الفاظ کے دلائل ہیں۔ اگر ہر کالم کے لیے ڈبے مخصوص نہیں کیے گئے ہیں تو ایک بار بنتا ہے۔

PySpark پانڈاس ڈیٹا فریم پر ہسٹوگرام پلاٹ کریں۔

ایک PySpark Pandas DataFrame بنائیں جس میں 4 ریکارڈ کے ساتھ 2 کالم ہوں۔ plot.hist() فنکشن میں کوئی پیرامیٹر پاس کیے بغیر ہسٹگرام پلاٹ کریں۔

pyspark امپورٹ پانڈوں سے

pyspark_pandas_dataframe=pandas.DataFrame({ 'عمارت_اونچائی' :[ 120.56 , 234.67 , 12.0 , 200.45 ]، 'بلڈنگ_ایریا' :[ 2 , 3 , 1 , 4 ]})

پرنٹ (pyspark_pandas_dataframe)

# PySpark-Pandas ہسٹوگرام

pyspark_pandas_dataframe.plot.hist()

آؤٹ پٹ:

یہاں، کالم کے نام 'Building_height' اور 'Building_Area' ہیں۔

آئیے ہسٹوگرام دیکھیں:

پچھلے ڈیٹا فریم میں قطاروں کی کل تعداد 4 ہے۔ اس طرح، 4 ڈبے بنائے گئے ہیں۔

PySpark Pandas DataFrame پر Bins پیرامیٹر کے ساتھ ہسٹوگرام پلاٹ کریں۔

pyspark امپورٹ پانڈوں سے

pyspark_pandas_dataframe=pandas.DataFrame({ 'عمارت_اونچائی' :[ 120.56 , 234.67 , 12.0 , 200.45 ]، 'بلڈنگ_ایریا' :[ 2 , 3 , 1 , 4 ]})

# PySpark-Pandas ہسٹوگرام 2 ڈبوں کے ساتھ

pyspark_pandas_dataframe.plot.hist(bins= 2 )

آؤٹ پٹ:

یہاں، کالم کے نام 'Building_height' اور 'Building_Area' ہیں۔

آئیے ہسٹگرام دیکھیں - سرخ سے مراد 'Building_Area' اور نیلے رنگ سے مراد 'Building_height' کالم ہے:

جیسا کہ ہم نے بیان کیا، صرف 2 ڈبے اور 2 بار بنائے گئے۔ چار قطاریں یہاں 2 بالٹیوں میں بنی ہوئی ہیں۔

بالٹی نمبر بتا کر PySpark RDD پر ہسٹوگرام پلاٹ کریں۔

جب آپ RDD کے ساتھ کام کر رہے ہوتے ہیں، تو ہسٹوگرام کو ایک ٹیوپل کی شکل میں واپس کیا جا سکتا ہے جس میں ہر بالٹی میں موجود بالٹیاں اور کل قدریں شامل ہوتی ہیں۔

نحو:

pyspark_RDD.histogram(بالٹیاں)

اس منظر نامے میں، ہم ہسٹوگرام میں شامل بالٹیوں (انٹیجر) کی تعداد کو پاس کرتے ہیں۔ یہ فہرستوں کا مجموعہ لوٹاتا ہے جس میں درج ذیل فارمیٹ میں بالٹی رینجز اور متعلقہ قدر کے واقعات شامل ہیں: ([بالٹی کی حدود…]، [قدر کے واقعات…])۔

مثال 1:

آئیے 10 اقدار کے ساتھ 'Building_height' نامی RDD بنائیں اور 3 بالٹیوں کے ساتھ ایک ہسٹوگرام بنائیں۔

pyspark درآمد کریں۔

pyspark.sql سے SparkSession درآمد کریں۔

pyspark.rdd سے RDD درآمد کریں۔

spark_app = SparkSession.builder.appName( 'لینکس' .getOrCreate()

# 10 اقدار کے ساتھ ایک RDD بنائیں

عمارت کی اونچائی =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])

پرنٹ کریں( 'حقیقی:' ,Building_height.collect())

# 3 بالٹیاں بتانا

بلڈنگ_اونچائی۔ہسٹوگرام( 3 )

آؤٹ پٹ:

بالٹی-1 کی رینج 12.0 سے 86.223 تک ہوتی ہے : اس رینج میں، بالٹی میں موجود اقدار کی کل تعداد 5 ہے۔
بالٹی-2 کی رینج 86.223 سے 160.446 تک ہوتی ہے : اس رینج میں، بالٹی میں موجود اقدار کی کل تعداد 3 ہے۔
بالٹی-3 کی رینج 160.446 سے 234.67 تک ہوتی ہے : اس رینج میں، بالٹی میں موجود اقدار کی کل تعداد 2 ہے۔

مثال 2:

پہلے سے بنائے گئے RDD پر 2 بالٹیوں کے ساتھ ایک ہسٹوگرام بنائیں۔

pyspark درآمد کریں۔

pyspark.sql سے SparkSession درآمد کریں۔

pyspark.rdd سے RDD درآمد کریں۔

spark_app = SparkSession.builder.appName( 'لینکس' .getOrCreate()

# 10 اقدار کے ساتھ ایک RDD بنائیں

عمارت کی اونچائی =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 78 , 90 , 100 ])

پرنٹ کریں( 'حقیقی:' ,Building_height.collect())

# 2 بالٹیاں بتانا

بلڈنگ_اونچائی۔ہسٹوگرام( 2 )

آؤٹ پٹ:

بالٹی 1 کی رینج 12.0 سے 123.335 تک ہوتی ہے۔ اس رینج میں، بالٹی میں موجود اقدار کی کل تعداد 8 ہے۔
بالٹی 2 کی رینج 123.335 سے 234.67 تک ہے: اس حد میں، بالٹی میں موجود اقدار کی کل تعداد 2 ہے۔

ہر بالٹی کا سائز بتا کر PySpark RDD پر پلاٹ ہسٹوگرام

پچھلے منظر نامے میں، ہم نے بالٹیوں کو RDD.histogram() فنکشن میں منتقل کیا۔ اب، ہم ایک کے بعد ایک فہرست کے اندر بالٹی کے سائز کو پاس کرتے ہیں اور اس فہرست کو اس فنکشن میں پیرامیٹر کے طور پر پاس کرتے ہیں۔ اس بات کو یقینی بنائیں کہ ہمیں کم از کم دو بالٹیاں بڑھتے ہوئے / چڑھتے ہوئے ترتیب دینے کی ضرورت ہے اور اس میں ڈپلیکیٹ قدریں نہیں ہوں گی۔

نحو:

pyspark_RDD.histogram([بکٹ رینجز…])

اس منظر نامے میں، ہم بالٹی (انٹیجر) کی تعداد کو پاس کرتے ہیں جو ہسٹوگرام میں شامل ہیں۔ یہ فہرستوں کا مجموعہ لوٹاتا ہے جس میں درج ذیل فارمیٹ میں بالٹی رینجز اور متعلقہ قدر کے واقعات شامل ہیں: ([بالٹی کی حدود…]، [قدر کے واقعات…])۔

مثال 1:

آئیے 10 اقدار کے ساتھ 'Building_height' کے نام سے ایک RDD بنائیں اور قدروں کی بکر رینج [0, 50, 100, 150, 200, 250] کے ساتھ ایک ہسٹوگرام بنائیں۔

pyspark درآمد کریں۔

pyspark.sql سے SparkSession درآمد کریں۔

pyspark.rdd سے RDD درآمد کریں۔

spark_app = SparkSession.builder.appName( 'لینکس' .getOrCreate()

# 10 اقدار کے ساتھ ایک RDD بنائیں

عمارت کی اونچائی =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])

پرنٹ کریں( 'حقیقی:' ,Building_height.collect())

# سائز کے ساتھ بالٹی کی وضاحت کرنا - [0,50,100,150,200,250]

Building_height.histogram([ 0 , پچاس , 100 , 150 , 200 , 250 ])

آؤٹ پٹ:

بالٹی 1: (0 سے 50) : اس بالٹی میں کل اقدار 3 ہیں۔
بالٹی 1: (50 سے 100) : اس بالٹی میں کل اقدار 2 ہیں۔
بالٹی 1: (100 سے 150) : اس بالٹی میں کل اقدار 2 ہیں۔
بالٹی 1: (150 سے 200) : اس بالٹی میں کل اقدار 2 ہیں۔
بالٹی 1: (200 سے 250) : اس بالٹی میں کل اقدار 2 ہیں۔

مثال 2:

قدروں کی بالٹی رینج کے ساتھ ایک ہسٹوگرام بنائیں [0, 100, 200, 300]۔

pyspark درآمد کریں۔

pyspark.sql سے SparkSession درآمد کریں۔

pyspark.rdd سے RDD درآمد کریں۔

spark_app = SparkSession.builder.appName( 'لینکس' .getOrCreate()

# 10 اقدار کے ساتھ ایک RDD بنائیں

عمارت کی اونچائی =spark_app.sparkContext.parallelize([ 120.56 , 234.67 , 12.0 , 200.45 , 17.8 , 24 , 56 , 178 , 90 , 100 ])

پرنٹ کریں( 'حقیقی:' ,Building_height.collect())

# سائز کے ساتھ بالٹی کی وضاحت کرنا - [0,100,200,300]

Building_height.histogram([ 0 , 100 , 200 , 300 ])

آؤٹ پٹ:

بالٹی 1: (0 سے 100)۔ اس بالٹی میں کل قیمت 5 ہے۔
بالٹی 2: (100 سے 200)۔ اس بالٹی میں کل قیمت 3 ہے۔
بالٹی 3: (200 سے 300)۔ اس بالٹی میں کل قیمت 2 ہے۔

نتیجہ

ہم نے PySpark Pandas DataFrame اور RDD پر PySpark میں ہسٹوگرامس بنانے کا طریقہ دیکھا ہے۔ histogram() وہ فنکشن ہے جو RDD ڈیٹا پر ہسٹوگرام حاصل کرنے کے لیے استعمال ہوتا ہے۔ plot.hist() PySpark Pandas DataFrame پر ہسٹوگرام دکھانے کے لیے استعمال ہوتا ہے۔ ہم نے تمام پیرامیٹرز کا احاطہ کرتے ہوئے مثالوں کے ساتھ ان افعال پر تبادلہ خیال کیا۔

ہسٹوگرام پر پی اسپارک ڈیٹا کو کیسے پلاٹ کریں۔

Pyspark.pandas.DataFrame.plot.hist()

PySpark پانڈاس ڈیٹا فریم پر ہسٹوگرام پلاٹ کریں۔

PySpark Pandas DataFrame پر Bins پیرامیٹر کے ساتھ ہسٹوگرام پلاٹ کریں۔

بالٹی نمبر بتا کر PySpark RDD پر ہسٹوگرام پلاٹ کریں۔

مثال 1:

مثال 2:

ہر بالٹی کا سائز بتا کر PySpark RDD پر پلاٹ ہسٹوگرام

مثال 1:

مثال 2:

نتیجہ

زمرے

مقبول خطوط

MATLAB میں ایک سے زیادہ آؤٹ پٹ کے ساتھ فنکشن

سی ایس ایس کا استعمال کرتے ہوئے ہوور پر تصویر کو کیسے تبدیل کریں۔

MongoDB میں db.collection.count() کیا ہے؟

گٹ ریپوزٹری سے اعدادوشمار کیسے تیار کریں۔

C++ میں 'Cout مبہم ہے' خرابی۔

TypeScript میں فنکشن کی اقسام کی وضاحت کیسے کریں۔

غیر فعال بینڈ پاس فلٹر

کرچوف کے وولٹیج قانون اور توانائی کے تحفظ کو سمجھنا: ایک جامع گائیڈ

AWS Kinesis کس لیے استعمال ہوتا ہے؟

جب میک پر جم جاتا ہے تو ڈوکر کو زبردستی کیسے چھوڑیں؟

LangChain میں کیشنگ کے ساتھ کیسے کام کریں؟

پاور شیل کا استعمال کرتے ہوئے ونڈوز ڈیفنڈر کو کیسے آن کریں۔

LangChain میں ایجنٹوں کا استعمال کرتے ہوئے MRKL سسٹم کی نقل کیسے بنائیں؟

Raspberry Pi پر کونکی سسٹم مانیٹرنگ ٹول انسٹال کرنے کا طریقہ

Raspberry Pi ڈیوائس پر Raspberry Pi Bookworm کو کیسے انسٹال کریں۔

ڈسکارڈ کے ساتھ PS4 اکاؤنٹ کیسے بنائیں اور انٹیگریٹ کریں۔

جاوا میں ماحولیاتی متغیرات کیسے حاصل کریں؟

GitLab میں گروپ کیسے بنایا جائے؟

MongoDB Geospatial خصوصیات کو کیسے نافذ کریں۔

ویکی وزرڈز میں کیسے اڑنا ہے - روبلوکس