• පුවත්_බැනරය

සේවාව

Spark Streaming දත්ත පිරිසිදු කිරීමේ යාන්ත්‍රණය
(I) DStream සහ RDD
අපි දන්නා පරිදි, Spark Streaming ගණනය කිරීම Spark Core මත පදනම් වන අතර, Spark Core හි හරය RDD වේ, එබැවින් Spark Streaming ද RDD සමඟ සම්බන්ධ විය යුතුය. කෙසේ වෙතත්, Spark Streaming මඟින් පරිශීලකයින්ට RDD සෘජුවම භාවිතා කිරීමට ඉඩ නොදේ, නමුත් DStream සංකල්ප සමූහයක් සාරාංශ කරයි, DStream සහ RDD යනු ඇතුළත් සම්බන්ධතා වේ, ඔබට එය ජාවා හි සැරසිලි රටාව ලෙස තේරුම් ගත හැකිය, එනම්, DStream යනු RDD හි වැඩිදියුණු කිරීමකි, නමුත් හැසිරීම RDD ට සමාන වේ.
DStream සහ RDD යන දෙකටම කොන්දේසි කිහිපයක් තිබේ.
(1) map, reduceByKey වැනි සමාන පරිවර්තන ක්‍රියා ඇති අතර, Window, mapWithStated වැනි සමහර අද්විතීය ඒවා ද ඇත.
(2) සියල්ලටම foreachRDD, count, ආදී ක්‍රියා ක්‍රියා ඇත.
ක්‍රමලේඛන ආකෘතිය අනුකූල වේ.
(ආ) ස්පාර්ක් ප්‍රවාහයේ DStream හඳුන්වාදීම
DStream හි පන්ති කිහිපයක් අඩංගු වේ.
(1) InputDStream වැනි දත්ත මූලාශ්‍ර පන්ති, DirectKafkaInputStream වැනි විශේෂිත යනාදිය.
(2) පරිවර්තන පන්ති, සාමාන්‍යයෙන් MappedDStream, ShuffledDStream
(3) ප්‍රතිදාන පන්ති, සාමාන්‍යයෙන් ForEachDStream වැනි
ඉහත සිට, ආරම්භයේ (ආදානය) සිට අවසානය (ප්‍රතිදානය) දක්වා දත්ත DStream පද්ධතිය මගින් සිදු කරනු ලැබේ, එනම් පරිශීලකයාට සාමාන්‍යයෙන් RDD සෘජුවම ජනනය කර හැසිරවිය නොහැක, එනම් DStream හට RDD වල ජීවන චක්‍රය සඳහා වගකිව යුතු අවස්ථාව සහ බැඳීම ඇති බවයි.
වෙනත් වචන වලින් කිවහොත්, Spark Streaming සතුව ඇත්තේස්වයංක්‍රීය පිරිසිදු කිරීමකාර්යය.
(iii) Spark Streaming හි RDD උත්පාදන ක්‍රියාවලිය
Spark Streaming හි RDD වල ජීවන ප්‍රවාහය පහත පරිදි රළු වේ.
(1) InputDStream හි, ලැබුණු දත්ත KafkaRDD ජනනය කරන DirectKafkaInputStream වැනි RDD බවට පරිවර්තනය වේ.
(2) ඉන්පසු MappedDStream සහ අනෙකුත් දත්ත පරිවර්තනය හරහා, මෙම කාලය පරිවර්තනය සඳහා සිතියම් ක්‍රමයට අනුරූප වන RDD ලෙස කෙලින්ම හැඳින්වේ.
(3) ප්‍රතිදාන පන්ති මෙහෙයුමේදී, RDD නිරාවරණය වූ විට පමණක්, ඔබට පරිශීලකයාට අනුරූප ගබඩාව, අනෙකුත් ගණනය කිරීම් සහ අනෙකුත් මෙහෙයුම් සිදු කිරීමට ඉඩ දිය හැකිය.