بیگ دیتا به حجم بالایی از دادهها گفته می شود که روزانه بر حجم داده های بزرگ افزوده میشود و اطلاعات ارزشمندی را می توان از این مقدار داده استخراج کرد.
در این مقاله ، شما را با نحوه عملکرد کلان داده ، ویژگی ها ، انواع تجزیه و تحلیل کلان داده ، منابع و نمونه هایی از کلان داده آشنا میکنیم.
کلان داده یا بیگ دیتا یک اصطلاح تکاملی است که به توصیف مقدار زیادی از ساختار ، داده های نیمه ساختار یافته و بدون ساختارمی پردازد.
این داده ها قابلیت استخراج اطلاعات و استفاده از آنها در پروژه های یادگیری ماشین و سایر برنامه های تجزیه و تحلیل پیشرفته را دارد. و معمولاً بر اساس سه چیز تعریف می شود:
حجم داده عظیم ، طیف گسترده ای داده ها و سرعت پردازش انها که این ویژگیها ابتدا توسط داگ لانی ، تحلیلگر گارتنر شناسایی و در گزارشی از سال ۲۰۰۱ منتشر شد. به تازگی ، چندین مورد دیگر اضافه شده است ، از جمله: صداقت ، ارزش و تنوع.
هر چند داده های بزرگ برابر هیچ مقدار خاصی از داده ها برابر نیست ، این اصطلاح اغلب برای تصحیح ترابایت ، کلمات و اگزابایت داده ها در طی زمان استفاده میشود.
بیگ دیتا را می توانید به صورت قابل فهم و بدون ساختار طبقه بندی کنید. داده های ساختار یافته شامل اطلاعاتی می شود که سازمان در پایگاه های داده مدیریت می کند و دامنه وسیعی دارد که عمدتا عددی است. داده های بدون ساختار اطلاعاتی هستند که سازماندهی نشده اند از مدل یا قالب از پیش تعیین شده تبعیت نمیکنند .
این داده ها اطلاعات جمع آوری شده از منابع رسانه های اجتماعی است که به سازمان ها کمک می کند تا اطلاعات مربوط به نیازهای مشتری را جمع آوری کنند.
عناوین محتوا
سه ویژگی سنتی بیگ دیتا
سه ویژگی سنتی بیگ دیتا شامل: حجم یا میزان داده ها ، سرعت جمع آوری این داده ها و انواع اطلاعات.کلان داده های شخصی و الکترونیکی ، از طریق پرسشنامه ، خرید محصول و آزمایش الکترونیکی جمع آوری می شوند. گاهی اوقات وجود سنسورها و سایر ورودی ها در دستگاه های هوشمند امکان جمع آوری داده ها در طیف وسیعی از شرایط را فراهم میکند.
همچنین بیگ دیتا اغلب در پایگاه های داده کامپیوتری ذخیره می شوند یا با استفاده از نرم افزار به طور خاص برای دسته مجموعه داده های بزرگ و پیچیده تجزیه و تحلیل می شوند که بسیاری از شرکت های نرم افزاری در مدیریت این نوع داده های پیچیده به عنوان یک سرویس تخصص دارند.
اولین ویژگی بیگ دیتا ، حجم :
حجم ویژگی اصلی منحصر به فرد آن است. به نظر نمی رسد که تمرکز بر روی حداقل واحدهای ذخیره سازی تغییر زیادی کند ، زیرا حجم کل اطلاعات هر سال افزایش می یابد.
در سال ۲۰۱۰ ، تامسون رویترز در یک گزارش سالانه برآورد کرد که جهان بیش از ۸۰۰ نمایشگاه داده و پوشش گیاهی را تجربه می کند. هیچ کس واقعاً نمی داند که چقدر اطلاعات جدید تولید می شود ، اما میزان اطلاعات جمع آوری شده در هر سال بسیار حجم بالایی دارد .
دومین ویژگی بیگ دیتا ، تنوع :
تنوع یکی از هیجان انگیزترین تحولات فناوری است زیرا اطلاعات به مرور زمان بیشتر و بیشتر دیجیتالی می شود. انواع داده از جمله تاریخ ، مقدار و زمان جمع آوری شده در یک بیانیه است.داده های داخلی با داده های بدون ساختار ، که شامل مواردی مانند فیدهای توییتر ، فایل های صوتی ، صفحات وب ، عکس ها و موارد دیگر است ، روز به روز بیشتر می شوند.داده های بدون ساختار یک مفهوم اساسی در بیگ دیتا است.
بهترین راه برای شناسایی داده های بدون ساختار مقایسه کردن آنها با داده های ساختارمند است. داده های ساختار یافته را به نام داده های مشخص در مجموعه ای از قوانین در نظر بگیرید. به عنوان مثال ، پول عدد است حروف در متن بیان می شوند و تاریخ الگوی خاص زمانی را بیان می کند.
دومین ویژگی بیگ دیتا ، صحت :
صحت به قابلیت اطمینان داده ها اشاره دارد. آیا مدیر می تواند بر این واقعیت تأکید کند که داده ها نمایانگر او هستند؟ هر مدیری به خوبی می داند که تفاوت های قابل درک در همه داده های جمع آوری شده وجود دارد.
سومین ویژگی بیگ دیتا ، سرعت :
سرعت هم به معنی سرعت خواندن داده های ورودی برای پردازش است. در هر دقیقه از روز تصور کنید که چند پیام به روزرسانی فیس بوک یا پیام های موجودی کارت اعتباری از یک تلفن همراه خاص ارسال می شود. اینها همه نمونه هایی از سرعت بالا هستند.
چهارمین ویژگی بیگ دیتا ، ارزش :
برای برخی ممکن است بسیار سخت به نظر برسد ، اما یک هدف واقع بینانه برای این چهار پلتفرم بسیار حائز اهمیت است. آیا تا به حال بینش هایی را که از تجزیه و تحلیل خط تولید جدید ، فرصتی برای فروش متقابل یا اقدامی برای کاهش هزینه به دست اورده اید جمع آوری می کنید؟ یا تجزیه و تحلیل اطلاعات شما منجر به کشف کار علمی شود که مشکل شما و سازمان شما را بهبود بخشد؟
انواع تجزیه و تحلیل در بیگ دیتا
۱ : تجزیه و تحلیل پیش بینی
تجزیه و تحلیل مورد انتظار ممکن است در دسته رایج ترین تجزیه و تحلیل داده ها باشد ، که برای شناسایی روندها ، همبستگی ها و علل مورد استفاده قرار میگیرد . این طبقه بندی را می توان به مدل های پیش بینی کننده و مدل های آماری تقسیم کنیم . اما مهم است بدانید که این دو واقعاً با هم کار می کنند.
۲: تجزیه و تحلیل توصیفی
تجزیه و تحلیل داده های توصیفی جایی است که Big Data و AI گرد هم می آیند تا به پیش بینی نتایج و اقدامات کمک کنند. این طبقه بندی تجزیه و تحلیل را می توان بیشتر به عنوان بهینه سازی و ازمایشی بودن تفسیر کرد.
با استفاده از پیشرفت در یادگیری ماشین ، تجزیه و تحلیل توصیفی می تواند به سولاتی همچون “اگر ما این را امتحان کنیم؟” و “بهترین روش چیست؟” به هر متغیر بدون صرف وقت برای آزمایش پاسخ داد.
این تجزیه و تحلیل می تواند به شما در آزمایش متغیرهای مناسب کمک کند و حتی متغیرهای جدیدی را برای تولید نتایج مثبت تر پیشنهاد کند.
۳: تجزیه و تحلیل تشخیصی
اگرچه تجزیه و تحلیل داده های گذشته به اندازه تجزیه و تحلیل داده های آینده جذاب نیست ، اما یکی از مهمترین اهداف در راه اندازی یک کسب و کار است. تجزیه و تحلیل داده های تشخیصی یک فرایند بررسی داده ها برای درک علت و رویداد و علت وقوع آن است. تکنیک هایی مانند حفاری ، کشف داده ها ، داده کاوی و آداپتورها اغلب در این نوع تجزیه و تحلیل استفاده می شود.
به خصوص تجزیه و تحلیل داده های تشخیصی به ما کمک می کند تا بفهمیم چرا چیزی اتفاق افتاده است. مانند دیگر طبقه بندی ها ، این نوع تجزیه و تحلیل به دو دسته خاص تقسیم می شود که شامل شناسایی و طبقه بندی هشدار و طبقه بندی پرس و جوها و حفاری می شود.
پرس و جوها و تمریناتی هستند که برای به دست آوردن جزئیات بیشتر از گزارش استفاده می کنید. به عنوان مثال ، یکی از زمینه های فروش خود را در نظر بگیرید که در ماه گذشته کاهش چشمگیری داشته است.
یک حفاری می تواند روزهای کاری کمتری را نشان دهد ، به عنوان مثال ، نشان می دهد که آنها از مرخصی ماهانه دو هفته ای برای توضیح شیب استفاده کردند.
شما می توانید از تشخیص و هشدار استفاده کنید تا از مشکل احتمالی مطلع شوید و از قبل در مورد مشکلی که می تواند منجر به فروپاشی معامله شود هشدار دهید.
همینطور شما می توانید از تجزیه و تحلیل داده های تشخیصی برای کشف اطلاعاتی مانند بهترین نامزد برای موقعیت جدید در شرکت استفاده کنید.
۴: تجزیه و تحلیل توصیفی
ستون فقرات یک گزارش تجزیه و تحلیل توصیفی است. بدون آن شما نمی توانید یک ابزار BI و داشبورد دریافت کنید. این نوع تجزیه و تحلیل به چند سوال اساسی پاسخ میدهد ؟ در چه زمانی؟ کجا؟ و چه چیزی؟ می دهد.
شما می توانید همچنین این نوع تجزیه و تحلیل را به دو دسته تقسیم کنید: گزارش های متفرقه و گزارش های نگهداری شده. گزارش های نگهداری شده یا به اصطلاح فریز شده حاوی اطلاعاتی راجب یک موضوع می باشد.
۵ منبع برای بیگ دیتا
۱. رسانه
رسانه محبوب ترین منبع است. زیرا دیدگاه های ارزشمندی در تعاریف مصرف کننده و تغییر روند ایجاد می کند. این سریعترین راه برای کسب و کار برای بررسی عمیق مخاطبان است ، زیرا به طور خودکار همه موانع فیزیکی و جمعیتی را پخش می کند و بر آن غلبه می کند.چنین الگوها و نتیجه گیری می کند و قدرت تصمیم گیری را بالا می برد .
این رسانه ها شامل رسانه های اجتماعی و سیستم عامل های تعاملی مانند گوگل ، توییتر ، فیس بوک ، اینستاگرام و یوتیوب و همچنین رسانه های عمومی مانند عکس ها ، فیلم ها ، موسیقی و پادکست ها هستند که بینش کمی و کیفی را در هر جنبه ای از تعامل به کاربر ارائه می دهند.
۲. اطلاعات ابری
در حال حاظر شرکت ها با تغییر داده های ابری خود ، از منابع داده های سنتی پیشی گرفته اند. این منبع اطلاعات ساختار یافته و بدون ساختار را در اختیار شما قرار می دهد و کسب و کار را با اطلاعات و بینش هایی که کسب و کار در زمان واقعی جستجو می کند ، افزایش می دهد. ویژگی اصلی رایانش ابری انعطاف پذیری و گسترش است.
۳.وب سایت ها
وب سایت های عمومی داده های اطلاعاتی بزرگی دارند که به آسانی در دسترس و قابل دسترسی هستند. داده های وب معمولاً برای افراد و شرکتها به طور یکسان و یک شکل قابل دسترس است . به علاوه این که خدمات سریع و رایگان را برای همه ارائه می دهند. مخصوصاً برای شرکت های نوپا و تازه کار مفید است زیرا آنها مجبور نیستند برای توسعه زیرساخت های خود برای استفاده از کلان داده منتظر بمانند.
۴. اینترنت اشیاء
اینترنت اشیا برای محتوای تولید شده توسط دستگاه یا داده های تولید شده برای کلان داده ها هستند. این داده ها غالبا از حسگرهای متصل به دستگاه های الکترونیکی استخراج می شوند. قابلیت ارزیابی بستگی به توانایی حسگرها در ارائه اطلاعات دقیق در زمان حقیقی دارد. این اینترنت در حال رشد است و شامل اطلاعات بسیار زیادی است که می تواند نه تنها از رایانه ها و تلفن های هوشمند بلکه از هر دستگاهی منتقل شود. این داده ها را می توان از طریق وسایل پزشکی ، وسایل نقلیه ، بازی های ویدیویی ، دوربین ها ، لوازم خانگی و… منتشر کرد.
۵. پایگاه داده
این روزها اولویت شرکت ها این است که از ترکیبی از پایگاه های داده سنتی و مدرن برای به دست آوردن داده های مربوطه بزرگ استفاده کنند.
این یکی کردن راهی را برای یک مدل داده ترکیبی هموار می کند ، که نیاز به سرمایه گذاری کم و هزینه های زیرساخت فناوری اطلاعات کم دارد.
ضمن این ، پایگاه های داده برای اهداف تجاری متعددی استفاده می شود و از این پایگاه داده می توان برای استخراج بینش هایی استفاده کرد که کسب و کار را به سودآوری می رساند. محبوب ترین پایگاه های داده شامل انواع منابع داده مانند MS Access ، DB2 ، اوراکل ، SQL و آمازون ساده است.
روند استخراج و تجزیه و تحلیل داده ها در منابع داده بزرگ یک فرآیند مشکل است و می تواند خسته کننده و زمان بر باشد. اگر سازمانها تمام اقدامات احتیاطی لازم را انجام دهند ، منابع داده مربوطه را بررسی کرده و آنها را متناسب با اهداف سازمان خود تنظیم کنند ، این مسائل قابل حل است.
نمونه مثال هایی برای بیگ دیتا
۱.تاثیر بیگ دیتا درسرعت کار فست فودی ها
اولین مثال فست فود است. اگر سراغ فست فودهای مک دونالد و برگر کینگ برید ، متوجه می شوید که صف طولانی در پیش روی شماست. برای شما سخت است که مطمئناً منتظر بمانید و فکر می کنید که باید مدت زیادی در صف بمانید. در این مرحله متوجه می شوید که این چرخش بسیار سریعتر از آنچه انتظار دارید حرکت می کند و نوبت شماست.
پشت صحنه چه خبر است؟
چیزی که در پشت صحنه ممکن است به آن توجه نکرده باشید این است که Big Data به شما کمک کرد سفارش خود را کمی زودتر دریافت کنید. بعضی از رستوران ها شماره مشتری را روی صفحه LCD نمایش می دهند در اینجا کار می کند که اگر صف واقعاً پشتیبان گیری شده باشد ، ویژگی ها تغییر می کنند تا سرعت صف افزایش یابد.
اگر صف نسبتاً کوتاه است ، به ویژگی های حاشیه ای منو توجه بیشتری می کنند که آماده سازی آنها کمی بیشتر طول می کشد و این باعث می شود غذا با سرعت آماده شود.
۲. بررسی کردن گوشیهای هوشمند
بسیاری از ما امروزه واقعاً معتاد تلفن های خودهستیم . در حالی که زمانی تلفن همراه فقط برای دریافت تماس ها و پیام های متنی اصلی طراحی شده بود ، امروزه تلفن های همراه در واقع به رایانه های کوچکی تبدیل شده اند که جریان داده های بزرگ را پردازش می کنند و موانع جغرافیایی را از بین می برند.
وقتی به هتل می روید ، هیجان زده اید که اتاق خود را بررسی کرده و از امکانات آن لذت ببرید و به آن نزدیک شوید.
اما گاهی اوقات استفاده از صف های سرویس برای استفاده از سرویس ها می تواند زمان زیادی طول بکشد. ممکن است ، شما همیشه یک ترس گم کردن کلید اتاق خود دارید ، که می تواند آزاردهنده و هزینه بر باشد.
می توانید از تلفن هوشمند خود به عنوان توسعه دهنده در هتل های هیلتون و همچنین پیشخدمت و سایر خدمات از طریق یک برنامه تلفن همراه استفاده کنید و سفارش خود را ثبت کنید.
پشت صحنه چه خبر است؟
در سال ۲۰۱۷ نام تجاری هتل توانست با ۱۰ شعبه برجسته در انگلستان ارتباط برقرار کند و دلیل موفقیت آن این نوآوری بین المللی بود. به علاوه ، تجربه مهمان نوازی هتل را بدون وابستگی و ازاد تر می کند و نظرات جمع آوری شده از طریق این برنامه باعث بهبود کیفیت غذا و نوشیدنی های هتل شده است.
این مثال عالی از اطلاعات در هیلتون نشان می دهد که با درک قدرت اطلاعات و اتصال به دنیای دیجیتالی زمان حال ، می توان تجربه مشتری را تا حد قابل توجهی تغییر داد. با این پیشرفت ما انتظار داریم که ، هتل ها ، بارها و رستوران های بیشتری در آینده از این فناوری استفاده کنند.