بخشی از مقاله
چکیده
مجموعهداده شجرهنامهاي شامل اطلاعات با ارزشی در مورد میلیونها انسان و ارتباطات فامیلی گذشته و حال آنها میباشد. این خیل عظیم از داده میتواند در تشخیص انواع الگوهاي جعمیت انسانی کمکرسان باشد. در این مقاله، به بررسی ارتباط بین برخی فاکتورهاي مربوط به طول عمر انسانیتوزیعاز دادهجمعیتهاي شده در قرون گذشته میپردازیم. الگوریتم روشها و هاي مطروحه خود را بر روي مجموعهدادهشجرهنامهاي بزرگی که بیشاز یک میلیون پروفایل و بیش از 9 ﻣﻴﻠﻴﻮن ارتباط را شامل میشود، ارزیابی میکنیم. تمامی این دادهها از دانشگاه MIT گردآوري شدهاند.
این یافتههاي با ارزش نشان داد که یک همبستگی مثبت بین طول عمر و تعداد فرزندان در مردان و نیز همبستگی مثبت کمتري بین طول عمر و تعداد فرزندان در زنان وجود دارد. به علاوه با استفاده از ویژگیهاي استخراج شده و مدلهاي ساده رگرسیون خطی، همبستگی مهمی را بین سن مرگ اشخاص و سن مرگ برادر یا خواهر آن شخص، پدر و مادرش، همسرش، پدربزرگ و مادربزرگ وي پیدا کردیم.
-1 مقدمه
در دهه گذشته، وب سایتهاي وب 2، مانند ویکیپدیا2 و ردیت3 ، بسیار فراگیر شده و گسترش یافتهاند. وبسایتهاي وب2 فرصتهایی را در اختیار کاربران قرار دادند تا با یکدیگر ارتباط برقرارکرده، اطلاعات را به اشتراك گذاشته و مجموعه هاي دادهاي حجیمی متشکل از میلیون ها آیتم را ایجاد کنند. به عنوان مثال ویکیپدیا بیش از 4,3 میلیون مقاله و بیش از 127000 کاربر فعال دارد که به طور مرتب در ایجاد محتواي جدید براي سایت ها مشارکت دارند.
یک نوع از سایتهاي وب2 کهاخیراً بسیار مورد توجه قرار گرفته است، وبسایتهاي شجرهنامهاي هستند. وبسایتهاي شجرهنامه اي مانند MyHeritage، 4Ancestry، 5WikiTreeو 6Familypediaمیلیون ها کاربر دارند که از این وبسایت ها براي ایجاد، کشف و به اشتراكگذاري تاریخچه خانوادگی خود استفاده می کنند. این درختهاي فامیلی برخط شامل دادههاي شخصی از اعضاي خانوادگی کشورهاي مختلف است. آنها جزئیات بسیاري از اطلاعات شخصی خود و اعضاي خانوادهشان مانند تاریخ تولد، تاریخ وفات، جزئیاتی مربوط به نیاکان، فرزندان و بسیاري دیگر را در این سایتها قرار میدهند.
ساختار درخت فامیلی و جزئیات شخصی اعضاي خانوادهها که در این وبسایتهاي شجرهنامهاي ذخیره شدهاند، مجموعه دادهاي با مقیاس بزرگ ایجاد کرده که شامل میلیاردها ورودي داده از زندگی و مرگ انسان ها است. این مجموعهدادهاي میتواند براي آشکارسازي الگوهاي جالب، از تغییرات مربوط به طول عمر انسان ها در طول قرون و اعصار به کارگرفته شود. به علاوه این مجموعهدادهاي میتواند در درك بهتر و تشخیص خصیصه هایی که با تغییرات طول عمر انسانها همبستگی دارد، مورد استفاده قرار گیرد.
به عنوان مثال این مجموعههاي دادهاي میتواند براي پاسخگویی به این سوالات مورد کاوش و بررسی قرار گیرد: داشتن بیش از یک فرزند بر طول عمر اثر دارد؟ داشتن اجداد با طول عمر زیاد، زمان زندگی را افزایش میدهد؟ آیا ازدواج بر طول عمر اثر دارد؟ پاسخگویی به این گونه سوالات به دانشمندان کمک میکند تا راه حلهایی را براي ارائه نحوه زندگی موفقتر فراهم کنند. در این تحقیق الگوریتمهاي دادهکاوي را براي مجموعهداده هاي شجره نامه اي بزرگ جهت بررسی طول عمر انواع جمعیتهاي انسانی در طول بازههاي زمانی ارائه میکنیم. به علاوه روشهایی را براي بهکارگیري انواع مختلف از مجموعهدادهاي در کشف ارتباطات طول عمر انسان ها بهکار میگیریم.
براي تست و ارزیابی الگوریتمهاي خود از دادههاي جمعآوري شده دانشگاه MIT که مشتمل بر اطلاعات بیش از 5 میلیون پروفایل شخصی کاربران که آنها خود ایجاد کردهاند،استفاده کردهایم.7 با تجزیه و تحلیل مجموعه دادهاي مذکور، آمارهاي گوناگونی مرتبط با طولعمر جمعیتهاي انسانی در برخی کشورها را محاسبه کردیم. در نتیجه این تجزیه و تحلیل چندین الگوي تاریخی طول عمر جالب پیدا کردیم.
با بهکارگیري مجموعه دادهاي مذکور، خصیصه هایی مانند سن فوت فرد،سن فوت برادر یا خواهر آن شخص، پدر و مادرش، همسرش، پدربزرگ و مادربزرگش، تعداد فرزندان، جنسیت و مکان زندگی را براي هر فرد استخراج کردیم. با استفاده از ویژگیهاي استخراج شده و مدلهاي ساده رگرسیون خطی، همبستگی مهمی را بین سن مرگ اشخاص و سن مرگ برادر یا خواهر آن شخص، ﭘﺪر و ﻣﺎدرش، همسرش، پدربزرگ و مادربزرگ وي پیدا کردیم.
-2موارد مشابه و وابسته
فاکتورهایی که بر طول عمر انسانها موثرند به طور کامل در دهههاي گذشته مورد مطالعه و تحقیق قرار گرفتهاند. در سالهاي اخیر مطالعات بسیاري در مورد ارتباط و همبستگی بین طول عمر والدین و فرزندانشان و نیز بین طول عمر واﻟﺪﻳﻦ و تعداد ﻓﺮزﻧﺪاﻧﺸﺎن انجام شده است. در سال 1998 Westendorp و Kirkwood از یک ﻣﺠﻤﻮﻋﻪدادهاي تاریخی از خاندان سلطنتی انگلستان را براي مطالعه ارتباط بین طول عمر و تعداد فرزندان به کار گرفتند.
آنها کشف کردند که همبستگی مثبت بین طول عمر و زمان تولد نخستین فرزند و یک رابطه منفی با تعداد فرزندان وجود دارد .[2]در سال 2000، Thomasبا استفاده از یک مجموعه داده متعلق به 153 کشور به مطالعه ارتباط بین طول عمر و باروري پرداخت. وي دریافت که انسانهایی که در زمان جوانی دوران تولیدمثل سنگینی را گذراندهاند، بهطور میانگین تولید مثل موفقی با طول عمر کوتاه داشتهاند .[3]در سال 2001، Mitchell از داده شجرهنامهاي اعضاي قدیمی Amish براي تخمین ارتباطات طول عمر والد- فرزندي استفاده کرد.
وي همچنین سن مرگ فرزند را به عنوان تابعی از سن مرگ والد تخمین زد. نتیجه مهم این تحقیق، وجود ارتباط بین سن مرگ والد و فرزندانش را نشان میداد .[4] در سال 2006، McArdleشجرهبه کمک دادههاي نامهاي از 2015 داده خصوصی که متعلق به اعضاي قدیمی جامعه Amish بود، به مطالعه ارتباط بین تعداد فرزندان و طول عمر افراد پرداخت. در این تحقیق آنها فهمیدند که طول عمر پدران تا 14 فرزند به طور خطی افزایش مییابد اما با هر افزایشی از این مقدار، دچار کاهش میشود.
5]در سال 2007، Le Bourg، مرور اجمالی از حاصل تحقیقات مربوط به ارتباط بین باروري و طول عمر را تحت شرایط مختلف ارائه داد. بر اساس یافتههاي وي، در شرایط طبیعی باروري، وقتی که تعداد فرزندان افزایش یابد، طول عمر کاهش نمییابد اما در جوامع مدرن وقتی که زنها بیشتر از 5 فرزند داشته باشند، میزان مرگ و میر افزایش مییابد. [6] بسیاري ازمطالعات ارتباطاتی را بین افزایش میزان مرگ و میر و عزاداري پیدا کردند که به آن تاثیر بیوگی - widow effect - نیز گفته میشود.
در سال 1969، Parkes اطلاعات 4486 فرد بیوه را که از سن 55 سالگی براي مدت 9 سال بیوه بودند، بررسی کرد. از این افراد بیوه، براي 213 نفر در طول 6 ماه نخست بیوه شدن، مرگ اتفاق افتاده بود، این میزان 40 درصد بیشتر از نرخ مردان متاهل همسر ازدست داده در سن مشابه بود.[7] در سال 1996، Martikainen مطالعهاي در ابعاد وسیع را بر روي دادههاي اختصاصی 1580000 فلاندي متاهل انجام داد و دریافت که میزان مرگ و میر با مقدار محرومیت و عزاداري مرتبط است.[8] در سال Elwert 2008 و Christakis تعداد 373189 زوجسالخورده در ایالات متحده آمریکا را بررسی کردند. آنها دریافتند که مرگ همسران، با نرخ متفاوت، تقریبا همیشه باعث افزایش میزان مرگ و میر همسر داغدیده شده است .
-3 روند کار
مجموعه دادهاي که از آن استفادهکردیم، از سایت دانشگاه MIT گرفته شده است.8 دادههاي موجود در لینک مربوطه را دانلود کرده و جهت انجام عملیات دادهکاوي مورد استفاده قرار دادیم. براي اینکه بتوانم از پس چالش تحلیل مجموعهداده شجرهنامهاي بسیار بزرگ با دههامیلیون رکورد از دادههاي مربوط به اطلاعات شخصی افراد و روابط بین آنها برآییم، ابتدا میبایست فایل دادهاي را به صورت عمومی و کلی تجزیه و تحلیل کرده و از ماهیت دادههاي جداول موجود در آن و ویژگیهاي مربوطهاش مطلع گردیم.
-5 نتایج وجود/عدم وجود همبستگی
- Correlation - مرگ برادر یا خواهر شخص، پدر و مادرش، همسرش، پدربزرگ و مادربزرگ وي است. نتایج حاصل از بررسی نشان داد که یک همبستگی مثبت بین طول عمر و تعداد فرزندان در مردان و همبستگی مثبت کمتري بین طول عمر و تعداد فرزندان در زنان وجود دارد. همبستگی مهمی را نیز بین سن مرگ اشخاص و سن مرگ برادر یا خواهر آن شخص، پدر و مادرش، همسرش، پدربزرگ و مادربزرگش پیدا کردیم.
از رگرسیون براي بهدست آوردن رابطه میان یک یا چند متغیر مستقل و یک متغیر وابسته استفاده کردیم. در این راستا دو معیار R-Squared و P-Value را بررسی نمودیم. معیار R-Square یک معیار آماري است که نشان میدهد رگرسیون ﺧﻄﻲ به چه میزان درست عمل کرده است. یک معیار توصیفانه - Descriptive - بین صفر تا یک است. براي یک مدل، هرقدر میزان R-Squared به صفر نزدیکتر باشد، مدل بهتر عمل کرده است.
براي ارزیابی این که آیا نتایج آزمایش به دلیل تصادف وشانس رخ داده یا خیر، ازP- Value استفاده کردیم. براساس آن ادعا میکنیم یافتههاي مطالعه ما ازلحاظ آماري معنیداري است یا خیر و یا اینکه چه میزان از نتایج به دلیل شانس اتفاق افتاده است. فرمول آماري Correlation یا همبستگی - 1 - ، از تقسیم covariance بر standard deviation بهدست میآید. - 1 - اگر این مقدار به یک نزدیک باشد، به معناي وجود وابستگی مثبت بین دو مقدار و نزدیکی به مقدار -1 وابستگی منفی را میرساند. نزدیکی به مقدار صفر، ارتباط خطی ضعیفی را بین متغیرها نشان میدهد.[10]