نتایج آزمایش ها
در این بخش اثر الگوریتم پیشنهادی DLA-LP در شبکه های دنیای واقعی و همچنین عملکرد آن در برابر الگوریتم های سنتی پیش بینی لینک مبتنی بر شباهت مانند CN، Salton، Jaccard، Sorensen، HPI، HDI، LHN، PA، LP و Katz نشان داده می شود. تمامی آزمایش ها در سیستم عامل Microsoft windows 7 و نرم افزار Matlab 14.0 انجام شده اند.
دیتاست ها
در این مقاله به شش دیتاست مبنای ITN، Grid، PPI، NS، PB و USAir که هر یک نماینده زمینه خاصی می باشد، توجه شده است. جدول زیر خصوصیات توپولوژیکی بزرگترین کامپوننت متصل هر یک از این دیتاست ها که آزمایش بر روی آن صورت گرفته است را نمایش می دهد. در این جدول N و M به ترتیب تعداد گره ها و لینک های کل شبکه هستند. NUMc تعداد کامپوننت های متصل و نیز سایز (نعداد گره های) بزرگترین کامپوزیت متصل است. به عنوان مثال 2/1222 نشان می دهد که شبکه دارای 2 کامپوننت متصل است و بزرگترین آنها شامل 1222 کره می باشد. همچنین e مقدار efficiency شبکه، C ضریب خوشه بندی و r ضریب assorative و K میانگین درجه شبکه می باشند.
بررسی میزان دقت نتایج DLA-LP
در هر آزمایش یال های موجود هر گراف به صورت تصادفی به 10 زیر مجموعه تقسیم می شوند. از این 10 زیرمجموعه، یک زیر مجموعه به عنوان داده های معتبر برای آزمایش الگوریتم حفظ می شود و بقیه 9 زیر مجموعه به عنوان داده های آموزشی استفاده می شود و بقیه 9 زیر مجموعه به عنوان داده های آموزشی استفاده می شوند. سپس برای بررسی دقت نتایج، ماتریس شباهت که عبارت است از ماتریس احتمالات اتوماتا پس از 100 تکرار، توسط معیارهای سنجش AUC و precision بررسی می شود. مقادیر جدول های 2 و 3 به ترتیب حاصل از میانگین گیری بر روی مقادیر AUC و precision مربوط به 10 آزمایش مستقل است که برای تولید یک تخمین واحد، میانگین گیری شده اند.
جدول زیر میانگین امتیاز AUC به دست آمده توسط الگوریتم پیشنهادی DLA-LP را در مقایسه با 10 الگوریتم مختلف بر روی 6 دیتا ست نشان می دهد. در این جدول، بالاترین امتیاز AUC مشاده شده برای هر دیتا ست ها به صورت ضخیم مشخص شده است. در مطالعات قبلی نشان داده شده است که به طور کلی شاخل Katz بهترین عملکرد AUC را بر روی دیتاست ها دارد اما همانطور که در این جدول می بینیم، در میان 11 الگوریتم، DLA-LP بالاترین امتیاز AUC را بر روی 4 دیتاست دارا بوده و نتایج به دست آمده بر روی 2 دیتاست دیگر نیز با توجه به امتیازات سایر الگوریتم ها از جمله Katz قابل قبول است. مقایسه جدول های 1 و 2 متوجه می شویم که امتیازهای AUC دیتاست با ضرایب خوشه بندی آنها تقریبا مناسب است و الگوریتم روی دیتاست هایی با ضریب خوشه بندی بالاتر، نتایج بهتری تولید می کند.
در جدول زیر مقدار precision الگوریتم DLA-LP در مقایسه با 3 الگوریتم مختلف و بر روی 6 دیتاست مقایسه شده و نتایج برای L=100 به نمایش در آمده است. بر اساس مطالعات گذشته شاخل LP بهترین عملکرد precision را بر روی دیتاست ها دارد. اما همانطور که در این جدول می بینیم، الگوریتم DLA-LP بر روی نیمی از دیتاست ها با اختلاف فاحشی دقت بالاتری را به دست آورده است. از مقایسه جدول های 1 و 3 متوجه می شویم که امتیازهای AUC دیتاست با مقدار efficiency آنها متناسب است و الگوریتم روی دیتاست هایی با efficiency بالاتر، نتایج بهتری تولید می کند دلیل آنکه DLA-LP به چنین نتایج خوبی دست می یابد این است که از هردوی اطلاعات همسایگان مشترک و توپولوژیک گراف استفاده می نمایند که منعکس کننده دو ساختار محلی و سراسری شبکه و یافتن می باشند.