دیتا ست های مقاله ارائه یک روش جدید پیش بینی لینک مبتنی بر اتوماتای توزیع شده در شبکه های اجتماعی و نتیجه حاصل ازمایش انها

نتایج آزمایش ها

در این بخش اثر الگوریتم پیشنهادی DLA-LP در شبکه های دنیای واقعی و همچنین عملکرد آن در برابر الگوریتم های سنتی پیش بینی لینک مبتنی بر شباهت مانند CN، Salton، Jaccard، Sorensen، HPI، HDI، LHN، PA، LP و Katz نشان داده می شود. تمامی آزمایش ها در سیستم عامل Microsoft windows 7 و نرم افزار Matlab 14.0 انجام شده اند.

دیتاست ها

در این مقاله به شش دیتاست مبنای ITN، Grid، PPI، NS، PB و USAir که هر یک نماینده زمینه خاصی می باشد، توجه شده است. جدول زیر خصوصیات توپولوژیکی بزرگترین کامپوننت متصل هر یک از این دیتاست ها که آزمایش بر روی آن صورت گرفته است را نمایش می دهد. در این جدول N و M به ترتیب تعداد گره ها و لینک های کل شبکه هستند. NUMc تعداد کامپوننت های متصل و نیز سایز (نعداد گره های) بزرگترین کامپوزیت متصل است. به عنوان مثال 2/1222 نشان می دهد که شبکه دارای 2 کامپوننت متصل است و بزرگترین آنها شامل 1222 کره می باشد. همچنین e مقدار efficiency شبکه، C ضریب خوشه بندی و r ضریب assorative و K میانگین درجه شبکه می باشند.

بررسی میزان دقت نتایج DLA-LP

در هر آزمایش یال های موجود هر گراف به صورت تصادفی به 10 زیر مجموعه تقسیم می شوند. از این 10 زیرمجموعه، یک زیر مجموعه به عنوان داده های معتبر برای آزمایش الگوریتم حفظ می شود و بقیه 9 زیر مجموعه به عنوان داده های آموزشی استفاده می شود و بقیه 9 زیر مجموعه به عنوان داده های آموزشی استفاده می شوند. سپس برای بررسی دقت نتایج، ماتریس شباهت که عبارت است از ماتریس احتمالات اتوماتا پس از 100 تکرار، توسط معیارهای سنجش  AUC و precision بررسی می شود. مقادیر جدول های 2 و 3 به ترتیب حاصل از میانگین گیری بر روی مقادیر AUC و precision مربوط به 10 آزمایش مستقل است که برای تولید یک تخمین واحد، میانگین گیری شده اند.

جدول زیر  میانگین امتیاز AUC به دست آمده توسط الگوریتم پیشنهادی DLA-LP را در مقایسه با 10 الگوریتم مختلف بر روی 6 دیتا ست نشان می دهد. در این جدول، بالاترین امتیاز AUC مشاده شده برای هر دیتا ست ها به صورت ضخیم مشخص شده است. در مطالعات قبلی نشان داده شده است که به طور کلی شاخل Katz بهترین عملکرد AUC را بر روی دیتاست ها دارد اما همانطور که در این جدول می بینیم، در میان 11 الگوریتم، DLA-LP بالاترین امتیاز AUC را بر روی 4 دیتاست دارا بوده و نتایج به دست آمده بر روی 2 دیتاست دیگر نیز با توجه به امتیازات سایر الگوریتم ها از جمله Katz قابل قبول است. مقایسه جدول های 1 و 2 متوجه می شویم که امتیازهای AUC دیتاست با ضرایب خوشه بندی آنها تقریبا مناسب است و الگوریتم روی دیتاست هایی با ضریب خوشه بندی بالاتر، نتایج بهتری تولید می کند.

 

در جدول زیر مقدار precision الگوریتم DLA-LP در مقایسه با 3 الگوریتم مختلف و بر روی 6 دیتاست مقایسه شده و نتایج برای L=100 به نمایش در آمده است. بر اساس مطالعات گذشته شاخل LP بهترین عملکرد precision را بر روی دیتاست ها دارد. اما همانطور که در این جدول می بینیم، الگوریتم DLA-LP بر روی نیمی از دیتاست ها با اختلاف فاحشی دقت بالاتری را به دست آورده است. از مقایسه جدول های 1 و 3 متوجه می شویم که امتیازهای AUC دیتاست با مقدار efficiency آنها متناسب است و الگوریتم روی دیتاست هایی با efficiency بالاتر، نتایج بهتری تولید می کند دلیل آنکه DLA-LP به چنین نتایج خوبی دست می یابد این است که از هردوی اطلاعات همسایگان مشترک و توپولوژیک گراف استفاده می نمایند که منعکس کننده دو ساختار محلی و سراسری شبکه و یافتن می باشند.

 

دیتاست مقاله پیش بینی لینک با در نظر گرفتن خوشه بندی

 

مجموعه داده ها (DATA SET)ممکن است برای اشاره به داده ها در یک مجموعه ای از جداول نزدیک ومرتبط ، مربوط به یک آزمایش یا رویداد خاص مورد استفاده قرار گیرد. توضیحات زیرمربوط به یک نمونه از این نوع مجموعه داده ه ای  جمع آوری شده توسطXu Feng, Jichang Zhao and، KeXua  برای پیش بینی لینک در شبکه های پیچیده با در نظر گرفتن خوشه بندی است.

 

مطالعه شبکه های پیچیده فراگیر موجود در دنیای واقعی و تجربی نشان می دهد که بسیاری از این شبکه اکثرا از نوع  "مقیاس ازاد"، (مدل بارباسی البرت)  هستند که این مدل شبکه ای قابل گسترش، برای توضیح مکانیسم  "قانون قدرت توزیع"، شناخته شده است .به عنوان مثال مدل BAرا در نظر بگیرید.ما از این مدل برای تولید شبکه های مصنوعی استفاده می کنیم. شبکه تولید شده توسط مدل BA را به عنوان(BA (N M در نظر می گیریم که در آن N اندازه شبکه تولید شده، m تعداد لینک هایی که با اضافه شدن گره های جدید ایجاد خواهند شد و همچنین درجه متوسط شبکه 2mاست. ما پنج شبکه را دراین DATA SET تولید میکنیم.

ما همچنین از سه شبکه پیچیده از رشته های مختلف در دنیای واقعی استفاده کرده ایم که به شرح زیر است:

 شبکه دانش، شبکه ای از دانشمندان که جدیدترین تالیفات خودشان را در موضوعات مختلف باهم به اشتراک می گذارند. در این شبکه 1589 دانشمند وجود دارد و  128 نفر از آنها از شبکه جدا شده اند که ما از انها در این آزمایش استفاده نمی کنیم.

شبکه برق یک شبکه برق به خوبی نشان دهنده شبکه پیچیده است، که در آن گره ها را ژنراتورها، ترانسفورماتور ها و پستها تشکیل می دهند و لبه (لینک ها ) خطوط انتقال بین آنها است

شبکه وبلاگ سیاسی که متشکل از سیاستمداران است که  در اینجا ما پیوندهای بین انها را بدون جهت در نظر می گیریم و ارتباطات بین خودشان حذف گردیده است. شرح مفصلی از این مجموعه داده ها در جدول 1 ذکر شده است.

 

 

شبکه

| V |

| E |

k

C

fGCC

 

BA(1000,2)

1000

1997

4

0.027

1

BA(1000,5)

1000

4985

10

0.039

1

BA(1000,10)

1000

9945

20

0.064

1

BA(2000,5)

2000

9985

10

0.024

1

BA(4000,5)

4000

19985

10

0.017

1

شبکه دانش

1461

2742

3.75

0.878

0.26

توزیع برق

4941

6594

2.67

0.107

1

وبلاگ سیاسی

1224

16715

27.31

0.36

0.998

 

جدول 1. مجموعه داده های مصنوعی و دنیای واقعی