خلاصه
مهم ترین کاربرد داده کاوی در تلاش هایی است که برای استنتاج قواعد وابستگی از داده های تراکنشی صورت می گیرد. در گذشته، از مفاهیم منطق فازی و الگوریتم های ژنتیکی برای کشف قواعد وابستگی فازی سودمند و توابع عضویت مناسب از مقادیر کمی استفاده می کردیم. با وجود این، ارزیابی مقادیر برازش نسبتاً زمان بر بود. به دلیل افزایش های شگرف در قدرت محاسباتی قابل دسترسی و کاهش همزمان در هزینه های محاسباتی در طول یک دهۀ گذشته، یادگیری یا داده کاوی با به کارگیری تکنیک های پردازشی موازی به عنوان روشی امکان پذیر برای غلبه بر مسئلۀ یادگیری کند شناخته شده است. بنابراین، در این مقاله الگوریتم داده کاوی موازی فازی – ژنتیکی را بر اساس معماری ارباب – برده ارائه کرده ایم تا قواعد وابستگی و توابع عضویت را از تراکنش های کمی استخراج کنیم. پردازندۀ master مانند الگوریتم ژنتیک از جمعیت یگانه ای استفاده می کند، و وظایف ارزیابی برازش را بین پردازنده های slave توزیع می کند. اجرای الگوریتم پیشنهاد شده در معماری ارباب – برده بسیار طبیعی و کارآمد است. پیچیدگی های زمانی برای الگوریتم های داده کاوی ژنتیکی – فازی موازی نیز مورد تحلیل قرار گرفته است. نتایج این تحلیل تأثیر قابل توجه الگوریتم پیشنهاد شده را نشان داده است. هنگامی که تعداد نسل ها زیاد باشد، افزایش سرعت الگوریتم ممکن است نسبتاً خطی باشد. نتایج تجربی تیز این نکته را تأیید می کنند. لذا به کارگیری معماری ارباب – برده برای افزایش سرعت الگوریتم داده کاوی ژنتیکی – فازی روشی امکان پذیر برای غلبه بر مشکل ارزیابی برازش کم سرعت الگوریتم اصلی است.
کلمات کلیدی: داده کاوی، مجموعه های فازی، الگوریتم ژنتیک، پردازش موازی، قاعده اتحادیه
مقدمه
با پیشرفت روزافزون فن آوری اطلاعات (IT) ، قابلیت ذخیره سازی و مدیریت داده ها در پایگاه های داده اهمیت بیشتری پیدا می کند. به رغم اینکه گسترش IT پردازش داده ها را تسهیل و تقاضا برای رسانه های ذخیره سازی را برآورده می سازد، استخراج اطلاعات تلویحی قابل دسترسی به منظور کمک به تصمیم گیری مسئله ای جدید و چالش برانگیز است. از این رو، تلاش های زیادی معوف به طراحی مکانیسم های کارآمد برای کاوش اطلاعات و دانش از پایگاه داده های بزرگ شده است. در نتیجه، داده کاوی، که نخستین بار توسط آگراول، ایمیلنسکی و سوامی (1993) ارائه شد، به زمینۀ مطالعاتی مهمی در مباحث پایگاه داده ای و هوش مصنوعی مبدل شده است.
چکیده
شرکت های صنعتی و تولیدی که محصولات جدید تولید می کنند، می خواهند بدانند مشتریانشان چه احساسی نسبت به این محصولات دارند و این اطلاعات را می توان با مطالعه عقیده ها در پورتال های نظرسنجی بدست آورد. در عین حال، کاربران یا مشتریان نیز می خواهند بدانند کدام محصول را بخرند پس این نظرات را می خوانند و سعی می کنند تصمیم گیری کنند. دیده شده است که عقیده های آنلاین روز به روز محبوب تر می شوند و این عقاید، غنی بودن اطلاعات را نشان می دهند که می تواند برای صنعت و مشتریان مفید باشد. با این حال، اینجام این کار به صورت دستی سخت و زمانبر است. به عنوان مثال، سازمان های تولیدی ترجیح می دهند اطلاعات به فرمتی باشد که برای استفاده راحت تر باشد، پس اتوماتیک کردن این فرایند بسیار مفید است. اینجاست که عقیده کاوی به میان می آید. در وب، عقاید را می توان به فرم متن، تصویر، صوت یا داده ویدئویی بیان کرد. این مقاله از متن کاوی فاصله می گیرد چون در این زمینه بسیار کار شده است. عقیده کاوی را می توان یک زیر اصل از زبان شناسی محاسباتی تعریف کرد که با عقیده ای که یک سند بیان می کند در ارتباط است. طبقه بندی احساسات تعیین کننده ذهنیت، قطبیت (مثبت و منفی) و قدرت قطبیت (مثبت ضعیف، مثبت میانه و مثبت قوی) یک متن عقیده است. عبارات مختلفی توسط محققان استفاده می شود تا احساسات را طبقه بندی کنند: عقیده کاوی، تحلیل احساسات، استخراج احساسات یا رتبه بندی کارا. ما در این مقاله برای سادگی از عبارات عقیده کاوی که همه این عبارات را دربر می گیرد استفاده می کنیم.
زمینه های مرتبط با عقیده کاوی
استخراج اطلاعات (IE) : آیا تبدیل اطلاعات متنی بدون ساختار به فرمت ساخت یافته که عموماً در پایگاه داده ها ذخیره و برای اهداف داده کاوی استفاده می شود، بر اساس یادگیری زبان ماشین است. داده های خاص، استخراج و در قالب موجود قرار می گیرند. این کار دقت اطلاعات بازیافتی را بهبود می بخشد و می تواند به عنوان پایه ای برای گروه بندی داده های استخراج شده استفاده شود.
دسته: کامپیوتر
حجم فایل: 49 کیلوبایت
تعداد صفحه: 9
Fuzzy clustering
Fuzzy c-mean
چکیده
آنالیز خوشه ای (clustering) برای کلاس بندی مجموعه ای از موضوعات بکار می رود. در حالت crisp درجات عضویت موضوعات به کلاسها فقط می تواند صفر یا یک باشد اما در حالت فازی یک موضوع ممکن است با درجات عضویت مختلف (بین صفر و یک) به کلاسهای مختلف نسبت داده شود. برای برخورد با این موضوع الگوریتمهای فازی بوجود آمدند.
الگوریتمها:
– مجموعه فازی:
تقسیمبندی خوشهای:
تقسیمبندی خوشهای افزار یک مجموعه از دادهها یا اشیاء به چند خوشه است. این افزار بایستی دارای دور خاصیت زیر میباشد:
1- همگنی در داخل هر خوشه، بعبارت دیگر دادههای متعلق به خوشههای مشابه بایستی تا حد امکان مشابه باشند.
2- ناهمگنی در بین خوشهها، بعبارت دیگر دادههای متعلق به خوشههای مختلف بایستی تا حدامکان متفاوت باشند.
مفهوم تشابه با توجه به دادهها تعریف میشود. از آنجا که اغلب دادهها بصورت برداری میباشند، لذا فاصله اقلیدسی بین دادهها را میتوان بعنوان میزان عدم تشابه در نظر گرفت.
مسئله مهم در تقسیمبندی خوشهای، عددی بودن آن و نامشخص بودن تعداد خوشهها میباشد. دلایل زیادی را میتوان برای نشان دادن ارزشمند بودن تقسیمبندی خوشهای ارائه داد. اولاً تقسیمبندی خوشهای میتواند در پیدا کردن گروههای واقعی کمک ساز باشد. ثانیاً میتواند برای کاهش دادهها مفید باشد از طرف دیگر تقسیمبندی خوشهای ممکن است، گروههای غیرقابل انتظاری را ایجاد نماید. در اینصورت نتیجه حاصل بیانگر روابط جدیدی خواهد بود، که بایستی مورد بررسی قرار گیرند.
کلاسه بندی
فرایندی دو مرحله ای است:
ساخت مدل:
تحلیل یک مجموعه آموزشی که مجموعه ای از تاپل های پایگاه است و مشخص کردن برچسب کلاس های مربوط به این تاپل ها.
یک تاپل X با یک بردار صفت X= (x۱,x۲,.,xn) نمایش داده می شود. فرض می شود که هر تاپل به یک کلاس از پیش تعریف شده متعلق است.
هرکلاس با یک صفت که به آن صفت برچسب کلاس می گوییم مشخص می شود.
مجموعه آموزشی به صورت تصادفی از پایگاه انتخاب می شود.
به این مرحله، مرحله یادگیری نیز می گویند.
استفاده از مدل:
از طریق یک تابع y=f (X) برچسب کلاس هر تاپل X از پایگاه را پیش بینی می شود.
این تابع به صورت قواعد کلاسه بندی، درخت های تصمیم گیری یا فرمول های ریاضی است.
پیش زمینه: مقدار اطلاعات بیولوژیکی در دسترس به سرعت رو به افزایش بوده و تمرکز تحقیقات بیولوژیکی از بخش های مجزا به سمت شبکه ها و حتی پروژه های بزرگتر کشانده شده که هدف آن ها تجزیه و تحلیل، مدلسازی و شبیه سازی شبکه های بیولوژیکی و همچنین مقایسه در سطح بالای ویژگی های سلولی می باشد. بنابراین ضروری است تا اطلاعات بیولوژیکی به آسانی در دسترس باشد. به هر حال، بیشتر اطلاعات در تحقیقات انجام شده به صورت غیرساختاری بوده و به این خاطر روش هایی برای استخراج نظامند اطلاعات، مستقیما از تحقیقات اولیه می بایست توسعه یابد. شرح مطلب: در اینجا ما الگوریتم داده کاوی را برای استخراج اطلاعات سینتیک همانند و غیره و همچنین اطلاعات مربوطه همانند نام آنزیم ها، تعداد EC، لیگاندها، ارگانیسم ها، مناطق، PH و دما نشان می دهیم. با استفاده از این قوانین و رویکرد بر پایه واژه نامه، این امکان وجود دارد تا به اندازه 514394 پارامتر سینتیک 13 دسته (فعالیت های خاص) از حدود 17 میلیون مطالب نتتشر شده، استخراج کرده و آن ها را با داده های دیگر خلاصه مطالب دیگر ترکیب کنیم. تایید دستی تقریبا 1000 نتایج انتخاب شده تصادفی، موارد فراخوانی شده بین 51% و 84% و محدوده دقیق 55% تا 96% را نشان داده که بستگی به فهرست های جستجو شده دارد. نتایج در پایگاه داده ذخیره شده و توسط KID «یا پایگاه داده سینتیک» از طریق اینترنت در دسترس می باشد.
نتیجه گیری: الگوریتم نشان داده شده، اطلاعات مهمی را ارائه می دهد و کمکی به شتاب بخشیدن تحقیقات و تجزیه و تحلیل مورد نیاز برای روش های بیولوژی سیستم های امروزی می باشد. پایگاه های داده حاصل شده از تجزیه و تحلیل چکیده مقاله های منتشر شده می تواند کمک ارزشمندی در حوزه جنبش های بیولوژیکی و شیمی ایی باشد. این فرایند کاملا بر مبنای داده کاوی و همچنین تکمیل پایگاه داده ایجاد شده می باشد. این پایگاه داده از سایت http: //kid. tu-bs. de در دسترس است. کد مبدا الگوریتم تحت مجوز دولتی GNU ایجاد شده و بنا به درخواست محققان در دسترس قرار می گیرد.