Ngrams in texts categorization تصنيف أوتوماتيكي للنصوص باستعمال تقنية ال "نغرامس"
Auteur(s):
Al Johar Badr El berrichi Zakaria
Date de publication:
2007
Référence bibliographique:
Ngrams in texts categorization تصنيف أوتوماتيكي للنصوص باستعمال تقنية ال "نغرامس" Zakaria Elberrichi Badr Aljoharالمجلة العلمية لجامعة الملك فيصل العلوم الأساسية والتطبيقية جامعة الملك فيصلVol 8 no 2 (1428 H 2007) p p 2539El berrichi ZakariaAl Johar Badr
Résumé:
هذه الورقة تتناول التصنيف الأوتوماتيكي للنصوص والذي يعتمد على الإرشاد في اختيار التصنيف الملائم بناء على عدد من جزئيات الكلمات المحددة مسبقا الطريقة المقترحة في هذه الورقة تعتمد على التمثيل الشعاعي للوثيقة أو النص بناء على جزئيات الكلمات (ن غرامس) وليس على الكلمات وقد استخدم المعامل من 2 حرف إلى 5 حروف لكل صنف ليتم احتساب جزئيات كل صنف بناء على عدد مرات تكرار كل جزئية في الوثيقة أو النص يتم بعدها إنتاج جزئيات كل صنف ومن ثم تقلص عدد هذه الجزئيات باستخدام القانون الإحصائي (كاي 2) جميع التصنيفات المرشحة تعطي أوزان نسبية باستخدام مقياس (تي أف آي دي أف) ومن ثم يحتسب الفارق بين كل صنف وآخر باستخدام طريقة (الكوساين) أخيرا تضمنت الورقة نتائج تجارب أجريت على مدونات تحتوي على نصوص جمعت من وكالة رويترز ونصوص جمعت من مجموعات إخبارية، لتقييم مدى قوة وفاعلية الطريقة المقترحة وقد استخدم في التقييم دالة تجمع بين الدقة في التصنيف وإمكانية إعادة الاستعمال، حيث أظهرت النتائج أن الطريقة المقترحة حققت أداء جيد في تصنيف النصوص This paper deals with automatic classification of documents ; this is performed by a supervised classification since it operates on a set of preset classes The suggested approach is original since it is based on a vector representation of the documents centred not on the words but on the ngrams of characters for n varying from 2 to 5 Considering the significant number of the ngrams generated for each class we used in our work the law of 2 to reduce the number of the characteristic ngrams of each class The weighting of the vectors was done by using the measurement of the TFIDF and for the calculation of the distance between two vectors we used the method of the cosine The experiments were done on two wellknown corpora in the community of categorization the reuter 21578 and the 20 Newsgroups Evaluation of the approach was performed by using a function combining both precision and recall The results obtained show that the technique of the ngrams is very effective in the field of the categorization of texts