γράφου του Web είναι ένα πλαίσιο για τη μελέτη του γραφήματος ιστοσελίδων. Γράφου του Web παρέχει απλούς τρόπους για να διαχειριστεί πολύ μεγάλα διαγράμματα, αξιοποιώντας τις σύγχρονες τεχνικές συμπίεσης. Πιο συγκεκριμένα, αυτή τη στιγμή από:
1. Ένα σετ από επίπεδα κωδικών, που ονομάζεται κώδικες, τα οποία είναι ιδιαίτερα κατάλληλα για την αποθήκευση των γραφικών παραστάσεων Ιστού (ή, σε γενικές γραμμές, ακέραιοι με διανομή ισχύος δικαίου σε ένα συγκεκριμένο εύρος εκθέτης). Το γεγονός ότι αυτοί οι κώδικες λειτουργούν καλά μπορεί εύκολα να ελεγχθεί εμπειρικά, αλλά προσπαθούμε επίσης να παρέχουν λεπτομερή μαθηματική ανάλυση.
2. Αλγόριθμοι για τη συμπίεση γραφήματα ιστοσελίδων που εκμεταλλεύονται συμπίεση χάσμα και referentiation (la LINK), intervalisation και κώδικες για να παρέχουν μια υψηλή αναλογία συμπίεσης: για παράδειγμα, η γραφική παράσταση WebBase (2001 crawl) συμπιέζεται στις 3.08 bits ανά σύνδεση, και ένα στιγμιότυπο περίπου 18.500.000 σελίδες του τομέα .uk συγκεντρώθηκαν από UbiCrawler συμπιέζεται σε 2,22 bits ανά σύνδεση (οι αντίστοιχοι αριθμοί για τις μεταφερθεί γραφήματα είναι 2.89 bits ανά σύνδεση και 1,98 bits ανά σύνδεσμο). Οι αλγόριθμοι που ελέγχονται από διάφορες παραμέτρους, οι οποίες παρέχουν διαφορετικές ανταλλαγές μεταξύ της ταχύτητας πρόσβασης και αναλογία συμπίεσης.
3. Αλγόριθμοι για την πρόσβαση σε ένα συμπιεσμένο γραφική παράσταση χωρίς στην πραγματικότητα να την αποσυμπίεση, χρησιμοποιώντας τεμπέλης τεχνικές που καθυστερούν την αποσυμπίεση μέχρι να είναι πραγματικά απαραίτητο.
4. Μια πλήρης, τεκμηριωμένη εκτέλεση των αλγορίθμων πάνω σε Java, που περιέχονται στο it.unimi.dsi.webgraph συσκευασία. Εκτός από ένα σαφώς καθορισμένο API, το πακέτο περιλαμβάνει αρκετές κατηγορίες που επιτρέπουν να τροποποιήσετε (π.χ. μεταφορά) ή ξανασυμπιέσει ένα γράφημα, έτσι ώστε να πειραματιστείτε με διάφορες ρυθμίσεις. Το πακέτο βασίζεται σε fastutil για ένα πλαίσιο συλλογές ειδικού τύπου, υψηλής απόδοσης, για MG4J για λίγο σε επίπεδο I / O, σχετικά με την κατανομή COLT για έτοιμο προς χρήση, αποδοτικοί αλγόριθμοι και για το GNU getopt για την ανάλυση της γραμμής εντολών.
5. Οι σειρές δεδομένων για πολύ μεγάλο διάγραμμα (π.χ., ένα δισεκατομμύριο συνδέσεις). Αυτά είτε συγκεντρώνονται από δημόσιες πηγές (όπως WebBase), ή παράγονται από UbiCrawler.
Στο τέλος, με γράφου του Web μπορείτε να έχετε πρόσβαση και να αναλύσουν ένα πολύ μεγάλο γράφημα διαδίκτυο, ακόμη και σε έναν υπολογιστή με μόλις 256 Mbytes μνήμης RAM. Χρησιμοποιώντας γράφου του Web είναι τόσο εύκολη όσο και την εγκατάσταση μερικά αρχεία βάζο και το κατέβασμα ενός συνόλου δεδομένων. Αυτό κάνει τη μελέτη φαινομένων όπως PageRank, διανομή των ιδιοτήτων γράφου του ιστού γράφημα, κλπ πολύ εύκολο
Τι είναι καινούργιο σε αυτή την έκδοση:.
- Αυτή η έκδοση προσθέτει διάφορες βελτιώσεις HyperANF, και μερικές διορθώσεις.
- γράφου του Web μπορεί τώρα να βρεθεί σε Maven Central.
Τι είναι καινούργιο στην έκδοση 2.4.5:
- Αυτή η έκδοση περιλαμβάνει την εφαρμογή του HyperANF, ένα νέο υψηλής επεκτασιμότητας αλγόριθμο για τον υπολογισμό της λειτουργίας γειτονιά ενός γραφήματος, και τις μεθόδους που υπολογίζουν τη μέση συντομότερη διαδρομή και άλλων δεδομένων που προκύπτουν από τη λειτουργία της γειτονιάς.
- Επιπλέον, μια πληθώρα στατιστικών στοιχείων είναι τώρα υπολογίζεται κατά τη διάρκεια της συμπίεσης.
Τι είναι καινούργιο στην έκδοση 2.4.4:.
- Μερικά παλιά επιλογές έχουν αφαιρεθεί
- Τα αρχεία ιδιοτήτων περιέχουν τώρα μια πληθώρα χρήσιμων στατιστικών στοιχείων.
- Τυχαία ταχύτητα πρόσβασης έχει βελτιωθεί.
Τι είναι καινούργιο στην έκδοση 2.4.3:
- Σταθερή ArrayListMutableGraph.addNodes () (χάρη στον Erik Lumer για την εύρεση και τον καθορισμό αυτό το σφάλμα).
- Νέες επιλογές για να μετατοπίσει την παραγωγή των γραφημάτων ASCII.
- RemappedImmutableGraph.successorArray (x) παρείχε την ίδια σειρά σε κάθε κλήση, καθιστώντας έτσι τα κληρονόμησε διαδόχους (χ) μέθοδος άχρηστα για να σαρώσετε παράλληλα διαφορετικές λίστες. Σταθερό (τώρα επιστρέφει ένα αντίγραφο του πίνακα, αντ 'αυτού).
- Νέα τυχαία μεταμόρφωση που μεταθέτει τυχαία ένα γράφημα.
Τι είναι καινούργιο στην έκδοση 2.4.2:
- Ένα νέο & quot? Συνθέτουν & quot? κατασκευή επιτρέπει να συνθέσετε (ARC-επισημασμένο) γραφήματα.
Τα σχόλια δεν βρέθηκε