* РБК — новости

* *

Визуализация внутренних связей с Gephi. Часть 1. Подготовка данных

  1. Визуализация внутренних ссылок: шаг за шагом С Gephi можно проверить внутреннюю ссылку на сайт, а...
  2. Ползать с Кричащей Лягушкой
  3. Обработка данных для Gephi с помощью Excel

Визуализация внутренних ссылок: шаг за шагом

С Gephi можно проверить внутреннюю ссылку на сайт, а также визуализировать. Каждая целевая страница отображается в виде одной точки с относительным отношением к другой странице (какая страница связана и какие страницы ссылаются на нее) и даже в цвете для распознавания тематических кластеров на веб-сайте.

Gephi использует только импортированную запись. Все остальное рассчитывается, благодаря чему субъективность может быть исключена. Этот инструмент подходит как для агентств, так и для компаний, так как новые знания всегда можно получить с помощью Gephi.

Мы объясняем шаг за шагом, как визуализировать внутреннюю связь и как распознать меры из нее.

Как мне установить Gephi?

Чтобы использовать Gephi, должна быть установлена ​​как минимум Java 1.8.

Загрузка программного обеспечения может быть сделана непосредственно с сайт быть начато производителем. Программное обеспечение доступно для Windows, Mac OS X и Linux. Установка должна быть сделана с правами администратора и должна быть выполнена без каких-либо проблем. Так легко

При открытии программы может появиться следующее сообщение об ошибке. Неважно, была ли Java установлена ​​до установки Gephi или новее.

Рис.2 Ошибка Gephi: не удается найти Java 1.8 или выше

Ошибка вызвана тем, что Gephi не распознает путь к папке Java. Поэтому его необходимо ввести вручную в соответствующий файл. В файле gephi.conf должен быть указан путь к Java. Этот файл должен быть открыт в Блокноте или аналогичном редакторе и обычно находится по пути:

C: \ Program Files \ Gephi-0.9.2 \ etc (или где Gephi установлена ​​на компьютере)

и содержит в варианте по умолчанию спецификацию "#jdkhome =" / path / to / jdk "" в строке 11.

и содержит в варианте по умолчанию спецификацию #jdkhome = / path / to / jdk  в строке 11

Рис.3 Содержимое файла gephi.conf - Неверно

Это должно быть заменено на "jdkhome =" C: \ Program Files (x86) \ Java \ jre1.8.0_161 "" (здесь должен быть указан путь к папке Java.) Важно, чтобы знак # был удален в начале строки .)

Рис.4 Содержимое файла gephi.conf - Правильно

После этого Gephi можно открыть без проблем.

К сожалению, Gephi не может предоставить внутренние ссылки самостоятельно. Для этого в большинстве случаев необходим другой инструмент, который сканирует домен и отражает внутреннюю ссылку. Если не совсем Amazon, Wikipedia или Rakuten должны быть представлены, достаточно инструмента Screaming Frog . Для больших страниц вы должны использовать audisto , deepcrawl или аналогичные.

Для домена с менее чем 500 URL можно использовать бесплатную версию Screaming Frog. Кроме того, необходима платная версия, которая, правда, с 149 фунтами в год (около 170 евро) дешевле, чем у большинства конкурентов.

Далее рассматривается использование Screaming Frog.

Ползать с Кричащей Лягушкой

Для внутренней ссылки нам нужны HTML-страницы домена. Другие файлы, такие как JavaScript, изображения, CSS или аналогичные, могут быть исключены непосредственно перед сканированием. Это можно установить в разделе « Конфигурация»> «Паук» . Тем не менее, это возможно только в платной версии, экономит позже, но немного работы.

Рис.5 Настройки сканирования в Screaming Frog

Затем можно начать сканирование, введя правильный URL-адрес начальной страницы. В зависимости от домена, это может занять от нескольких минут до нескольких часов. После завершения все внутренние ссылки могут быть экспортированы. Лучше всего это сделать в разделе Массовый экспорт> Код ответа> Успешные ссылки (2xx), чтобы начать загрузку.

В результате экспортируются только внутренние ссылки с целевым кодом состояния 200 (ок). Это исключает прямые перенаправления (300 с) и страницы ошибок (400 с). Теперь эту таблицу нужно отредактировать только для Gephi, прежде чем можно будет отобразить домен и предпринять действия.

Обработка данных для Gephi с помощью Excel

Файл Screaming Frog содержит много данных, которые не нужны Gephi. По этой причине файл должен быть подготовлен. Для этого можно использовать любую программу для работы с электронными таблицами, например, Excel или OpenOffice Calc. Мы предпочитаем Excel, и в следующих шагах мы сосредоточимся на этой программе и ее функциях. Лучше всего действовать по следующей схеме:

  1. Удаление столбцов D - I: эта информация в столбцах не нужна в Gephi.
  2. В столбце A отфильтруйте все, что не содержит «AHREF», и удалите его: оно будет содержать только соответствующие ссылки (этот шаг можно пропустить, если использовалась конфигурация Spider)
  3. Удалить столбец A: этот столбец больше не требуется после шага 2
  4. Удалить дубликаты из столбцов A и B: если страницы ссылаются на страницу чаще, Gephi распознает их только как ссылку. Чтобы сжать файл соответственно для Gephi, его следует удалить. Отметьте два столбца и затем в разделе « Данные»> «Инструменты данных»> «Удалить дубликаты».
  5. Удалите ссылки на себя: многие страницы всегда ссылаются на себя (через основную навигацию, логотип, нижний колонтитул, неправильную крошку). Они также включены в таблицу данных, но не пригодны для последующего представления. Чтобы удалить их, используйте следующую формулу в столбце C: = IF (A1 = B1; 1; 0) (пример для строки 1 документа). Примените эту формулу соответственно для всех строк. Затем отфильтруйте внутри столбца значение «1» и удалите все эти строки. После этого столбец С может быть снова удален.
  6. Экспорт внешней ссылки: часто таблица также содержит ссылки на внешние домены. Чтобы их идентифицировать, столбец B должен быть отсортирован по алфавиту. Кроме того, вы можете также искать в столбце все, что не содержит имени хоста вашего собственного домена. Эти строки должны быть удалены в любом случае.
  7. Удалить изображения и PDF-ссылку: изображения и PDF-файлы иногда связаны в тексте. Это лучше всего отфильтровать в столбце B. В поиске фильтра введите наиболее распространенные окончания (.pdf, .png, .jpg, .gif) один за другим, а затем удалите строки.
  8. Сортировка нерелевантных URL-адресов. Этот шаг может занять больше или меньше времени в зависимости от домена, но еще более важен, поскольку в противном случае изображение в Gephi будет заполнено ненужными данными, и изображение станет более запутанным. Для этого лучше всего открыть второй файл Excel и вставить столбцы A и B исходного документа, один под другим, в столбец A нового документа. Затем все дубликаты должны быть удалены из этого нового столбца. Сортировать этот столбец. Чтобы получить четкое представление о Gephi, необходимо просмотреть список и записать все страницы, которые не имеют отношения к внутренним ссылкам (защита данных, условия и положения, выходные данные, страницы с разбивкой на страницы, поиск и т. Д.) И / или для поисковой системы без добавленной стоимости. есть (находятся на noindex). Они должны быть удалены из исходного документа в столбце A и столбце B. Для каждой рассматриваемой страницы в столбце найдите и удалите. Это также может быть сделано более легко через VLOOKUP.
  9. Переименуйте столбец B в «Target»: для Gephi столбец B необходимо переименовать, иначе инструмент не сможет обработать файл.
  10. Удалить имя хоста: поскольку мы смотрим только на внутренние ссылки и в строках содержатся только строки, имя хоста теперь должно быть удалено. Это позже упрощает визуализацию в Gephi. Для этого нажмите CTRL + H и найдите имя хоста (пример для нашего домена: https://www.internetwarriors.de), а затем нажмите replace (Важно: косая черта после имени хоста не должна быть удалена, в противном случае стартовая страница исчезнет)
  11. Объединение столбцов: Gephi может обрабатывать только файлы CSV. Соответственно, файл Excel должен быть подготовлен как CSV. Этому может помочь формула цепочки. В столбце C просто введите эту формулу = A1 & "," & B1 (пример для строки 1 в столбце C). Примените это для всех линий. Тогда формула должна быть удалена. Для этого отметьте полностью столбец C, нажмите CTRL + C, щелкните правой кнопкой мыши и в разделе «Вставка» выберите значения. Затем формула удаляется из столбца и заменяется значениями. Теперь столбцы A и B можно удалить, чтобы новое значение было новым столбцом A.
  12. Экспорт как CSV: теперь файл нужно экспортировать только как файл CSV. Под File> Save As с типом файла CSV (MS-DOS).

в вторая часть Давайте поговорим подробнее о функциях Gephi и о том, как сделать визуализацию в деталях.

Как мне установить Gephi?

Реклама

Популярные новости


Реклама

Календарь новостей

Реклама

Архив новостей

Реклама