Введение в работу с Jupyter Notebook. Руководство по Jupyter Notebook

Data Science – многовекторная область исследования, где доминирующее место занимает анализ данных. Под ним подразумевается обработка больших массивов никак не организованной информации — для того, чтобы ее можно было использовать для принятия решений.

Анализ данных осуществляется с помощью различных инструментов, таких как SaS, Tableau, Microsoft Excel. Но также для этих целей применяется Python. Этот язык функциональный и прост в освоении новичками.

Создание Data_Science-проектов требует удобных и функциональных решений. Одним из них является Jupyter Notebook. Он прост в использовании. И код, и информация, которая выводится вследствие его исполнения, размещаются в виде единого файла с математическими уравнениями, текстовой информацией и визуальной информацией. Это позволяет структурировать и ускорить процесс разработки, так как вывод отображается в тот же момент. Именно это и стало причиной популярности этого инструмента в Data Science. Большая часть работ конкурсантов Kaggle создается именно с его помощью.

Сегодня рассмотрим все нюансы использования Jupyter Notebook.

Установка и настройка библиотеки

Самый простой способ установки Jupyter Notebook –  использование команды pip3.

pip3 install jupyter

А вот применять команду pip2 уже не рекомендуется, она устаревшая. Далее перемещаемся в папку, с которой будете взаимодействовать, с использованием команды cd в терминале или CMD (в зависимости от операционной системы). Далее воспользуйтесь следующей командой, чтобы включить инструмент.

jupyter notebook

После выполнения этой команды сервер будет запущен, а в браузере покажется страничка с адресом https://localhost:8888/tree.

Вот такая она на вид.

Введение в работу с Jupyter Notebook. Руководство по Jupyter Notebook

Все, теперь нам удалось запустить сервер. Надо создать Notebook и написать в нем какой-то код.

Основы

Для создания первого Notebook нужно обратить взор на главное меню и выбрать пункт «New» там. Затем появится кнопка «Python 3», по которой также нужно нажать. Теперь эта страница будет иметь следующий вид.Введение в работу с Jupyter Notebook. Руководство по Jupyter Notebook

Посмотрим на это изображение. Видим, что возле логотипа библиотеки есть надпись Untitled. На этом месте расположен заголовок. Чтобы его заменить, необходимо сделать клик мышью по нему. Например, можно дать ему название George’s Notebook.

Теперь давайте наполним модуль каким-то кодом. Видим, что первая строка обозначена ключевым словом In []. Это означает, что все, что находится в этом блоке, соответствует вводу. Чтобы наполнить блок кодом, используется синтаксис Python третьей версии.

Для проверки нажмите кнопку «Run». Сразу в Notebook отобразится вывод.

Введение в работу с Jupyter Notebook. Руководство по Jupyter Notebook

Как видим, очень удобно. Это позволяет тестировать каждый шаг и оперативно вносить изменения при обнаружении неполадок.

Как видно из скриншота выше, вместо In [] теперь написано In [1]. Это означает, что данная ячейка будет стартовать с самого начала. Та, которая будет запускаться после первой, будет иметь индекс 2 и так далее. Но последовательность не строгая. То есть, можно заменять значение, изменяя очередность выполнения команд.

Давайте небольшой пример. Сделаем две разные ячейки с выводом различных текстовых строк и сделаем так, чтобы сначала запускалась вторая, а потом первая. Для этого заменим цифры.

Введение в работу с Jupyter Notebook. Руководство по Jupyter Notebook

Если ячеек больше, чем одна, они могут обмениваться данными. Это позволяет использовать одну и ту же переменную во всем коде, а не объявлять ее каждый раз заново. Главное, чтобы первыми исполнялись те ячейки, где переменные объявлены.

Следите за тем, чтобы интерпретатор не обращался к переменных, о которых на данный момент не знает.

Добавление описания

Есть несколько инструментов, которые используются, чтобы добавлять описания к Notebook. Они полнофункциональные и позволяют выполнять полноценное форматирование текста. Например, создавать заголовки, списки, комментарии. 

Прежде всего, надо изменить тип на Markdown. Для этого делаем клик по меню «Code», и там выбираем опцию «Markdown». После этого тип ячейки будет изменен.

А теперь попробуем, как делаются несколько разных действий. Чтобы сделать заголовок, нужно использовать символ решетки (#). Чтобы сделать заголовки второго, третьего и так далее уровней, необходимо использовать соответствующее количество решеток.

Чтобы сделать шрифт курсивным, применим значок звездочки (*). А чтобы текст стал полужирным, нужно поставить две звездочки. А список делается так.

Введение в работу с Jupyter Notebook. Руководство по Jupyter Notebook

А теперь – практика

Давайте сделаем небольшой проект. Точнее, воспользуемся уже готовым. Для начала делаем ячейку Markdown с заголовком первого уровня. Чтобы его сделать, используем один знак #. А потом сделаем так, чтобы были добавлены все библиотеки, которые подлежат импорту. 

После этого прописываем первую ячейку, которая и будет импортировать библиотеки. Код, в целом, стандартный, но здесь есть только один момент. Необходимо прописать %matplotlib inline. 

Введение в работу с Jupyter Notebook. Руководство по Jupyter Notebook

После этого информация из CSV файла переносится в Notebook, из которых на вывод идут первые десять пунктов. Смотрите, как Jupyter представляет вывод функции .head() в табличной форме. Он прекрасно взаимодействует с библиотекой Pandas, которая используется для манипулирования данными.

Типичный пример взаимодействия библиотек – готовое решение под названием collaboratory. Это облачный Jupyter Notebook, разработанный Google с предустановленным пакетом Python.

Введение в работу с Jupyter Notebook. Руководство по Jupyter Notebook

Теперь попробуем сделать диаграмму непосредственно в нашем Notebook. Так как мы вверху написали строку %matplotlib inline, если написать plt.show, отрисовка диаграммы в выводе произойдет автоматически.

Обязательно посмотрите на то, как переменные применяются в следующих ячейках, если нажали кнопку «Run».Введение в работу с Jupyter Notebook. Руководство по Jupyter Notebook

Мы привели самый простой пример, как создается интерактивный проект с использованием рассматриваемой нами библиотеки.

Меню

Чтобы увеличить эффект от взаимодействия с этой библиотекой, следует воспользоваться главным меню. Оно состоит из нескольких пунктов, с использованием которых осуществляется взаимодействие с Notebook, можно читать более подробно о разных библиотеках, набираясь знаний. Также меню позволяет экспортировать проект для того, чтобы продемонстрировать его третьим лицам.

Рассмотрим некоторые пункты более подробно:

  1. Файл (File). Отсюда выполняются основные действия с файлом. Например, можно его переименовать или скопировать. В частности, здесь возможна загрузка Notebook в формате документов различных типов, начиная классическим pdf и заканчивая презентацией.
  2. Редактировать (Edit). Этот пункт необходим для выполнения основных операций с кодом: копирования, вставки или перемещения нужного фрагмента. В этом же меню есть функция изменения последовательности ячеек, что будет полезно при показе проекта. 
  3. Вид (View). Наиболее интересный подпункт из всех  – это Cell Toolbar, позволяющий присоединять к ячейкам другие компоненты. Также можно задать вид отображения. В частности, это полезно, если нужно использовать Notebook, чтобы презентовать какие-то данные. В целом, это меню нужно, чтобы настраивать внешний вид элементов Notebook.
  4. Вставить (Insert). Позволяет добавлять ячейки. Есть возможно как вставить перед, так и после выбранной.
  5. Ячейка (Cell). Это меню позволяет задать настройки ячейки, выбрав их тип или запускать их в определенной последовательности.
  6. Помощь. Здесь детальная инструкция по этому инструменту. Также здесь можно найти комбинации клавиш, позволяющих существенно ускорить работу. Кроме этого, в справочном разделе вы сможете найти документацию для библиотек, которые используются для продвинутой обработки данных с помощью Python.

Визуализация данных в 3D

Инструмент поддерживает визуализацию данных не только в 2D (таблицы и графики), но и 3D. Для начала необходимо использовать соответствующую библиотеку с помощью таких строк кода.

from mpl_toolkits import mplot3d

import numpy as np

А потом сделать 3D-проекцию с помощью таких строчек.

fig = plt.figure()

ax = plt.axes(projection=’3d’)

После запуска этих строк вывод будет следующим.

Введение в работу с Jupyter Notebook. Руководство по Jupyter Notebook

А вот если использовать этот скрипт, то тогда визуализация будет намного интереснее.

def f(x, y):

    return np.sin(np.sqrt(x ** 2 + y ** 2))

x = np.linspace(-6, 6, 30)

y = np.linspace(-6, 6, 30)

X, Y = np.meshgrid(x, y)

Z = f(X, Y)

ax = plt.axes(projection=’3d’)

ax.plot_surface(X, Y, Z, rstride=1, cstride=1,

                cmap=’viridis’, edgecolor=’none’)

ax.set_title(‘surface’);

Введение в работу с Jupyter Notebook. Руководство по Jupyter Notebook

Математические и научные обозначения

Чтобы в Jupyter Notebook использовать математические и научные уравнения, есть отдельный инструмент – LaTex. Это продвинутая система набора текста, которая содержит как функции для создания технической документации, так и научной. 

Давайте для примера введем следующую команду LaTex:

## $J(\theta_0) = \frac{1}{2m}\sum_{i=0}^{m} (h_\theta(x^{(i)}) — y^{(i)})^2$

В результате, будет такой вывод.

Введение в работу с Jupyter Notebook. Руководство по Jupyter Notebook

Выводы

В целом, это не совсем библиотека, хотя выше это слово и употреблялось для большего удобства восприятия. На деле, это веб-приложение, с помощью которого можно составлять документы, коды, тексты, рисунки и даже таблицы, как мы уже поняли выше.

То есть, у него спектр применения не ограничивается одним лишь написанием кода, хотя мы рассмотрели лишь этот аспект его использования.

Например, этот инструмент может использоваться и в сочетании с другими языками программирования. Просто Python является наиболее популярным. Поэтому чтобы использовать его, не нужно использовать какие-либо дополнительные команды.

ОфисГуру
Adblock
detector