Forberedelser

I første time skal vi se litt på hva data-drevne prosjekter er for noe, snakke litt om hvordan undervisningen gjennomføres og begynne så smått å se på databehandling.

Følg instruksjonene under for å være forberedt til første time. Merk at det er en oppgave nederst på siden som kommer til å ta litt tid.

Installere JupyterLab

Vi skal bruke Python vha. Jupyter notebook i kurset. For å kunne gjøre datavitenskap trenger vi å installere noen pakker i python-installasjonen. I første omgang ønsker vi at dere skal kjøre JupyterLab på egen maskin. Dette kan installeres på flere forskjellige måter. Vi anbefaler å gjøre en av følgende:

  • Bruke Visual Studio Code med Jupyter-extension
  • Dersom du er komfortabel med terminalvinduet, og vet hva pip install er for noe, installer JupyterLab med kommandoen pip install jupyterlab. Vi anbefaler at du gjør dette i et virtual environment, for eksempel med pyenv-virtualenv.
  • Om du ikke er komfortabel med terminalen: Installer Anaconda. Der følger JupyterLab med, og fungerer fint.

Installere python-pakker og sjekke at de fungerer

Enten kjøre følgende kommando i terminalen:

pip install pandas numpy matplotlib

eller følgende kommando inne i JupyterLab:

!pip install -q pandas numpy matplotlib

[notice] A new release of pip is available: 23.3.2 -> 24.3.1
[notice] To update, run: pip install --upgrade pip

Test oppsettet med å se på data av ulike typer Iris

setosa versicolor virginica
drawing drawing drawing
import pandas as pd 
file_name = "https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-pages/data/iris.csv"
df = pd.read_csv(file_name)
df.head()
sepal_length sepal_width petal_length petal_width species
0 5.1 3.5 1.4 0.2 setosa
1 4.9 3.0 1.4 0.2 setosa
2 4.7 3.2 1.3 0.2 setosa
3 4.6 3.1 1.5 0.2 setosa
4 5.0 3.6 1.4 0.2 setosa

Etter kommandoen over skal du se en tabell med data fra Iris-datasettet.

import matplotlib.pyplot as plt 
plt.scatter(df["sepal_length"], df["sepal_width"])
plt.xlabel("sepal length")
plt.ylabel("sepal width")
Text(0, 0.5, 'sepal width')

fig, ax = plt.subplots(figsize=(8,6))

for species, s_df in df.groupby("species"):
    ax.scatter(s_df["sepal_length"], s_df["petal_length"], label=species)
plt.xlabel("sepal length")
plt.ylabel("petal length")
plt.legend()

Om alt dette fungerer, og du får opp noe som ligner på figurene over, er du klar for undervisningstime.