летопись настройки

    NETWORK: BONDING (SL 4.7 CERN) HOSTS etc

     

    На fs:

     

    !запуск модуля ядра "bonding" -- file (fs)/etc/modprobe.conf

    !установка ifcfg -- files (fs)/etc/sysconfig/network-scripts/ifcfg-...

    установка ip-адресов

     

    !iptables -- file (fs)/etc/sysconfig/iptables

    !hosts -- file (fs)/etc/hosts

     

     

    на лезвиях:

    !запуск модуля ядра "bonding" -- file (blade)/etc/modprobe.conf

    !установка ifcfg -- files (blade)/etc/sysconfig/network-scripts/ifcfg-...

    установка ip-адресов (в файлах для blade1)

    !% установка route -- добавление в file (blade)/etc/rc.local

    route add -net 192.168.1.0 netmask 255.255.255.0 gw 192.168.1.1 dev eth0

    route add -host 192.168.1.1 gw 192.168.1.1 dev eth0

    route add -net 192.168.2.0 netmask 255.255.255.0 gw 192.168.2.1 dev bond0

    route add -host 192.168.2.1 gw 192.168.2.1 dev bond0

    route add -net 192.168.3.0 netmask 255.255.255.0 gw 192.168.3.1 dev bond1

    route add -host 192.168.3.1 gw 192.168.3.1 dev bond1

    ping fs -c 5

    !hosts -- file (blade)/etc/hosts

     

     

    #############################################################################################

     

    NFS

     

    На fs:

    !создание папки /users (папка /home не подходит для запуска программ и расшаривания, потому что в ней хранятся ключи ssh? которые должны быть свои для каждого лезвия)

    !создание записи в файле -- file (fs)/etc/exports

    /users   192.168.3.0/255.255.255.0(rw,no_root_squash,async,no_subtree_check,no_wdelay)

     

    на лезвиях:

    !создание папки /users (папка /home не подходит для запуска программ и расшаривания, потому что в ней хранятся ключи ssh? которые должны быть свои для каждого лезвия)

    !добавление в файл (blade)/etc/fstab

    fs:/users/    /users           nfs     intr,soft,lock

     

     

    !? VLAN на switch 202 (разделить eth0 и bond1) -- VLAN Configuration & Protocol-based VLAN Configuration (не знаю точно как правильно). По-видимому, это помогло, и действия !% можно не совершать.

    !% mount -a при загрузке (автоматически не всегда монтируется, м.б из-за firewall?) -- добавление в файл (blade)/etc/rc.local

    mount -a

    !% может быть и не нужно: vim /etc/init.d/netfs;

    insert: action $”Sleeping for 30 secs: ” sleep 30

    right after: [ ! -f /var/lock/subsys/portmap ] && service portmap start

    and right before: action $”Mounting NFS filesystems: ” mount -a -t nfs,nfs4

     

    ###############################################################################################

     

     

    USERS

     

    на fs:

    !добавление новых пользователей из файла /root/newusers с помощью скрипта /root/bin/newuser

     

    !создание user'a на fs (входит в скрипт newuser)

    adduser -u uid name

     

    !присвоение прав обладания своей папкой в /users: chown login:group /users/login -R (входит в скрипт newuser)

     

    !проверка ls /users -al

     

    !создание уведомлений для пользователей, входящих в систему: file /etc/motd

     

    (

    не получилось настроить: !создание уведомлений для пользователей, входящих в систему: file /etc/issue.net

     

    Последовательность Назначение

    d Вставляет текущий день в соответствии с localtime

    l Вставляет строку, в которой выполняется mingetty

    m Вставляет название архитектуры машины (эквивалент uname -m)

    n Вставляет имя хоста сетевого узла машины (эквивалент uname -n)

    o Вставляет доменное имя

    r Вставляет номер редакции операционной системы (эквивалент uname -r)

    t Вставляет текущее время в соответствии с localtime

    s Вставляет название операционной системы

    u или U Вставляет текущее число вошедших в систему пользователей; U вставляет "n пользователей", u вставляет только "n"

    v Вставляет версию операционной системы (эквивалент uname -v)

    )

     

     

     

    на blades:

    !создание user'a на blades (входит в скрипт newuser)

    /root/bin/rshall adduser -u uid name (file rshall написан м.храмцовым -- (fs)/root/bin/rshall)

     

     

    !!!!!!!!!!!на всех компьютерах (fs и blades) uid user'ов и групп должны совпадать для правильной работы NFS. При необходимости можно их поправить командами

    groupmod -g gid group

    usermod -u uid -g gid login

     

    !проверка ls /users -al

     

    !записать в папку /users/docs документацию по установленному ПО

     

     

     

     

    ###############################################################################################

     

     

    INTEL MPI

     

     

    на fs

     

    !записать в папку /home/login file .mpd.conf (fs)/home/login/.mpd.conf

    установить владельцем пользователя

    установить для него права на чтение и запись только обладателю

     

    !записать в папку /home/login file mpd.conf (fs)/home/login/mpd.hosts

     

     

    !установить беспарольный вход для всех пользователей (возложить на пользователей), запуская

    /SOFT/l_ict_p_3.2.020/sshconnectivity.exp /SOFT/l_ict_p_3.2.020/mashines.LINUX

    от имени каждого пользователя на fs (файл sshconnectivity.exp появляется после установки IntelMPI, файл mashines.LINUX нужно создать -- file (fs)/mashines.LINUX) (Беспарольный вход можно сделать вручную с помощью команд

    $ ssh-keygen -t rsa

    $ ssh blade mkdir -p .ssh

    $ cat ~/.ssh/id_rsa.pub | ssh blade 'cat >> .ssh/authorized_keys'

    $ ssh blade chmod 600 .ssh/authorized_keys

    если sshconnectivity.exp не работает)

     

    !установить intelMPI (или переустановить): запуск /SOFT/l_ict_p_3.2.020/install.sh

     

    !установить переменные (см. доки по intelmpi)

     

    !? прописать путь? /etc/init.d/theor.sh ? -- вписать в /etc/profile.d/impi.sh

     

    . /opt/intel/cc/11.0.074/bin/intel64/iccvars_intel64.sh

    . /opt/intel/fc/11.0.074/bin/intel64/ifortvars_intel64.sh

    . /opt/intel/impi/3.2.0.011/bin64/mpivars.sh

     

     

     

    на лезвиях

    !записать в папку /root file .mpd.conf (fs)/root/.mpd.conf

     

    !записать в папку /home/login/ file .mpd.conf (fs)/root/.mpd.conf (входит в скрипт newuser)

    установить владельцем пользователя(входит в скрипт newuser)

    установить для него права на чтение и запись только обладателю(входит в скрипт newuser)

     

    !для простого запуска через mpirun сделать alias в /etc/bashrc alias mpirun='mpirun -f /users/mashines.LINUX'

    mpirun используется в Torque. Поэтому alias такой: alias mpirun0='mpirun0 -f /users/mashines.LINUX -nolocal'

    при этом mpirun0 - копия mpirun в /opt/intel/impi/3.2.0.011/bin64 , a права на выполнение mpirun есть только у

    root (Torque запускает программы от имени root)

     

     

     

    VARIANT RSH

     

    na kazhdom blade ustanovit' rsh-server

    propisat' file /etc/hosts.equiv (theor userlogin)

    dopisat' v /etc/securetty "rsh" dlya vhoda root

    dopisat' /root/.rhosts (theor) dlya vhoda root

     

    PS: иногда на 5 и 6 блейдах выключается загрузка xinetd. Тогда нужно её добавить: chkconfig --level 3 xinetd on

     

     

    !тесты, встроенные в интел mpi:

    /opt/intel/imp/3.2/src/

    make -f make_ict

    например, пингпонг: mpirun0 -ppn 1 -np 2 ./IMB/IMP-MPI1 pingpong

    все тесты mpirun0 -ppn 1 -np 2 ./IMB/IMP-MPI1

     

    ##############################################################################################

     

    TORQUE

     

    ![root@theor torque-2.3.6]# ./configure --enable-docs

    remake: ./config.status

     

    ![root@theor torque-2.3.6]# make

     

    ![root@theor torque-2.3.6]# make install

     

    !verify path (/usr/local/bin & /usr/local/sbin):

    [root@theor torque-2.3.6]# echo $PATH

    /usr/sue/sbin:/usr/kerberos/sbin:/usr/kerberos/bin:/usr/local/sbin:/usr/sue/bin:/sbin:/bin:/usr/sbin:/usr/bin:/usr/X11R6/bin:/opt/intel/impi/3.2.0.011/bin64:/opt/intel/fc/11.0.074/bin/intel64:/root/bin

    добавить path в /etc/rc.local: export PATH=$PATH:/usr/local/bin

     

    ![root@theor torque-2.3.6]# make packages

     

    ?! [root@theor torque-2.3.6]# libtool --finish /usr/local/lib

     

    ![root@theor torque-2.3.6]# cp ./torque-package-mom-linux-x86_64.sh /users/

    ![root@theor torque-2.3.6]# cp ./torque-package-clients-linux-x86_64.sh /users/

     

     

    !!! по-видимому, здесь ему нужно правильное время!

    ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

     

    на servere и блейдах

    установить ntp: yum install ntp

    подправить файл /etc/ntp.conf (соотв. файлы см. в etc тут)

    создать файл /etc/ntp.drift , записать в него 0.0

     

    (инструкции из книги brui&karl.pdf)

     

    ???не знаю, проверяется ли время автоматически, или только вручную.

     

    еропкин поправил -- в cron записал каждую неделю запуск ntpdate:

     

    в crontab -e

     

    0 0 * * 0 /usr/sbin/ntpdate 192.168.1.1

    @reboot /usr/sbin/ntpdate 192.168.1.1

     

    :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

     

     

    ![root@theor users]# /root/bin/rshall /users/torque-package-mom-linux-x86_64.sh --install

     

    !создать файл на fs  /var/spool/torque/server_priv/nodes , в котором указать все узлы (file fs/var/spool/torque/server_priv/nodes)

    !создать файл на fs /var/spool/torque/mom_priv/config, в котором указать все узлы и доп. опции

    !? в файле  /var/spool/torque/server_name изменил theor.mephi.ru на theor

    !создать файл на блейдах /var/spool/torque/mom_priv/config , в котором указать сервер и доп. опции (file blade/var/spool/torque/mom_priv/config)

     

    !добавить в /etc/rc.local на fs pbs_server

    !добавить в /etc/rc.local на fs  pbs_sched

     

    !добавить на blade в /etc/rc.local pbs_mom:

    echo 'pbs_mom' >> /etc/rc.local

     

    создать очередь, из примера:

    [root@theor server_logs]# pbs_server -t create

    [root@theor server_logs]# qmgr -c "set server scheduling=true"

    [root@theor server_logs]# qmgr -c "create queue batch queue_type=execution"

    [root@theor server_logs]# qmgr -c "set queue batch started=true"

    [root@theor server_logs]# qmgr -c "set queue batch enabled=true"

    [root@theor server_logs]# qmgr -c "set queue batch resources_default.nodes=1"

    [root@theor server_logs]# qmgr -c "set queue batch resources_default.walltime=600"

    [root@theor server_logs]# qmgr -c "set server default_queue=batch"

     

     

    !для запуска с прописанными путями изменить файл /etc/bashrc : добавить в него alias для qsub:

    alias qsub='qsub -v PATH'

     

    !xpbs -- поставил мельников из снежинска (см.)

     

    !записать из /SOFT/torque-2.3.6/contrib/init.d файлы в /etc/rc.d/init.d

    на fs(pbs_server & pbs_sched) и блейдах (pbs_mom) -- для автозагрузки и возможности останавливать - запускать

     

     

    http://osdir.com/ml/clustering.torque.user/2006-02/msg00026.html

    http://83.149.206.244/mpiexec.html

    http://83.149.206.244/torque.html

    http://www.osc.edu/~djohnson/mpiexec/index.php

    http://debianclusters.cs.uni.edu/index.php/MPICH_with_Torque_Functionality

    http://debianclusters.cs.uni.edu/index.php/Troubleshooting_Torque_and_Maui#Troubleshooting_Tips

    http://archive.netbsd.se/?ml=cluster-maui-users&a=2007-01&t=3467893

    ##############################################################################################

     

    MAUI

     

     

     

     

     

     

     

    http://debianclusters.cs.uni.edu/index.php/Troubleshooting_Torque_and_Maui#Troubleshooting_Tips

    http://www.clusterresources.com/resources/documentation.php/maui/mauiadmin.html

    http://www.esyr.us/wiki/%D0%92%D0%9E%D0%92%D0%9A%D0%BD%D0%9EU%D0%A1,_06_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D1%8F_(%D0%BE%D1%82_21_%D0%BC%D0%B0%D1%80%D1%82%D0%B0)

    ##############################################################################################

     

    OpenMP

     

     

     

     

     

     

    http://linux.softpedia.com/progDownload/Open-MP-Template-Library-Download-30254.html

    #############################################################################################

    для параллельности на общей памяти используются нити. про них см. man pthread_create

     

     

     

    #############################################################################################

     

    ПО для пользователей?

     

     

     

     

     

     

     

     

     

     

    http://iproc.ru/2009/03/free-microsoft-software-for-students/

    http://www.microsoft.com/express/download/#webInstall

    http://software.intel.com/ru-ru/articles/code-downloads/

    #############################################################################################

     

     

     

     

     

     

     

     

     

     

    план:

     

    установить maui

    если потребуется установить mpiexec для torque

    установить openmp

    настроить maui

    настроить prologue и epilogue, rsh, отправление сообщений на почту...

    установить в аудитории linux 4.7 cern? mpi? управляющий сервер для отладки студенческих программ

    установить и настроить pbs_weblite

    может быть планировщик SLURM лучше Torque?

     

     

    ##################################################################################

     

    @CITE

     

    SERVER ONLY

     

    !установить nginx (configure, make, make install) см. /soft

    !настроить файл nginx.conf (см. )

    !выполнить nginx -c nginx.conf

    !засунуть страницу в /var/www/html

     

    P.S. Для запуска nginx из командной строки необходимо выполнить /usr/local/nginx/sbin/nginx -c /usr/local/nginx/conf/nginx.conf (добавить в /etc/rc.local)

     

     

    ##################################################################################

    SAMBA

    /etc/samba/smb.conf

     

     

     

     

    ##################################################################################

     

    ОБЩ ССЫЛКИ

     

    http://debianclusters.cs.uni.edu/index.php/Cluster_Time-saving_Tricks

    http://83.149.206.244/index.html

    http://www.gridclub.ru/software/cluster.html

    http://www.ibm.com/developerworks/ru/library/l-11sysadtips/index.html

     

    http://www.rhd.ru/docs/manuals/enterprise/RHEL-4-Manual/security-guide/s1-wstation-privileges.html

    http://www.xserver.ru/computer/os/linux/85/

    http://salesat.ru/publ/3-1-0-189

    http://www.linuxhelp.net/guides/ttysnoop/

    http://www.linuxrsp.ru/win-lin-soft/table-rus.html

     

    http://www.linuxcenter.ru/lib/books/kostromin/gl_08_02.phtml

     

     

     

     

     

     

    ########################################################

    DIFFERENT

     

    !Для постоянного поддержания частоты процессора на максимальном значении нужно написать

    performance

    в /sys/devices/system/cpu/cpu0/cpufreq/scaling_governor

    (это на файловом сервере. как сдежать то же на блейдах, непонятно -- там нет такого файла. может что-то нужно допостравить?)

     

    !просмотр пакетов

    netstat -i

    watch netstat -i (постоянный контроль)

     

    ! dmesg системные сообщения из буфера

     

    ! tail -5 "file" хвост файла

     

    ! tailf "file" постоянно обновляемый хвост файла

     

    ! ifconfig bond0 mtu 9000 адаптер-драйвер jumbo frame ????

     

    ! вопросы с дуплехом test pingpong & sendrecv (switch?)

     

    ! lspci список устройств

     

    ! скрипт test -- см. /users/snezhinsk

     

    ! pestat (root) --типа qstat -a

     

    ! каждому процессору -- свой процесс: export I_MPI_PIN=0 (export I_MPI_PIN=1)

     

     

    ########################################################

    ########################################################

     

    настройка в классе openSUSE

     

    образ диска (или раздела) с openSUSE с помощью Acronis True Image требует переписывания идентификатора hdd:

    liveCD

    /dev/disk/by-id

    mount /dev/sda2 /media

    /boot/grub/ {menu.lst, device.map} название винчестера

    mount /dev/sda3 mediaназвание винчестера

    /etc/fstabназвание винчестера

     

     

     

     

     

    ##########################################################

    установка и настройка СFX -- st9

     

    лицензия CFX: 194.67.66.10  port 1055

     

     

    8. Управляйте своими пользователями с помощью планировщиков

     

    Ленивому администратору известно, что пользователь — корень всех проблем. Следовательно, очень важно гарантировать, чтобы у пользователей не было административных привилегий или прав доступа. Можно пойти ещё дальше: необходимо сделать всё возможное, чтобы держать пользователей подальше от вашей машины.

     

    Планировщики обеспечивают эту функциональность: пользователь представляет задание, а планировщик очереди решает, на каких узлах оно будет выполняться. Если пользователи не выполняют задание, они должны оставаться вне машины.

     

    Среди популярных сегодня планировщиков есть платные программы, такие как LSF и PBS Pro. Эти продукты используются многими коммерческими заказчиками, а также правительственными лабораториями и университетами. Но для многих систем прекрасно подходят решения с полностью открытым исходным кодом, такие как TORQUE и SLURM.

     

    У нас есть приём, использующий TORQUE и планировщик Maui, с помощью которого мы держим наших пользователей подальше от кластера, когда они не выполняют задание. В Linux это делается сначала настройкой файла /etc/security/access.conf так, чтобы никто, кроме администратора, не мог войти в систему. Например, после выполнения на каждом из узлов команды:

     

    echo "-:ALL EXCEPT root:ALL" >>/etc/security/access.conf

     

     

    только администратор сможет авторизоваться на этой машине. Затем создаётся пролог-скрипт TORQUE, который позволяет пользователю войти в систему, а затем выполняет что-то вроде:

     

    perl -pi -e "s/:ALL$/ $USER:ALL/" /etc/security/access.conf

     

     

    (Подсказка: переменная $USER — вторая переменная, которую передаёт TORQUE скрипту ввода во время его выполнения). Так как пролог-скрипт выполняется пользователем root, простой пользователь сможет авторизоваться в кластере. После завершения задания запускается эпилог-скрипт, который удаляет пользователя из файла /etc/security/access.conf так, чтобы он больше не мог регистрироваться в узле: perl -pi -e "s/ $USERb//g" /etc/security/access.conf. Это не дает пользователям "затереть" друг друга.

     

    Мы видели проблемы "производительности", которые не имеют никакого отношения к машине; на самом деле проблема состоит в том, что на одной машине работает множество пользователей и каждое из их заданий требует 100 процентов времени центрального процессора.

     

    Не секрет, что управление пользователями абсолютно необходимо. Но при простой диагностике часто упускается из виду тот факт, что проблемы создаются самими пользователями. Мы настоятельно рекомендуем держать пользователей вне системы, кроме случаев, когда они авторизуются через контролируемую среду, например, планировщик ресурсов. Кроме того, мы настаиваем, чтобы сама кластерная сеть (гигабитная сеть управления или пользовательская сеть) была отделена от остальной части корпоративной или университетской сети WAN, и только некоторые пользовательские узлы предоставляли к ней прямой доступ.

    Навигация