Технології аналізу даних в природничих науках

Інcтитут/Факультет: 
ІВТ
Курс: 
1-Маг
Семестр: 
2
Підсумковий контроль: 
іспит
Лектор: 

Стрільчук Г.М., к. ф.-м. н.

Кафедра: 
Кафедра математики, теоретичної фізики і комп-рних технологій
Вид навчального курсу: 
Нормативний курс

 

План курсу   «Технології аналізу даних в природничих науках» ( до 2014 р. "Високопродуктивні обчислення" )

Теми курсу:

  1. Планування експерименту, вибір моделі. Верифікація даних. Похибка, помилка, проблема шуму в експериментальних даних. (Верифікація даних. Пропущені дані, обробка викидів, повторних спостережень, некоректних значень та ін. Вітрини даних, куби даних, багатовимірна модель даних)

  2. Характеристики статистичного аналізу даних. Оцінка даних. Інтерполяція, сплайн-інтерполяція. (Основні характеристики статистичного оцінювання. Ефективні та незміщені оцінки. Згладжування і інтерполяція експериментальних даних. Методи змінного середнього та поліноміальне згладжування. Методи інтерполяції: Лагранжа, Ньютона-Грегорі, Сплайн-інтерполяція.)

  3. Статистичні характеристики, оцінка ймовірності та довірчий інтервал (Виявлення тренда статистичних характеристик. Критерії Стьюдента, Фішера, Фостера-Стюарта. Довірчі інтервали оцінювання вибіркового середнього та вибіркової дисперсії. Оцінювання ймовірності події та довірчого інтервалу для ймовірності)

  4. Щільність розподілу. Стохастичні залежності. Кореляційний аналіз. (Критерії узгодження густини розподілу: χ - квадрат, Колмогорова. Емпірична щільність розподілу, гістограма. Квазіоптимальна кількість інтервалів. Стохастична залежність. Кореляційний аналіз, коефіцієнт кореляції, довірчий інтервал для коефіцієнта кореляції.)

  5. Аналіз задачі класифікації (Ключові поняття і визначення. Дерева прийняття рішень. Дерева класифікації і регресії (С & RT). CHAID (Chi-squared Automatic Interaction Detection). Дерева що ростуть (Boosted trees). Випадкові ліси (Random forests). Методи машинного навчання (machine learning). Метод опорних векторів. Байєсовські методи. Дискримінантний аналіз. Регресійні моделі. Логістична регресія. Узагальнені адитивні моделі.)

  6. Регресійний аналіз. Лінійна та нелінійна регресія (Регресійний аналіз. Регресійні моделі. Метод найменших квадратів. Система нормальних рівнянь. Визначення ступеня полінома за невідомого класу функцій. Розрахунок з використанням поліномів Чебишева. Лінійна регресія: розрахунок коефіцієнтів. Довірча область для лінії істинної регресії. Нелінійна регресія. Способи переходу до лінійної регресії)

  7. Аналіз часових рядів (Ключові поняття і визначення. Класична модель ARIMA (АРПСС) Експоненційне згладжування з сезонними компонентами Спектральне розкладання Фур'є. Сезонна декомпозиція. Поліноміальний і регресійний аналіз лагів)

  8. Дисперсійний аналіз (Дисперсійний аналіз: однофакторний, двофакторний, Критерії Кохрана, Бартлет. Багатофакторний дисперсійний аналіз: латинські квадрати)

  9. Нейронні мережі. (Ключові поняття і визначення. Архітектура мереж, навчання. Використання нейронних мереж в прогнозуванні, задачах класифікації і регресії. Карти Кохонена)

  10. Методи кластерного аналізу (Ієрархічні методи: агломеративні і дивізимні методи. Ітеративні методи)

  11. Метод асоціативних правил (Множини даних. Генерація множин даних і правил. Кореляційний асоціативний аналіз. Алгоритм Apriori)

  12. Генетичні алгоритми. Еволюційні стратегії. (Створення початкової популяції. Відбір. Розмноження. Мутації. Комбінаторна оптимізація)

  13. Інструменти інтелектуального аналізу даних (Програмне забезпечення Data Mining. Основні складності Data Mining. Напрямки Data Mining: Text Mining, Web Mining, Spatial Mining, Temporal Mining.)

  14. Задача візуалізації даних (Способи візуального представлення даних. Методи візуалізації, способи подання інформації в одно-, двох-, тривимірному вимірах, а також способи відображення інформації в більш ніж трьох вимірах. Описано принципи якісної візуалізації. Тенденції в області візуалізації)

Список літератури: 

СПИСОК  РЕКОМЕНДОВАНОЇ  ЛІТЕРАТУРИ

 

  • Cabena, Peter; Hadjnian, Pablo; Stadler, Rolf; Verhees, Jaap; and Zanasi, Alessandro (1997); Discovering Data Mining: From Concept to ImplementationPrentice HallISBN 0-13-743980-6
  • Feldman, Ronen; and Sanger, James; The Text Mining HandbookCambridge University PressISBN 978-0-521-83657-9
  • Guo, Yike; and Grossman, Robert (editors) (1999); High Performance Data Mining: Scaling Algorithms, Applications and SystemsKluwer Academic Publishers
  • Hastie, TrevorTibshirani, Robert and Friedman, Jerome (2001); The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer, ISBN 0-387-95284-5
  • Nisbet, Robert; Elder, John; Miner, Gary (2009); Handbook of Statistical Analysis & Data Mining ApplicationsAcademic Press/Elsevier, ISBN 978-0-12-374765-5
  • Poncelet, Pascal; Masseglia, Florent; and Teisseire, Maguelonne (editors) (October 2007); "Data Mining Patterns: New Methods and Applications", Information Science ReferenceISBN 978-1-59904-162-9
  • Tan, Pang-Ning; Steinbach, Michael; and Kumar, Vipin (2005); Introduction to Data MiningISBN 0-321-32136-7
  • Weiss, Sholom M.; and Indurkhya, Nitin (1998); Predictive Data MiningMorgan Kaufmann
  • Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30 January 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 ed.). Elsevier. ISBN 978-0-12-374856-0.
  • Ye, Nong (2003); The Handbook of Data Mining, Mahwah, NJ: Lawrence Erlbaum

 

ПереглядДолученняРозмір
Program-AD.pdf30.17 КБ
Program-AD.docx17.65 КБ
ІНСТИТУТ ВИСОКИХ ТЕХНОЛОГІЙ Матеріали дозволено використовувати на умовах GNU FDL без незмінюваних секцій та Creative Commons Attribution/Share-Alike
Дизайн: Інститут високих технологій
Ivan Ivanov