Kovariat Dari Fungsional Prinsipal Komponen Analisis Untuk Data Longitudinal

 1  34  45  2017-01-18 05:19:22 Report infringing document
Informasi dokumen

KOVARIAT DARI FUNGSIONAL PRINSIPAL KOMPONEN ANALISIS UNTUK DATA LONGITUDINAL

KOVARIAT DARI FUNGSIONAL PRINSIPAL KOMPONEN ANALISIS UNTUK DATA LONGITUDINAL TESISOleh AGUSMAN097021053/MT FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA MEDAN2011 KOVARIAT DARI FUNGSIONAL PRINSIPAL KOMPONEN ANALISIS UNTUK DATA LONGITUDINAL TESISDiajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Magister Sains dalamProgram Studi Magister Matematika pada Fakultas Matematika dan Ilmu Pengetahuan AlamUniversitas Sumatera Utara OlehAGUSMAN 097021053/MTFAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA MEDAN 2011 Nama Mahasiswa : AgusmanNomor Pokok : 097021053Program Studi : Matematika Menyetujui,Komisi Pembimbing (Dr. Sutarman, M.Sc) (Prof. Dr. Herman Mawengkang)Ketua Anggota Ketua Program Studi, Dekan(Prof. Dr. Herman Mawengkang) (Dr. Sutarman, M.Sc) Tanggal lulus: 15 Juni 2011 Telah diuji padaTanggal 15 Juni 2011PANITIA PENGUJI TESIS Ketua : Dr. Sutarman, M.ScAnggota : 1. Prof. Dr. Herman Mawengkang 2. Prof. Dr. Tulus, M.Si 3. Drs. Open Darnius, M.Sc ABSTRAKAnalisa komponen utama multivariat klasik diperluas untuk data fungsional dan disebut dengan istilah fungsional prinsipal komponen analisis (FPCA). Sebagianbesar pendekatan FPCA yang ada tidak mengakomodir informasi kovariat, dan tujuan dari tulisan ini adalah untuk mengembangkan dua metode yang mengako-modir informasi tersebut. Dengan pendekatan ini, baik fungsi mean maupun fungsi kovariansi tergantung pada kovariat Z dan skala waktu t sementara dengan pen-dekatan kedua hanya fungsi mean yang tergantung pada kovariat Z. Kedua pen- dekatan baru mengakomodir kesalahan pengukuran tambahan dan data fungsionalsampelnya diambil pada kisi waktu yang teratur dan juga data longitudinal yang jarang diambil sampelnya pada kisi waktu yang tidak teratur. Pendekatan per-tama untuk menyesuaikan sepenuhnya baik fungsi mean maupun fungsi kovariansi beradaptasi lebih besar terhadap data tetapi lebih intensif perhitungan daripadapendekatan untuk menyesuaikan efek kovariat hanya pada fungsi mean. Di kem- bangkan teori asymptot umum untuk kedua pendekatan dan dibandingkan kinerjakeduanya secara numerik melalui studi simulasi dan suatu kumpulan data.Kata kunci : Estimasi, Seleksi Bandwidth dan jumlah eigen fungsi, Hasil-hasil asimtoti Asymtotic resultsii KATA PENGANTARPuji syukur penulis ucapkan kepada Sang Maha Pencipta,Allah SWT yang telah memberikan begitu banyak nikmat sehingga tesis ini dapat terselesaikan de-ngan baik. Dalam menyelesaikan pendidikan di Sekolah Pasca Sarjana USU ini penulis banyak mendapat dukungan dari berbagai pihak, maka pada kesempatan ini penulismengucapakan terimakasih dan penghargaan yang sebesar-besarnya kepada: Dr. Sutarman, MSc, selaku Dekan F.MIPA dan selaku Dosen Pembimbing I yang telah memberikan bimbingan dan petunjuk sehingga tesis ini dapat tersele-saikan dengan baik. Prof. Dr. Herman Mawengkang, selaku Ketua Program Studi Magister Ma- tematika FMIPA USU dan selaku Dosen Pembimbing II yang banyak memberikanbanyak bimbingan dan motivasi kepada penulis sehingga pendidikan ini dapat terse- lesaikan dengan baik. Seluruh Dosen pada Program Studi Magister Matematika FMIPA USU, yang telah memberikan ilmu pengetahuan kepada penulis selama perkuliahan hinggaselesai. Drs. Lukman Hakim, MPd, selaku Kepala Sekolah SMA Swasta Al-UlumMedan yang telah memberikan kesempatan kepada penulis untuk mengikuti Pro- gram Studi Magister Matematika di Program Studi Magister Matematika FMIPAUSU ini. Dr. Hasratudin, MPd, selaku Bapak angkat saya dan selaku Dosen MIPAUnimed Medan yang telah memberikan dukungan dan motivasi kepada penulis untuk mengikuti Program Studi Magister Matematika di FMIPA USU ini. Secara khusus penulis menyampaikan terima kasih yang tak terhingga kepadaAyahanda tercinta yaitu Jakiman dan Ibunda tercinta Sanis yang doa-doanya se- lalu menyertai penulis. Kepada Papa Dr. Irwan Fahri Rangkuti,SpKK yang selalumenjadi motivator penulis dan selalu membantu moril dan materil yang tak ter- hingga selama perkuliahan dan sampai tesis ini dapat terselesaikan.iii Kepada semua pihak yang telah turut membantu baik langsung maupun tidak langsung yang penulis dapatkan selama ini.Semoga tesis ini bermanfaat bagi pembaca dan pihak-pihak yang membu- tuhkannya. Medan, 15 Juni 2011Penulis,Agusmaniv DAFTAR ISIHalaman 2 3.1.3 Seleksi Bandwidth dan Jumlah Eigenfungsi 13 103.1.2 mFPCA 93.1.1 fFPCA 3.1 Estimasi 7 4 BAB 3 PENGERTIAN TEORITIS FPCA 3 BAB 2 BEBERAPA KAJIAN TENTANG FUNGSIONAL PRINSIPAL KOM-PONEN ANALISIS 1.5 Metodologi 2 1.4 Manfaat Penelitian 1.3 Tujuan Penelitian ABSTRAKi 2 1.2 Rumusan Masalah 1 1.1 Latar Belakang 1 BAB 1 PENDAHULUAN DAFTAR GAMBARix DAFTAR TABELviii DAFTAR ISIvi RIWAYAT HIDUPv KATA PENGANTARiii ABSTRACTii 14 vi 3.2 Hasil-hasil Asymtot untuk Fungsi Mean dan Fungsi Kovarian 15 BAB 4 PENERAPAN KOVARIAT PADA FUNGSIONAL PRINSIPAL KOM-PONEN ANALISIS 19 4.1 Aplikasi Data 23 BAB 5 KESIMPULAN DAN SARAN 27 5.1 Kesimpulan 27 5.2 Saran 27 DAFTAR PUSTAKA 28vii 4.1 Hasil Simulasi fFPCA 21 4.2 Rata-rata MISE dan MSFE dalam 100simulasi berjalan untuk tiga 22 4.3 MSFEs dari mFPCA, fFPCA, uFPCA dan rFPCA berdasarkan data 24viii 4.1 Dua eigenfunctions kovariansi dan estimasi dengan. mFPCA 21 4.2 Dari dua eigenfunctions pertama diperkirakan melalui fFPCA pada lima nilai yang berbeda dari covarite tersebut 22 4.3 Estimasi rata-rata permukaan untuk data jarang dan lengkap 25 4.4 Estimasi kovarians permukaan mFPCA untuk jarang dan 26ix ABSTRAKAnalisa komponen utama multivariat klasik diperluas untuk data fungsional dan disebut dengan istilah fungsional prinsipal komponen analisis (FPCA). Sebagianbesar pendekatan FPCA yang ada tidak mengakomodir informasi kovariat, dan tujuan dari tulisan ini adalah untuk mengembangkan dua metode yang mengako-modir informasi tersebut. Dengan pendekatan ini, baik fungsi mean maupun fungsi kovariansi tergantung pada kovariat Z dan skala waktu t sementara dengan pen-dekatan kedua hanya fungsi mean yang tergantung pada kovariat Z. Kedua pen- dekatan baru mengakomodir kesalahan pengukuran tambahan dan data fungsionalsampelnya diambil pada kisi waktu yang teratur dan juga data longitudinal yang jarang diambil sampelnya pada kisi waktu yang tidak teratur. Pendekatan per-tama untuk menyesuaikan sepenuhnya baik fungsi mean maupun fungsi kovariansi beradaptasi lebih besar terhadap data tetapi lebih intensif perhitungan daripadapendekatan untuk menyesuaikan efek kovariat hanya pada fungsi mean. Di kem- bangkan teori asymptot umum untuk kedua pendekatan dan dibandingkan kinerjakeduanya secara numerik melalui studi simulasi dan suatu kumpulan data.Kata kunci : Estimasi, Seleksi Bandwidth dan jumlah eigen fungsi, Hasil-hasil asimtoti Asymtotic resultsii BAB 1 PENDAHULUAN 1.1 Latar BelakangDalam beberapa penelitian tentang Fungsional Prinsipal Component Analisis (FPCA) tidak banyak yang melibatkan informasi kovariat. Kovariat yang digu- nakan dalam FPCA dengan asumsi bahwa fungsi keseluruhan dari fungsi acak bisadiamati tanpa kesalahan, kovariat digunakan untuk memprediksi status dari satu atau lebih variabel terikatnya. Ada dua cara untuk memperluas pendekatan FPCA untuk mengakomodir informasi kovariat. Kedua pendekatan terdiri dari dua bagian: bagian sistematikyang bersesuaian dengan fungsi mean (mFPCA) dan bagian stokastik yang ter- diri dari komponen-komponen acak yang mencerminkan struktur kovariansi datalongitudinal (fFPCA). Fungsional prinsipal komponen analisis (FPCA) merupakan alat pengurangan dimensi standar untuk data multivariat dan diperluas untuk data fungsional yangdiberikan dalam bentuk kurva acak. Karena data fungsional pada hakekatnya berdimensi tak hingga, pengurangan dimensi penting untuk menganalisa datademikian. Selain Ferraty dan Vieu (2006) dan Wu dan Zhang (2006), rangka- ian tulisan Ramsay dan Silverman (2002, 2005) memberikan kajian khusus tentangmetodologi dan aplikasi ”Analisa Data Fungsional” (FDA). Kneip dan Utikal (2001) menggunakan metode FDA untuk menilai variabil- itas kepadatan bagi kumpulan-kumpulan data dari populasi yang berbeda-beda.Apabila data fungsional diamati pada beberapa titik waktu, misalnya hanya be- berapa titik waktu per subjek, maka data demikian ini disebut data longitudinalkartena timbul dari kajian longitudinal. Rice (2004) dan Hall et al. (2006) memba- has persamaan dan perbedaan intrinsik antara FDA dan analisa data longitudinal. Data longitudinal seringkali jarang (sparse) dengan sedikit pengukuran per- subjek dan gangguan dengan kesalahan pengukuran (atau fluktuasi acak). Akantetapi, kesulitan ini bisa diatasi dalam sebagian besar situasi, karenanya tetap 1 2 dimungkinkan melaksanakan FPCA. [lihat; Shi et al (1996), Yao et al (2005), Pauldan Peng (2009), serta Peng dan Paul (2009)]. Mengingat pentingnya metode ini maka penulis ingin meneliti dan men- jabarkannya pada ” Kovariat Dari Fungsional Prinsipal Komponen Analisis UntukData Longitudinal ”. 1.2 Rumusan MasalahAsumsi kunci yang diajukan para peneliti dalam menyelesaikan FPCA adalah bahwa trajektori data fungsional lengkap teramati atau tercatat padat terhadapwaktu, Asumsi demikian ini jarang terpenuhi dalam kajian data longitudinal oleh karena itu masalahnya adalah bagaimana mengikutsertakan informasi kovariatdalam FPCA untuk data longitudinal jarang. 1.3 Tujuan PenelitianTujuan dari penelitian ini adalah untuk Memadukan informasi kovariat yang berlaku pada data fungsional dan data longitudinal dengan mengembangkan duapendekatan yang mengakomodir informasi tersebut yaitu pendekatan fFPCA dan mFPCA. 1.4 Manfaat PenelitianManfaat dalam Penelitian ini adalah 1. Sebagai bahan informasi bagi peneliti dalam menyesuaikan efek kovariat un- tuk data longitudinal. 2. Untuk menambah wawasan dan literatur dalam berbagai bidang, dalam bi- dang matematika secara umum, bidang Tekhnik, dan kesehatan. 3. Sebagai bahan pertimbangan dan masukan bagi peneliti yang berkaitan. 3 1.5 MetodologiAdapun langkah-langkah yang dilakukan pada penelitian ini adalah: 1. Mengestimasi fungsi mean dan fungsi kovarian. 2. Memilih jumlah eigen fungsi. 3. Menentukan asymtot untuk fungsi mean dan fungsi kovarian. 4. Menyesuaikan efek kovariat dengan pendekatan FPCA. BAB 2 BEBERAPA KAJIAN TENTANG FUNGSIONAL PRINSIPAL KOMPONEN ANALISIS Banyak penelitian ilmiah menghasilkan data longitudinal dengan pengukuran ulang dijumlah titik waktu, dan data peristiwa yang mempertimbangkan peruba-han dari waktu ke peristiwa, yaitu, ” kegagalan ” atau ” bertahan hidup ”, serta informasi kovariat tambahan.Sebuah contoh adalah bahwa uji klinis HIV, di manabiomarker seperti jumlah limfosit CD4 diukur sesekali waktu dan untuk pengem- bangan menjadi AIDS atau kematian juga dicatat, dengan kemungkinan awal DOatau kegagalan. Hal ini penting dan diperlukan untuk menyelidiki pola perubahanCD4, dan untuk menandai hubungan antara CD4 dan waktu untuk pengembangan atau kematian (Pawitan dan Self (1993), Tsiatis et al. (1995), Wulfsohn dan Tsiatis(1997). Dalam prakteknya proses longitudinal yang tersembunyi sering tidak teramati karena kesalahan pengukuran dan tidak tersedia pada saat diperlukan, terutamabila terjadi kegagalan. Diketahui bahwa sebagian kemungkinan pendekatan kon- vensional yang digunakan untuk model Cox tidak dapat menghindari kesimpulanyang memihak dari proses tersembunyi longitudinal, seperti nilai terakhir dilakukan ke depan metode (Prentice (1982)), teknik pemulusan (Raboud et al. (1993)),atau pendekatan ” dua tahap ” (Bycott dan Taylor (1998), Tsiatis et al. (1995)).Ini disebut perhitungan longitudinal dan proses secara bersamaan, yaitu, ” yang disebut ” pemodelan bersama. Pendekatan standar pemodelan bersama adalahkarakterisasi proses longitudinal dengan model efek parametric acak yang berfokus pada kelancaran perkembangan yang ditentukan oleh sejumlah kecil efek acak danyang telah digunakan untuk menggambarkan lintasan CD4 (Tsiatis et al. (1995),Wulfsohn dan Tsiatis (1997), Bycott dan Taylor (1998), Dafni dan Tsiatis (1998))Selain perbaikan penyimpangan, pemodelan bersama juga berpotensi meningkat- kan efisiensi estimasi parameter karena inferensi simultan pada kedua model longi-tudinal dan model survival, lihat Faucett dan Thomas (1996); Slasor dan Laird (2003), Hsieh et al. (2006) untuk diskusi lebih lanjut tentang masalah ini. 4 5 Meskipun model parametrik yang disebutkan di atas menemukan fitur-fitur dalam data yang sudah tergabung secara apriori dalam model, model ini mungkintidak cukup jika program waktu tidak didefinisikan dengan baik dan tidak masuk ke dalam bagian yang terbentuk sebelumnya dari fungsi. Dalam situasi analisismelalui metode nonparametric. Telah ada peningkatan kepentingan analisis non- parametrik data yang berupa sampel untuk kurva atau lintasan, yaitu, ” analisisdata fungsional”, lihat Ramsay dan Silverman (1997) untuk ringkasan. FungsionalAnalisis komponen utama (FPCA) mencoba untuk menemukan modus dominan variasi sekitar fungsi secara keseluruhan, dan dengan demikian merupakan kuncidalam teknik analisis data fungsional (Berkey dan Kent (1983); Besse dan Ramsay(1986), Castro et al. (1986), Rice dan Silverman (1991); Silverman (1996), James et al. (2000), Yao et al. (2003, 2005); Yao dan Lee (2006). Sebaliknya, model berkaitan erat yang diajukan oleh Rice dan Wu (2000) tidak memperhatikan dimensi pengurangan dan mungkin tidak berlaku jika datajarang, lihat James et al. (2000) untuk perbandingan dari dua pendekatan. Hal ini membuat perbedaan antara yang diusulkan model dan yang dalam Brown etal. (2005 ) eksplisit. Keuntungan lain dari model gabungan dengan FPCs adalah efisiensi perhitungan dicapai dengan pengurangan dimensi menggunakan FPCs de-ngan matriks kovarians diagonal, sementara model bersama dalam Brown et al.(2005) dengan B-splines biasanya berisi koefisien yang lebih acak dengan kova- rian matriks terstruktur. Interpretasi yang tepat dari eigenfunctions orthogonaldan nilai FPC sering menyediakan lebih wawasan dari model B-spline. Wang danTaylor (2001) mendirikan sebuah proses stokastik Integrated Ornstein Uhlenbeck(IOU) untuk model yang tidak ditentukan arah lintasan longitudinal dalam kon- teks model bersama, dalam semangat yang sama dengan lintasan splines. Se-cara khusus, proses IOU menyajikan struktur kovariansi gabungan dengan model efek acak dan Brown motion sebagai kasus yang khusus. Keterkaitan keberhasilanlainnya yang dimasukkan angka nol berarti proses untuk model fluktuasi individu meliputi Henderson et al. (2000), Xu dan Zeger (2001) Chiou et al. (2003) mengkaji suatu pendekatan umum yang memadukan efek kovariat vektor melalui model semiparametrik. Pendekatan itu terdiri daridua tahap. Dalam tahap pertama, FPCA dilaksanakan atas semua subjek de- 6 ngan mengabaikan informasi kovariat. Ini menghasilkan ekspansi Karhunen-Loeve[lihat (3.1)] untuk setiap subjek X(t) yang mana ekspektasi bersyarat dari X(t) yang memberikan kovariat Z diperoleh dan selanjutnya ditaksir melalui pendekatansemiparametrik. Suatu pendekatan yang berbeda ada diajukan Cardot (2006), yang mengkaji FPCA bersyarat melalui estimator kernal nonparametrik atas fungsimean bersyarat dan fungsi variansi bersyarat. Asumsi utama untuk kedua pendekatan adalah bahwa trayektori data fung- sional diamati secara total atau dicatat secara padat seiring berjalannya waktu.Kedua asumsi jarang dipenuhi dalam studi medis atau sosial longitudinal. Pada prinsipnya, pendekatan dalam Chiou et al. (2003) tidak cocok untuk perluasanpada data longitudinal yang tidak padat karena komponen utama bersyarat tidak bisa ditaksir atau diaproksimasi dengan konsisten untuk data longitudinal yangtidak padat. Diajukan suatu pendekatan gabungan untuk memodelkan fungsi mean dan dua pendekatan yang berbeda untuk memodelkan fungsi kovariansi. Yau dan Muller (2010) memperluas model regresi fungsi linier untuk data longitudinal terhadap kasus dimana ketergantungan skalar respon pada prediktorfungsional yang berbentuk polinomial. BAB 3 PENGERTIAN TEORITIS FPCA Prosedur FPCA pada dasarnya adalah bertujuan untuk menyederhanakan variable yang diamati dengan cara menyusutkan ( mereduksi ) dimensinya. Halini dilakukan dengan cara menghilangkan korelasi diantara variable bebas melalui transformasi variable bebas asal ke variable baru yang tidak berkorelasi sama sekaliatau biasa disebut dengan principal component analysis. Ada dua cara untuk memperluas pendekatan FPCA untuk mengakomodir informasi kovariat. Kedua pendekatan terdiri dari dua bagian : bagian sistema-tik yang bersesuaian dengan fungsi mean dan bagian stokastik yang terdiri dari komponen-komponen acak yang mencerminkan struktur kovariansi data lingitudi-nal. Pada kedua pendekatan tidak mengasumsikan bahwa tidak diketahui struk- tur µ(t,z ) selain bahwa µ(t,z ) adalah fungsi mulus, karenanya perlu menaksirnyasecara nonparametrik. Perbedaan antara kedua pendekatan adalah dalam pena- nganan struktur kovariansi. Secara konseptual, kovariat Z bisa berupa suatu vektoryang mempunyai distribusi kontinu, tetapi karena aturan dimensionalitas hanya Z berdimensi-rendah yang bisa digunakan. Akan diperlukan beberapa pendekatanpenurunan dimensi untuk Z berdimensi-tinggi dan sudah di luar ruang lingkup tulisan ini. Dalam pendekatan pertama, diasumsikan bahwa eigenfungsi dari Γ(t, s, z) bervariasi sesuai dengan z sehingga terdapat ekspansi ortogonal Γ (dalam artian 2 L ) dalam bentuk eigenfungsi φ (t, z) dan eigenvalue tak naik λ (z) : Γ(t, s, z) = k k k λ k (z)φ k (t, z)φ k (s, z). Dengan demikian, trayektori acak X (t,z ) dapat dituliskan sebagai X X(t,z) = µ (t, z) + A (z) (t, z) (3.1) k k ∅ k=1 7 8 di mana A (z) adalah variabel-variabel acak tidak berkorelasi dengan mean 0 k dan variansi λ k (z).Selain itu, akan dimodelkan permukaan kovariansi secara non- parametrik, dengan mengasumsikan bahwa permukaan kovariansi tersebut adalahfungsi mulus dari t, s dan z. Karena fungsi mean maupun fungsi kovariansi dise- suaikan oleh kovariat Z, ini disebut fully adjusted functional principal componentanalysis dan disingkat fFPCA. Pendekatan untuk menyesuaikan efek kovariat ini ekuivalen secara konseptual dengan pendekatan FPCA bersyarat dalam Cardot (2006) tetapi berbeda secaraberarti dalam cara penaksiran disebabkan perbedaan dalam rancangan data yang dikaji. Perbedaan penting dalam rancangan data juga memicu kerangka teoritisyang sangat berbeda. Untuk Z satu-dimensi, hanya pemulusan satu-dimensi dibu- tuhkan dalam Cardot (2006) untuk menaksir fungsi mean maupun fungsi kovari-ansi sepanjang arah-Z pada masing-masing lokasi waktu karena fungsi keseluruhan X(t,z) diamati. PBila µ(t,z ) = β(t )z dan komponen-komponen stokastik A (z) (t, z) k k ∅ k=1 P dalam model X (t,z )=µ (t, z) + A (z) (t, z) mengadopsi struktur linier k k ∅ k=1 bervariasi-waktu b(t)z untuk fungsi β dan fungsi acak b yang tidak diketahui,P model X (t,z)=µ (t, z) + A (z) (t, z) menghasilkan model efek acak koe- k k k=1 ∅ fisien bervariasi dalam Guo (2002). Bila µ(t,z) berbentuk linier parsial f (t ) +βz dan komponen stokastik jua berbentuk linier parsial u(t ) + bZ, untuk fungsi tak diketahui f dan u, parameter β dan variabel acak b, model X (t,z )=µ (t, z) +P A (z) (t, z) direduksi menjadi model campuran linier parsial dalam Zhang k k k=1 ∅ et al. (1998). Dalam pendekatan kedua, bisa mengambil keuntungan dari fakta Z bahwa ko- variat Z adalah variabel acak dan mengumpulkan semua subjek setelah memusatkanmasing-masing kurva pada nol. Ini menghasilkan fungsi kovariansi gabungan Γ* (t,s)= z E {(X (t,z ) – µ(t,z ))(X (s,z ) – µ(s,z ))}g(z )dz di mana g adalah pdf dari Z atas Z, dan Γ* (t,s) diasumsikan merupakan fungsi mulus dari t dan s. Akibatnya, 2 ∗ terdapat ekspansi ortogonal (dalam artian L ) dalam bentuk eigenfungsi φ dan k ∗ eigenvalue tak naik λ k sedemikian sehingga ∗ ∗ Γ k φ (t)φ (s), dan∗(t, s) = k k 9 X ∗ ∗ X(t, z) = µ (t, z) + A (t) (3.2)∅ k k k=1∗ ∗ Di mana A adalah variabel acak yang tidak berkorelasi dengan E k {A k } = 0 dan ∗ ∗ var . Pendekatan ini mempunyai keuntungan bahwa fungsi kovariansi{A k } = λ k bisa ditaksir dengan pemulus berdimensi lebih rendah, yang mempercepat lajukonvergensi dibandingkan dengan fFPCA disingkat mean adjusted functional prin- cipal component analysis ini atas X (t,z ) – µ(t,z ) sebagai ”mFPCA” di mana ”m”menyatakan operasi penyesuaian mean. Prosedur penaksiran untuk mFPCA dijelaskan pada bagian selanjutnya Se- cara konseptual, pendekatan fFPCA akan mencocokkan data dengan lebih baikapabila beradaptasi terhadap informasi kovariat dalam penaksiran kovariansi se- mentara mFPCA tidak. Keuntungan ini bisa diimbangi dengan kinerja praktis yang lebih buruk jika data tidak padat. Hasil simulasi mencerminkan keuntungan terbatas dari fFPCA,oleh karenanya mungkin lebih menyukai pendekatan mFPCA dalam banyak ap- likasi atau mencoba kedua pendekatan, kecuali eigenfungsi bervariasi secara berartiatas nilai-nilai kovariat. 3.1 EstimasiDalam banyak situasi hanya bisa mengamati proses X (t,z ) secara tak kontinu dan kemungkinan dengan kesalahan pengukuran. Misalkan Y adalah pengamatan ij ke-j atas fungsi acak X , yang dilakukan atas waktu acak T i ij ∈ T dengan kovariatZ di mana i = 1, . . . , n dan j = 1, . . .,N . i iji ∈ Z dan kesalahan pengukuran ǫDalam hal ini di asumsikan bahwa skedul pengukuran T ij adalah sampel acak berukuran N dan N diasumsikan dan tak tergantung pada variabel acak lain- i i nya. Juga di asumsikan bahwa kesalahan pengukuran dengan mean 0 dan variansi 2∗ konstan σ dan tidak tergantung pada koefisien acak A (z ) atau A masing-masing k k berdasarkan model (3.1) atau (3.2) 10 Dengan demikian, data yang diamati adalahY ij= X i (T ij, Z i ) + ij. (3.3) ∈Tahap-tahap utama dalam pendekatan FPCA adalah untuk menaksir fungsi mean dan fungsi kovariansi. Eigenvalue dan eigenfungsi yang bersesuaian bisadiperoleh dengan mudah melalui persamaan-eigen setelah fungsi kovariansi di- taksir. Fungsi mean untuk fFPCA dan mFPCA sama dan bisa ditaksir denganmenggunakan pemulus diagram-pencar dua-dimensi Y terhadap (T ,Z ), untuk ij ij i j = 1, . . . , N , i = 1, . . . , n. Diberikan sifat-sifat asymptot umum dari pemulus i diagram-pencar linier dari fungsi mean µ(t,z) dan membuktikan sifat-sifat asymp- tot ini atas dua pemulus linier, estimator Nadaraya-Watson (3.8) dan estimatorlinear lokal (3.9) Sama halnya, estimator kovariansi juga bisa dinyatakan sebagai pemulus diagram-pencar dari apa yang disebut dengan ”kovarian Baku” yang didefinisikandi bawah ini terhadap (T ij ,T ik ): C = (Y µ (T , Z )) (Y µ(T , Z )) (3.4) ijk ij ij i ik ik − b − b iEstimator kovariansi berbeda untuk fFPCA dan mFPCA. Untuk Z satu di- mensi, yang pertama melibatkan pemulus tiga-dimensi C terhadap (T ,T .Z ) ijk ij ik i untuk j,k = 1,. . .,N , i = 1,. . .,n sementara yang disebut terakhir hanya mem- i butuhkan pemulus dua-dimensi C terhadap (T ,T ) untuk j,k = 1,. . .,N , i = ijk ij ik i 1,. . .,n. Pada prinsipnya, bisa menggunakan pemulus linier. 3.1.1 fFPCA 2 Catatan bahwa cov (Y , Y , T , Z ) = cov (X (T , Z ) , X (T , Z ))+σ δ ij ik ij ik i ij i ik i jk |T di mana δ sama dengan 1 jika j = k dan 0 untuk lainnya, diagonal dari kovariansi jk ”mentah” C ijk pada C ijk = (Y ij µ (T ij , Z i )) (Y ik µ(T ik , Z )) tidak boleh dima-− b − b i sukkan dalam tahap pemulusan fungsi kovariansi. Dalam hal ini pemulus linierlokal untuk fungsi kovariansi Γ(t,s,z) adalah (t, s, z) = b β L b 11 Dimana, n X X t s z ij ik i − T − T − Z bβ = arg min K , , x[C (3.5) 3 ijk β − h h h G,t G,t G,z i=1 1≤j6=k≤N i 2 2 ik 3 i − s) + β − z))] dan K adalah fungsi kernel tiga-dimensi yang memenuhi 123 k k k u v w K (u, v, w) du dv dw 3 P 3 0, k i < k, k i i untuk i = 1, 2, 3 ≤ i=1 6= v |v| =( k = v , k = v , k = v , i 1 2 2 3 3 −1) |v|!, k + k + k = k, 1 2 3 6= 0, 2 Tujuan selanjutnya menaksir variansi V(t,z ) = Γ(t,t,z ) + σ dari Y(t) untuk z tertentu. Misalkan K adalah fungsi kernel dua-dimensi yang memenuhi 12 k k u v K (u, v) du dv 2  1 + k 2 < k, k 1 1 , k 2 2 ≤ k 6= v 6= v |v| =( k 1 = v 1 , k 2 = v 2 −1) |v|! k + k k = k 1 2 1 6= 0 dan V (t,z ) adalah pemulus linier lokal yang hanya menggunakan elemen-elemenwaktu diagonal; maka ˆV (t,z) = b β dimana 0, P P i t−T ij n N z−Z i 2 bβ = arg min K , x [C (T (Z 2 ijj 1 ij 2 i β − β − β − t) − β − z)] i=1 j=1 h h V,t V,z 12 waktu. Ditemukan rekomendasi dalam Yao et al.(2005) untuk menggunakan pe-motongan mean yang didasarkan pada 50% pusat domain waktu yang memuaskan.Pada prinsipnya, ini menghasilkan Z Z 1ˆ V (t,z) (t, t, z) (3.6) L bσ = −b } dt dz , 11 |T | |Z| Z τ di mana T adalah interval [inf 1 {t : t ∈ T} + T/4, sup{t : t ∈ T} - T / 4] dengan notasi I menotasikan panjang interval umum I. Jika variansi dari kesalahan 2 pengukuran bervariasi seiring berjalannya waktu dan z , fungsi variansi σ (t,s) bisa ditaksir secara langsung sebagai V (t,z ) – Γ(t,t,z ). Penyelesaian persamaan-eigen, R bΓ L (t, s, z) b k (s, z) ds = b λ k (z) b k (t, z) , di∅ ∅ mana ˆ φ (t, z) memenuhi φ (t, z) = 1 dan ˆ φ (t, z) ˆ φ (t, z)dt = 0 untuk m < k, di- k k m k gunakan untuk menaksir eigenfungsi dan eigenvalue. Sekarang masih harus ditaksirR R skor komponen utama A (Z ) = (t, Z ) [X (t, Z ) )] dt untuk sub- ik i k i i i i ∅ − µ (t, Z jek ke-i. Karena kesalahan pengukuran dan skedul pengukuran tak kontinu, pen-dekatan dalam Chiou et al.(2003) dan Cardot (2006) tidak berlaku untuk menaksir skor ini. Sebagai gantinya, pendekatan dalam Yao et al.(2005) yang bertujuanmenaksir ekspektasi bersyarat E (A (Z )Y ) cukup cocok untuk menaksir skor ik i i T komponen utama di mana Y = (Y , . . .,Y ) . Dengan asumsi bahwa Y adalah i i1 iN i i normal multivariat, ini menghasilkan taksiran −1 X T dˆ A (z ) = b (Y µ ), ik i i i ∅ ik − b Y i di mana , X T 2 µ = ( µ (T Z )) , (d ) = (T T Z ) + δ i i1, i j,k L ij, ik, i jk b b b bσ Y i dan T = (b (T Z ) , . . . , b (T , Z )) ik k i1, i k iN i i b∅ ∅ ∅ 133.1.2 mFPCA Penaksiran Γ*(s,t) serupa dengan prosedur dalam Yao, Muller dan Wang(2005) kecuali bahwa kita gunakan C ijk sebagai kovariansi mentah. MisalkanˆΓ ∗ (t, s) adalah estimator kovariansi yang didasarkan pada pemulus linier lokal, maka ˆ Γ∗ (t, s) menjadi estimator kovarian berdasarkan linear lokal yang halus, ∧ makaΓ ∗(t, s) = β P n P t−T ij s−T ik untuk, b β = arg min K 2 ( , x[C ijk β { i=1 1≤j6=k≤N i −h G∗ h G∗ 2 (β + β (T (T 1 ij 2 ik − t) + β − s))] },Dimana t,s didefinisikan dalam 2 ∈ T dan KZZ123 k k k u v w K (u, v, w) du dv dw 3 P 3 0, k i < k, k i i untuk i = 1, 2, 3 ≤ 6= v i=1  |v| =( k = v , k = v , k = v , i 1 2 2 3 3 −1) |v|!, k + k + k = k, 1 2 3 6= 0,Misalkan ˆ V∗ (t) adalah pemulus linier lokal yang fokus pada nilai-nilai diagonal ∧ 2 Γ∗(t, t) + σ ∗ maka ˆ V (t) = b β 0, dimana,P n P N i t−T ij 2 bβ = arg min K [C (T , 1 ijj 1 ij β i=1 j=1 − β − β − t)]h V ∗ di mana K adalah fungsi kernel dengan pendukung kompak, simetris dan kontinu. V∗ (t) - ˆΓ ∗ (t, t)) digunakan untuk menaksir 2 σ sama denganR R 1 ˆV (t,z ) - L (t, t, z) bσ=1 1 b } dt dz , |T ||Z| Z τ∗ ∗ R ˆ ˆPenyelesaian dari persamaan-eigen, Γ φ φ (t), di mana k ∗ (t, s) ˆ ∗ (s)ds = ˆλ k k ∗ ∗ 2 ∗ ∗ ˆφ (t) memenuhi ( ˆ φ (t)) dt = 1 dan ˆ φ (t) ˆ φ (t)dt = 0 untuk m < k, digunakan k k k m ∗ untuk menaksir eigenfungsi dan eigenvalue. Skor komponen utama A ik untuk 14 Subjek ke-i ditaksir seperti dalam Yao et al.(2005) melalui −1 ∗T Xˆ ∗ ∗ ∗ ˆA = b λ (Y i µ i ), ik k b∅ ik − b Y i∗ Pˆ di mana Y dan µ didefinisikan seperti dalam Bagian 3.1.1, dan i iˆ Y ij,k ∗ dan ˆ φ (t) didefinisikan sebagai ik ∗ Xˆ ∗ ∗ 2 ( ) = (T T ) + ( ) δ j,k ij, ik jk b bσ Y i dan ∗ ∗ T ( (T ) , . . . , (T )) i1 iN i ∅ k ∅ k 3.1.3 Seleksi Bandwidth dan Jumlah EigenfungsiBandwidth untuk taksiran fungsi mean dipilih melalui pengesahan silang menyisakan satu kurva yang diajukan Rice dan Silverman (1991). Akan tetapibandwidth dari estimator fungsi kovariansi dipilih melalui prosedur pengesahan- silang k-fold untuk menghemat waktu penghitungan. Di bawah ini di definisikanmetode pengesahan-silang k-fold untuk seleksi bandwidth dari Γ* (t,s). Rumus untuk Γ(t,s,z ) sama. Andaikan bahwa subjek dialokasikan secara acak ke k himpunan (S , S , . . . , S ). 1 2 k k X X X ∗(−S ℓ ) 2 h = arg min (T T ) (3.7) ijm ij, im h {C −ˆ }ℓ=1 i∈S 1≤j6=m≤N i ℓ (S t ) di mana ˆ Γ (T , T ) adalah taksiran fungsi kovariansi pada (T ,T ) bila subjek- ij imij im subjek di dalam S l tidak digunakan untuk menaksir Γ*(t,s). Ditemukan metode Ten-fold (k = 10) yang mempunyai kinerja yang memuaskan. Tiga kriteria yang menggunakan bilangan eigenfungsi K adalah membicarakan pada bagian study simulasi. Andaikan bahwa K eigenfungsi pertama digunakanuntuk memprediksi trayektori; diberikan t T dan z Z, prediksi trayektori Xi(t,z) yang didasarkan pada K eigenfungsi pertama akan menjadi <∞, 2 1, = k, = 0≤ k 2 1 µ (t, z) dan kontinu pada{(t, z)}, untuk k d k dtk1 dz k2 (t, z) > 0 5. 2 ≤ k, dan f 1, k 2 ≤ k. ≤ k d k dtk1 dz k2 f 2 (t, z) dan kontinu pada (t, z) untuk k1 + k 2 = k, 0 4. independen terhadap jumlah pen- gukuran N (n). ij dan pengukuran Y ij 3. Observasi waktu T keduanya terbatas. Selain itu,Ni(n), i = 1, ..., N k 6. ψ q (t, z, y) kontinu pada U ({t, z})diy ∈ R; ; dan lim sup ≤ P dan asumsi µ τ µ, untuk beberapa 0 < ρ 2k+2 µ,t → τ2 µ dan nE(N)h µ → ρ h µ,z h µ,t 2 7. Fungsi , P 1 = P dan 0≤ P 2 1 (t, z, y) ada untuk semua argumen ( t , y , z ) dan kontinu pada U ({ t , z }) seragam di y ∈ R untuk P q ψ ∂ p ∂tp1 ∂z p2 n→∞ EN (n)4 (EN (n)2 )2 n→∞ EN (n)2 [EN (n)]2 15(fFPCA) ˆ (t, z) ,(mFPCA) ˆ (t) , ∗ ik b∅∗ k ˆA k=1 (t, z) +P K L (t, z) = bµ i X K k N (z) b∅ ik ˆA k=1 (t, z) +P K L (t, z) = bµ i X K 3.2 Hasil-hasil Asymtot untuk Fungsi Mean dan Fungsi KovarianUntuk penyederhanaan, kovariat Z dalam bagian ini berupa univariat, dan 1 ,...N n adalah dari suatu variabel acak N. Mula-mula fokus pada distribusi asym- tot dari pemulus-pemulus linier fungsi mean. 2. Jumlah observasi Ni (n) untuk subjek i adalah variabel acak dengan Ni (n)˜N (n) dimana N(n) adalah bilangan bulat positif-nilai acak variabel dengan lim sup i <∞ 2k+2 → ∞, E (N) h → 0 dan nE (N) x h |v|+2 ≍ h, h → 0, nE (N) h µ,z ≍ h µ,t Bahwa asumsi1. h N Teori umum untuk estimator berbobot kernel dua dimensi:Lemma 1: Misal H:R n i=1 P 1 n , dan ˆ N = T H(v)) ∂ ∂x1 H (v) , . . . , ∂∂x Q → R suatu fungsi dengan orde kontinu turunan pertamaDH(v)=( Q 16 q1 P 2v +1 D T nh [H ψ ψ α )] N(β [ DH(α α )] [DH (α α )] , Qn 1,..., Q H, 1,..., Q 1,..., Q µ,t 1n,..., −H (α → PDimana = (σ )1 qr ≤ q, r ≤ 1, dan Q Z k X X(12 ∂H −1) k k T β = s s K (s s ) ds ds x [ α , . . . , α ) H 2 1, 2 1 2 1 Q 1 2 {12 k 1 + k 2 ! ∂α q k +k =k1212 q=1 k +k −v −v q ∂ 2k 2 +1 α (t, z) ρ q µ µ122 }τk −α q k −v ∂t ∂z dari teori di atas diperoleh normalitas asymptot dari estimator kernel Nadaraya-Watson ˆ µ (t, z) dan estimator linier lokal ˆ µ (t, z) dari µ(t,z). N W L Pada prinsipnya,P n P N i K ((t )/h (z )/h ) 2 ij µ,t, i µ,z i=1 − T − Zj=1 µ N W (t, z) =(3.8) b P P n N i K 2 ((t ij )/h µ,t, (z i )/h µ,z ) − T − Z i=1 j=1 dimanaµ (t, z) = b β L b n N i ∧ X X t z ij i − T − Z 2 β = arg min K ( , )x[Y (T (Z (3.9) 2 ij 1 ij 2 i β −β −β − t)−β −z)] h µ,t h µ,z i=1 j=1 Hasil asymptot untuk fungsi kovariansi,Perlu mempertimbangkan pemulus tiga-dimensi untuk menaksir fungsi kovariansi. Selain itu, normalitas asymptot dariestimator kernel Nadaraya-Watson dan estimator linier lokal dari fungsi kovariansi Q diperoleh dari Lemma 2. ( Misalkan H:R→ R menjadi fungsi dengan urutan pertama yang kontinu Derivative P n ∂ ∂ T 1 DH (v) = ( H (v) , . . . , H (v)) , dan N = N .Di sini estimator kernel i∂x 1 ∂x n i=1 Nadaraya-Watson atas kovariansi Γ(t,s,z) didefinisikan sebagai 17 P n P t−T ij s−T ik z−Z i bΓ (t, s, z) = K , , C )x N W 3 ijk i=1 1≤j6=k≤N i h G,t h G,t h G,z−1 n ! X X t s z ij ik i − T − T − ZK , , (3.10) 3 h h h G,t G,t G,z i=1 1≤j6=k≤N i Untuk kemudahan notasional, kita fokus pada kasus kernel konvensional berorde (0,2) dan di notasikanRRR 2 2 σ = µ K (µ µ µ ) dµ dµ dµ untuk i = 1 , 2 , 3, 3 1, 2, 3 1 2 1 1 3 6 2 2 5 2 nE (N (N h , nE(N (N h G,z − 1)) h G,t → τ 1 − 1))h G,t G,z → τ 2 Dan v (t, s, z) = V ar((Y , Z))(Y , Z)) = t, T = s, Z = z) 3 1 1 2 2 1 2 − µ (T − µ (T |THasil-hasil asymptot di atas menunjukkan bahwa angka konvergen optimal standar untuk data independen dicapai untuk semua estimator bila E(N) berhingga.Sebagai contoh misalnya, laju konvergensi untuk taksiran Nadaraya-Watson dan 1/3 taksiran linier lokal untuk fungsi mean adalah n yang merupakan laju konver- gensi optimal untuk pemulus dua-dimensi dengan syarat keteraturan serupa, dan 2/7 laju konvergensi untuk kedua estimator fungsi kovariansi adalah n , juga optimal untuk pemulus tiga-dimensi serupa. Laju konvergen dari semua estimator lebih cepat bila perkiraan jumlah pen- gukuran per subjek E(N)→ ∞ apabila semakin banyak data tersedia per subjek.Sebagai contoh misalnya, laju konvergensi untuk kedua taksiran fungsi mean dan 2/5 kedua taksiran fungsi kovariansi bisa secara sebarang mendekati n bila E(N)→ 2/5 adalah laju optimal konvergensi bila proses longitudinal ke-∞. Catat bahwa n seluruhan Y(.,z ) bisa diamati untuk semua subjek i = 1,...,n; karena itu pemulusan i hanya diharuskan pada arah-z yang menghasilkan laju pemulusan satu-dimensi. k1 1 ) ds 2 s 1, (s 2 k2 s 2 Z s 2 1 !k 2 ! 1 k k1 +k2 =2 X = L ), di manaβ L ,P L N(β ds ∂ (t, z)− µ (t, z)] ={Y ) }.Dengan demikian estimator Nadaraya-Watson dan estimator linier lokal dari ko- variansi yang didasarkan pada C ijk ekuivalen secara asymptotik dengan estimatoryang didasarkan pada ˆ C i ,Z ik ik )}{Y i ,Z ij ij ijk 2 , identik dengan yang didasarkan pada ˆ C ijk f 2 (t,z ) adalah kepadatan gabungan dari (T,Z ).Distribusi asymptot estimator yang didasarkan pada ”kovariansi mentah”, C 2k2 +1 µ qρ µ µ(t, z)τ k2 ∂z k1 ∂t D → L ijk . keduanya terbatas. Selain itu,Ni (n), i = 1,. . . , N (t, z) dan kontinu pada (t, z) untuk k 2 f d k dtk1 dz k2 4. independen terhadap jumlah pen- gukuran N (n). ij dan pengukuran Y ij 3. Observasi waktu T n→∞ EN (n)4 (EN (n)2 )2 2 dan lim?sup n→∞ EN (n)2 [EN (n)]2 2. Jumlah observasi Ni (n) untuk subjek i adalah variabel acak dengan Ni (n)˜N (n) di mana N (n) adalah bilangan bulat positif-nilai acak variabel dengan lim?sup <∞ 2k+2 → ∞, E (N) h → 0 dan nE (N) x h |v|+2 ≍ h, h → 0, nE (N) h µ,z ≍ h 18 Normalitas asymptot dari estimator kovariansi mFPCA bisa ditangani seperti dalam Teorema 1. Dengan asumsi1. h µ,t 1 = k, 0≤ k [ bµ µ dan nE(N)h µ,z h µ,t <∞, pnh µ ,τ µ = ρ 2 µ untuk suatu 0 → τ 6 µ,t → ρ 1, h µ,s h µ,t dan dengan mengasumsikan 2 ≤ k. 1, k ≤ k 1 + k 2 = k, 0 µ (t, z) dan kontinu pada{(t, z)}, untuk k 2 (t, z) > 0 5.d k dtk1 dz k2 ≤ k, dan f 2 k Skema simulasi adalah sebagai berikut: untuk setiap subjek, kovariat z di- hasilkan dari U (0,1 ), fungsi mean-nya adalah µ(t,z ) = t + z sin(t ) + (1 – z )cos(t )dan fungsi variansi-kovariansi diperoleh dari dua eigenfungsi φ (t,z) = -cos(π(t + 1 √ √ z/2)) 2 dan φ 2 (t,z) = sin(π(t + z/2)) 2, untuk 0 = t = 1 dengan eigenvalue λ 1 (z) = z/9, λ 2 (z) = z/36 dan λ k = 0 untuk k = 3. Skor komponen utama spesifik A (z) dihasilkan dari N(0,λ (z)), dan kesalahan pengukuran tambahan di- ik k 2 asumsikan berdistribusi normal dengan mean 0 dan variansi (0,05) . Untuk skema pengukuran ij {t } digunakan rancangan “jittered” nonequidistant. Pada pokoknya, kisi berjarak sama ,...,c 50 = 0 dan c 50 = 1 dipilih dan {c } atas [0,1] dengan c jittered menurut rencana s i = c i + ǫ i di mana ǫ i adalah i.i.d. dengan N(0, 0,0001)dan kemudian dibatasi menjadi s = 0 jika s < 0 dan s = 1 jika s > 1. Setiap i i i i kurva diambil sampelnya atas sejumlah acak titik,, di mana N dipilih dari distribusi bilangan acak ij i i {t }, j = 1,...,N{2,...,10}, dan lokasi pengukuran dipilih secara acak dari 1 ,...,s 49 {s } tanpa penggantian. Kernel Epanechniknov digunakan dalam tahap-tahap pemulusan. bandwidth untuk estimator permukaan mean dipilih dengan pengesahan silang sisakan-satu-kurva sementara lebar pita untuk estimator kovariansi dipilih dengan metode pe- ngesahan silang Tine-fold untuk menghemat waktu penghitungan. Tiga kriteria(AIC, BIC dan metode fraksi variasi dijelaskan (FVE)) untuk memilih nilai K juga dibandingkan. AIC dan BIC didefinisikan seperti dalam Yao, Muller dan Wang(2005). 19 20 Metode FVE didefinisikan sebagai jumlah minimum komponen yang dibu- tuhkan untuk menjelaskan setidaknya suatu fraksi yang ditetapkan dari total vari-asi. Dalam simulasi, kami pilih K untuk uFPCA dan mFPCA sebagai bilangan P k P minimum k yang memenuhi ( λ )/( λ ) = 0, 80, dan untuk pendekatan i i i=1 i=1 P P k fFPCA, ini bersesuaian dengan pemilihan k terkecil yang memenuhi λ (z)/ i i=1 i=1 λ (z) = 0, 80 untuk setiap subjek dengan nilai kovariat z. Perbedaan utama adalah i bahwa FVE tipe ini akan memungkinkan pilihan spesifik-subjek untuk jumlah kom- ponen utama dalam fFPCA. Masalahnya adalah bahwa taksiran kovariansi yangdidasarkan pada jumlah komponen utama yang dipilih secara individual mungkin tidak menghasilkan permukaan kovariansi mulus. Untuk meluruskan hal ini danuntuk mempermudah platform seragam guna membandingkan ketiga pendekatan, kami ajukan pilihan global K yang didasarkan pada persentil ke-90 dari k yangdipilih secara individual untuk fFPCA. Pilihan global ini bersifat objektif dan bisa memberikan sedikit keuntungan untuk fFPCA dalam pencocokan data yangdiamati sebagaimana dibandingkan dengan menggunakan nilai mean atau median dari k sebagai pilihan global. Pendekatan AIC dan BIC cenderung memilih terlalubanyak eigenfungsi sehingga bisa memprediksi data dengan baik, sementara FVE adalah yang terbaik untuk memilih model yang tepat. Akan tetapi, pendekatanini diungguli oleh pendekatan lain untuk prediksi seperti yang tampak jelas dalam Tabel 2. Kuadrat kesalahan terpadu mean dari estimator kovariansi untuk mFPCA adalah 0,00046, bias dan standard error dari kedua eigenvalue masing-masingadalah -0,0102 (s.d. = 0,0121) dan -0,0035 (s.d. = 0,0052). Taksiran eigenfungsi rata-rata dari 100 simulasi mendekati eigenfungsi yang sebenarnya seperti yangdiperlihatkan dalam Gambar 1. Ini menunjukkan bahwa estimator kovariansi dari mFPCA cukup akurat. Dari Tabel 1 dan Gambar 2, kinerja fFPCA umumnyamemuaskan walaupun akurasi bervariasi dengan kovariat. Taksiran untuk eigen- fungsi kedua pada Z = 0,1 buruk disebabkan eigenvalue kecil 0,0028, karenanyamungkin tidak perlu memasukkan lebih dari satu eigenfungsi untuk Z = 0,1. Selanjutnya, di bandingkan tiga kriteria pemilihan model yang berbeda dalam memilih jumlah K eigenfungsi. Kita gunakan kuadrat error terpadu mean (MISE)untuk kurva yang sebenarnya X (t,z ), i i 21 RP n 1 2 MISE = (X (t, z ) X (t, z )) dt i i i − ˆ i i=1 n sebagai kriteria di mana K adalah jumlah eigenfungsi yang digunakan untuk mem- prediksi trayektori setiap subjek. Kuadrat error pencocokan mean yang bersesuaian Gambar 4.1 Dua eigenfunctions kovariansi dan estimasi dengan. mFPCA (Sumber : C.-R. Jiang and J.-L Wang 2010)P n P N i 1 1 2 MSFE = (Y Y ) ij iji=1 j=1 − ˆ n N i Sebuah outlier terdeteksi dalam jangka 6 untuk mFPCA diprediksi trayektori, se- hingga termasuk dua hasil dalam Tabel 4.2 Tabel 4.1 Hasil Simulasi fFPCA Covariate z 0.1 0.3 0.5 0.7 0.9 LSE untuk ˆ Γ L 0.00015 0.00025 0.00071 0.0014 0.0030 LSE untuk ˆ φ (t, z) 0.0294 0.0076 0.0071 0.0074 0.0112 1φ LSE untuk ˆ (t, z) 0.2720 0.0305 0.0242 0.0179 0.0300 2ˆ λ (z) 0.0047 -0.0041 -0.0113 -0.0202 -0.0242 1(0.0073) (0.0106) (0.0181) (0.0205) (0.0333) ˆ λ (z) 0.0034 0.0001 0.0005 -0.0002 -0.0037 2(0.0045) (0.0039) (0.0057) (0.0077) (0.0094) (Sumber : C.-R. Jiang and J.-L Wang 2010) 22 Tabel 4.2 Rata-rata MISE dan MSFE dalam 100simulasi berjalan untuk tiga pendekatan MISE MSFE FVE AIC BIC FVE AIC BICuFPCA 0.0339 0.0215 0.0215 0.0047 0.0035 0.0036 (0.0325) (0.0198) (0.0197) 0.0067) (0.0065) 0.0025mFPCA 0.1075 0.0077 0.0076 0.0039 0.0024 0.0025 (0.0103) (0.0063) (0.0063) (0.0050) (0.0017) (0.0017)fFPCA 0.0085 0.0077 0.0077 0.0039 (0.0027) 0.0027 (0.0085) (0.0077) (0.0077) (0.0022) (0.0015) (0.0015) (Sumber : C.-R. Jiang and J.-L Wang 2010)Outlier terdeteksi pada putaran ke-6 untuk trayektori yang diprediksi mFPCA, karenanya kita masukkan dua hasil dalam Tabel 4.2, satu dengan semua simulasidan satu dengan putaran outlier ini dicoret. Tidak aneh, uFPCA lebih unggul pada umumnya dengan kedua pendekatan yang disesuaikan kovariat. Bila meng-gunakan metode FVE sebagai kriteria dalam memilih K, fFPCA sedikit lebih baik daripada mFPCA. Akan tetapi, bila menggunakan AIC atau BIC sebagai kriteriadalam memilih K,di tampilkan dari Gambar 4.2 Dari dua eigenfunctions pertama diperkirakan melalui fFPCA pada lima nilai yang berbeda dari covarite tersebut (Sumber : C.-R. Jiang and J.-L Wang 2010) 23 Kinerja mFPCA sebanding, jika tidak lebih baik dari kinerja fFPCA. akibat- nya, jika tujuannya adalah untuk memprediksi trayektori subjek, direkomendasikanmFPCA dengan BIC karena kesederhanaannya. Untuk tujuan pemodelan, fFPCA dengan metode FVE lebih diinginkan. 4.1 Aplikasi DataDijelaskan suatu pendekatan FPCA yang disesuaikan-kovariat melalui data reproduksi untuk lalat buah Mexico. Studi dilaksanakan di fasilitas penangkaranlalat buah di dekat Metapa, Chiapas, Mexico. Produksi telur (jumlah telur) per hari dicatat untuk sebanyak 1151 betina sampai lalatnya mati. Tujuannya di siniadalah untuk mengkaji pengaruh reproduksi dini, sebagaimana diukur menurut total reproduksi hingga usia 30 (dalam hari), pada pola reproduksi hingga usia 50. Dikesampingkan lalat yang mandul dan lalat yang hidup kurang dari 50 hari.ini memberikan platform seragam untuk melaksanakan FPCA dan hanya mengkaji lalat yang hidup setidaknya sekitar lama hidup rata-rata ( ≈ 50,9 hari) lalat yang subur. Dari 567 lalat tersisa, di pilih secara acak 2 sampai 10 pengamatan dalam50 hari pertama, karenanya bisa dibandingkan hasil-hasil untuk data yang jarang dengan data lengkap untuk mengesahkan pendekatan mFPCA dan fFPCA yangbaru. Selain itu, dibandingkan pendekatan baru dengan tiga pendekatan FPCA yang berbeda yang tidak memasukkan informasi kovariat. Yang pertama adalahuFPCA dalam Yao et al. (2005), yang kedua adalah pendekatan rank tereduksi dalam James et al. (2000), yang disebut dengan istilah rFPCA dengan ”r” menya-takan rank tereduksi, dan yang ketiga adalah pendekatan geometrik dalam Peng dan Paul (2009) yang sama dengan metode rank tereduksi tetapi dengan algo-ritma yang berbeda. Kita sebut pendekatan ini dengan istilah ”gFPCA” dengan”g” menyatakan geometrik. Baik rFPCA maupun gFPCA mengasumsikan bahwaX(t) adalah suatu proses Gauss, error pengukuran berdistribusi normal, dan meng- gunakan basis natural atau B-spline untuk mengekspansikan eigenfungsi. Keduapendekatan ini bertujuan memaksimalkan fungsi likelihood, tetapi rFPCA meng- gunakan algoritma EM untuk mencapainya dan gFPCA menghambat fungsi like-lihood secara langsung dengan metode Newton-Raphson dengan mengeksploitasi 24 struktur geometrik dari eigenfungsi begitu berada di manifol Stiefel. Karena rFPCAberfungsi sebagai taksiran awal untuk gFPCA, kode awal untuk rFPCA meningkat dan dimasukkan dalam paket R, fpca, yang tersedia pada proyek CRAN. Seperti yang diajukan dalam James et al.(2000), jumlah basis di dalam rFPCA dipilih dengan likelihood pengesahan-silang Ten-fold dan jumlah eigenfungsi diku-rangi dengan metode FVE yang biasa (fraksi dari variasi yang dijelaskan). Untuk data Medfly, dipilih 15 basis dan jumlah eigenfungsi yang dihasilkan bersesuaiandengan 80% dan 90% FVE, seperti yang dilaporkan dalam Tabel 3, masing-masing adalah 9 dan 11. Pilihan fungsi basis B-spline dan jumlah eigenfungsi untukgFPCA dipilih dengan metode likelihood disahkan-silang baru yang diajukan dalam Peng dan Paul (2009) dan ini menghasilkan 8 basis dan 5 eigenfungsi. Tabel 4.3 MSFEs dari mFPCA, fFPCA, uFPCA dan rFPCA berdasarkan data jarang FVE(80%) FVE(90%) AIC BIC MSFE K MSFE K MSFE K MSFE KmFPCA 614.1(465.9)4 612.8(447.9)6 611.8(433.7)14 612.0(436.4)10 fFPCA 614.9(464.4)4 613.9(454.4)5 612.8(441.3)11 613.2(445.7)7uFPCA 648.6(499.8)2 684.6(499.8)2 680.8(471.6)8 680.9(473.6)6 rFPCA 720.2(136.6)9 719.1(131.5)11uFPCA 681.0(477.3) 680.8(472.1) 680.7(471.6) untuk K=4 untuk K=10 untuk K=14gFPCA 7.85.1(684.6) 784.8(647.1) untuk K=5(dasar untuk K=6dalam metode CV) (Sumber : C.-R. Jiang and J.-L Wang 2010) Gambar 4.1.2 menunjukkan taksiran permukaan mean dari mFPCA dan fFPCA untuk data jarang dan data lengkap; ini mengindikasikan bahwa angka reproduksi per hari berkorelasi dengan reproduksi kumulatif di usia muda, tetapi estimator mean tersebut bekerja dengan baik sekalipun data jarang. Subjek dengan repro-duksi kumulatif yang lebih tinggi di usia muda cenderung menunjukkan angka reproduksi per hari yang lebih tinggi. Serupa dengan estimator mean, estimatorkovariansi dari mFPCA juga bekerja dengan sangat baik bila data sejarang yang diperlihatkan Gambar 4. Taksiran fungsi kovariansi yang didasarkan pada datalengkap tidak begitu mulus seperti yang didasarkan pada data yang jarang karena lebar pita yang lebih kecil dipilih bila ada lebih banyak data secara berarti. 25 Kuadrat error dicocokkan mean untuk ke lima pendekatan dilaporkan dalam Tabel 4.1.1 Kinerja uFPCA, mFPCA dan fFPCA sama dengan yang diperoleh dari studi simulasi,mFPCA umumnya sedikit lebih baik daripada fFPCA untuk data jarang, dan keduanya mengungguli uFPCA dan gFPCA. Peningkatan mFPCA dan fFPCA dibanding uFPCA tampaknya marginal untuk data jarang, tetapi hal inidisebabkan error pengukiuran yang besar (taksiran σ dengan mFPCA, fFPCA, uFPCA masing-masing adalah 25,34, 25,44, 24,81) ada di dalam data. KarenauFPCA hanya memilih dua eigenfungsi, dan berusaha memeriksa apakah bisa meningkatkannya dengan meningkatkan jumlah eigenfungsi. digunakan mFPCAsbeagai ukuran, dan bagian bawah dari Tabel 3 melaporkan hasil tambahan untuk uFPCA yang menggunakan jumlah komponen yang sama (K = 4, 10 dan 14) de-ngan mFPCA. Akan dimasukkan hasil tambahan untuk gFPCA untuk dibanding- kan dengan mFPCA; akan tetapi, CV memilih 8 basis dan karenanya membatasK pada K = 8. Ini hanya menghasilkan satu kasus tambahan bila K = 6 karena algoritma menemukan situasi singuleritas untuk kasus dengan K = 8. Fenomena yang menarik adalah kinerja rFPCA, yang sampai sejauh ini meng- ungguli semua prosedur lainnya untuk data jarang tetapi tidak untuk data lengkapdi mana uFPCA, mFPCA dan fFPCA semuanya mempunyai error pencocokan yang lebih kecil. Gambar 4.3 Estimasi rata-rata permukaan untuk data jarang dan lengkap Sumber : C.-R. Jiang and J.-L Wang 2010 26 Gambar 4.4 Estimasi kovarians permukaan mFPCA untuk jarang danSumber : C.-R. Jiang and J.-L Wang 2010 Ini menunjukkan adanya masalah pencocokan berlebihan dan membutuhkan penelitian lebih lanjut. hal ini dapat diselidiki dengan simulasi tetapi tidak bisamencapai kesimpulan dengan menggunakan simulasi, Algoritma pada rFPCA mau- pun gFPCA menemukan situasi singuleritas atau tidak bisa konvergen dalam ban-yak putaran dengan masalah divergen yang lebih serius untuk gFPCA. Tam- pak bahwa parameter-parameter pemulusan untuk kedua metode sensitif terhadapdata. Sebagai rangkuman, data ini mendukung pendekatan yang disesuaikan de- ngan kovariat yang lebih sederhana yang hanya menyesuaikan mean tetapi tidakkovariansi. Keuntungan tambahan dari pendekatan mFPCA adalah kecepatan hi- tungnya. Waktu penghitungan data lalat buah Mexico untuk fFPCA 20 kali lebihbesar daripada mFPCA setelah bandwidth untuk fungsi mean dan fungsi kovariansi dipilih. Jika dimasukkan waktu untuk memilih bandwith tersebut, gap lebih ke-cil begitu CV Ten-fold digunakan untuk menaksir fungsi kovariansi untuk mFPCA maupun fFPCA, yang menyisakan VC sisakan-satu untuk fungsi mean bagian yangpaling memakan waktu dari algoritma. Akan tetapi, biaya penghitungan untuk fFPCA meningkat sesuai dengan peningkatan jumlah total pengamatan. BAB 5 KESIMPULAN DAN SARAN 5.1 KesimpulanPendekatan-pendekatan sekarang ini untuk FPCA mungkin tidak lagi co- cok untuk data fungsional bila informasi kovariat tersedia. Diajukan dua alter-natif untuk memadukan efek kovariat pada data respon fungsional, dengan menye- suaikan efek kovariat hanya pada fungsi mean (mFPCA) atau menyesuaikan efekkovariat juga untuk kovariansi (fFPCA). Bukti numerik mendukung pendekatan disesuaikan-mean yang lebih sederhana terutama bila tujuannya adalah untukmemprediksi trayektori Y(t). Akan tetapi, fFPCA memakan waktu dan mFPCA hanya sedikit kurang efisien dibandingkan dengan fFPCA dalam pencocokan X(t) tetapi bisa lebih efisiendaripada fFPCA dalam memprediksi Y(t), karenanya mFPCA bisa menjadi pen- dekatan yang menarik untuk mengakomodir kovariat. Kedua pendekatan FPCA adalah bebas model dan memberikan taksiran non- parametrik untuk efek tetap maupun efek acak. Keuntungan dari pendekatanberbasis komponen utama adalah: (1) Lebih sedikit efek acak dibutuhkan untuk mencocokkan data; (2) Mempunyai nilai tambah untuk menunjukkan mode vari-asi data dan (3) Memberikan petunjuk untuk model hemat lainnya seperti model koefisien bervariasi atau model efek campuran linier. Mengembangkan prosedurkesimpulan formal dengan menggunakan pendekatan mFPCA atau fFPCA untuk pengesahan model akan menjadi proyek penting di masa mendatang. 5.2 SaranKepada peneliti selanjutnya dapat menyempurnakan hasil dari tulisan ini dengan memperluas Z multivariat secara konseptual dan secara teoritis dengan penurunandimensi pada Z untuk implementasi praktis 27 10, 523-536.Besse, P. and Ramsay, J. O. (1986). Principal components analysis of sampledfunc- tions. Psychometrika 51, 285-311. Brown, E. R., Ibrahim, J. G. and DeGruttola, V. (2005). A flexible B-spline model for multiple longitudinal biomarkers and survival. Biometrics 61, 64-73.Bycott, P. and Taylor, J. (1998). A comparison of smoothing techniques for CD4 data measured with error in a time-dependent cox proportional hazard model. Statistics in Medicine 17, 2061-2077.Cardot, H. (2006). Conditional functional principal components analysis. Scand. J. Statist. 34 317-335.Castro, P. E., Lawton, W. H. and Sylvestre, E. A. (1986). Principal modes of variation for processes with continuous sample curves. Technometrics 28, 329- 337.Chiou, J.-M., Muller, H.-G. and Wang, J.-L. (2003). Functional quasi-likelihood regression models with smooth random effects. J. R. Stat. Soc. Ser. B Stat. Methodol. 65 405-423.Dafni, U. G. and Tsiatis, A. A. (1998). Evaluating surrogate markers if clinical outcomes measured with error. Biometrics 54, 1445-1462. Fan, J. and Gijbels, I. (1996). Local Polynomial Modelling and Its Applications. Chapman and Hall, London.Faucett, C. L. and Thomas, D. C. (1996). Simultaneously modelling censored sur- vival data and repeatedly measured covariates: a Gibbs sampling approach. Statistics in Medicine 15, 1663-1685.Ferraty, F. and Vieu, P. (2006). Nonparametric Functional Data Analysis: Theory and Practice. Springer, New York. Guo, W. (2002). Funcitonal mixed effectsmodels. Biometrics 58 121-128.Henderson, R., Diggle, P. J. and Dobson, A. (2000). Joint modelling of longitudinal measurements and event time data. Biostatistics 4, 465-480.18Hsieh, F., Tseng, Y. K. and Wang, J. L. (2006). Joint modelling of survival and longitudinal data: likelihood approach revisited. Biometrics, to appearJames, G. M., Hastie, T. J. and Suger, C. A. (2000). Principal components models for sparse functional data. Biometrika 87 587-602. Kneip, A. and Utikal, K. (2001). Inference for density families using functional principal component analysis. J. Amer. Statist. Assoc. 96 519-532.Pawitan, Y. and Self, S. (1993). Modelling disease marker processes in AIDS. Journal of the American Statistical Association 88, 719-726. 28 29 Prentice, R. (1982). Covariate measurement errors and parameter estimates in a failure time regression model. Biometrika 69, 331-342. Raboud, J., Reid, N., Coates, R. A. and Farewell, V. T. (1993). Estimating risks of progressing to AIDS when covariates are measured with error. Journal of theRoyal Statistical Society A 156, 396-406.Ramsay, J. O. and Silverman, B. W. (1997). Functional Data Analysis. Springer, New YorkRamsay, J. O. and Silverman, B.W. (2002). Applied Functional Data Analysis: Methods and Case Studies. Springer, New York. Ramsay, J. O. and Silverman, B. W. (2005). Functional Data Analysis, 2nd ed. Springer, New York.Rice, J. and Silverman, B. (1991). Estimating the mean and covariance structur nonparametrically when the data are curves. J. Roy. Statist. Soc. Ser. B 53 233-243.Rice, J. and Wu, C. (2000). Nonparametric mixed effects models for unequally sampled noisy curves. Biometrics 57, 253-259. Rice, J. A. (2004). Functional and longitudinal data analysis: Prospectives on smoothing. Statist. Sinica 14 631-647.Wang, Y. and Taylor, J. M. G. (2001). Jointly modelling longitudinal and event time data with application to acquired immunodeficiency syndrome. Journalof the American Statistical Association, 96, 895-905.Wu, H. and Zhang, J.-T. (2006). Nonparametric Regression Methods for Longitu- dinal Data Analysis: Mixed-Effects Modeling Approaches. Wiley, Hoboken, NJ.Xu, J. and Zeger, S. L. (2001b). Joint analysis of longitudinal data comprising repeated measures and times to event. Applied Statistics 50, 375-387Silverman, B. W. (1996). Smoothed functional principal components analysis by choice of norm. The Annals of Statistics 24, 1-24. Slasor, P. and Laird, N. (2003). Joint models for efficient estimation in proportional hazards regression models. Statistics in Medicine 22, 2137-2148.Tsiatis, A. A., Degruttola, V. and Wulfsohn, M. S. (1995). Modelling the rela- tionship of survival to longitudinal data measured with error. Applicationsto survival and cd4 counts in patients with AIDS. Journal of the American Statistical Association, 90, 27-37.Wulfsohn, M. S. and Tsiatis, A. A. (1997). A joint model for survival and longitu- dinal data measured with error. Biometrics 53, 330-339.Yao, F., Muller, H.-G. and Wang, J.-L. (2005). Functional data analysis for sparse longitudinal data. J. Amer. Statist. Assoc. 100 577-590Yao, F. and Lee, T. C. M. (2006). Penalized spline models for functional principal component analysis. Journal of the Royal Statistical Society B, 68, 3-25. 30 Yao, F. (2007). Asymptotic distributions of nonparametric regression estimators for longitudinal of functional data. J. Multivariate Anal. 98 40-56.
Kovariat Dari Fungsional Prinsipal Komponen Analisis Untuk Data Longitudinal Kovariat Dari Fungsional Prinsipal Komponen Analisis Untuk Data Longitudinal
Aktifitas terbaru
Penulis
Dokumen yang terkait
Upload teratas

Kovariat Dari Fungsional Prinsipal Komponen A..

Gratis

Feedback